在确认文件存在的情况下,出现这个问题的原因是:在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark

解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。

解决方式2:直接将数据文件上传到hdfs,达到数据共享。

spark2 报错:Lineage directory /var/log/spark2/lineage doesn‘t exist or is not writable. 解决方法

异常原文:20/08/06 14:29:43 ERROR spark.SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: Exception when registering SparkListener at org.apache.spark.SparkContext.setupAndStartListenerBus(SparkContext.scala:2364) at org.apache.