我想把一个pyspark数据框架加载到Google BigQuery表中。
我通过运行
spark-submit --jars batch/jars/gcs-connector-hadoop2-latest.jar,batch/jars/spark-bigquery-latest.jar main_batch.py
我想我已经设置了所有需要的配置。
sc = SparkSession\
.builder\
.config("temporaryGcsBucket", "test_project_bucket_pyspark") \
.config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")\
.config("fs.gs.auth.service.account.enable", "true") \
.config("google.cloud.auth.service.account.json.keyfile", "config/google/service_account_project.json") \
.master("local[1]")\
.appName("spark_etl")\
.getOrCreate()
而且我正在运行这个保存到BigQuery中。
df.write \
.format("bigquery") \
.option('table', 'dataset_project_test.tickets') \
.option("encoding", "UTF-8") \
.option("nullValue", "\u0000") \
.option("emptyValue", "\u0000") \
.mode("append") \
.save()
但我收到以下错误。
py4j.protocol.Py4JJavaError: An error occurred while calling o1176.save.
: java.io.IOException: No FileSystem for scheme: gs
我做错了什么?谢谢你