本文提供一个示例代码,代码表示读取 TOS 路径下的数据文件,然后统计数据的条数。
您只需在 Spark 任务中使用
tos://
前缀表明使用 TOS 服务,然后填写存储桶和文件路径即可访问到数据文件。
from __future__ import print_function
import sys
import time
from random import random
from operator import add
import os.path
import os
from pyspark.sql import SparkSession
from pyspark import SparkFiles
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("TestTos")\
.getOrCreate()
path = "tos://tos-example/spark-demo"
df = spark.read.parquet(path)
df.count()
spark.stop