Spark JDBC读取API。动态确定日期类型列的分区数量

0 人关注

我正在尝试使用PySpark从RDS的MySQL实例中读取一个表。这是一个巨大的表，因此我想通过利用分区的概念来并行化读取操作。该表没有一个数字列来查找分区的数量。相反，它有一个时间戳列（即数据时间类型）。

我通过检索时间戳列的最小和最大值找到了下限和上限。然而，我不确定是否有一个标准的公式可以动态地找出分区的数量。以下是我目前正在做的事情（硬编码参数numPartititons的值）。

select_sql = "SELECT {} FROM {}".format(columns, table)
partition_info = {'partition_column': 'col1', 
                  'lower_bound': '<result of min(col1)>', 
                  'upper_bound': '<result of max(col1)>', 
                  'num_partitions': '10'}
read_df = spark.read.format("jdbc") \
        .option("driver", driver) \
        .option("url", url) \
        .option("dbtable", select_sql) \
        .option("user", user) \
        .option("password", password) \
        .option("useSSL", False) \
        .option("partitionColumn", partition_info['partition_column']) \
        .option("lowerBound", partition_info['lower_bound'])) \
        .option("upperBound", partition_info['upper_bound'])) \
        .option("numPartitions", partition_info['num_partitions']) \
        .load()

推荐文章

机灵的烤地瓜 · Unable to connect to the server: x509: certificate is valid for_kubernetes_K8SOQ-K8S/Kubernetes

1 年前

才高八斗的西红柿 · matlab静态文本框居中-掘金

1 年前

怕老婆的可乐 · 如何修复字符串不是标准的明确的格式 - 掘金

2 年前

博学的钢笔 · 算法基础系列第三章——图论之最短路径问题(1)-阿里云开发者社区

2 年前

爱搭讪的烤土司 · spring quartz定时器_51CTO博客_springboot 定时器

2 年前