Spark：使用partitionColumn选项读取数据库原理

相关文章推荐

彷徨的骆驼 · 复杂帧动画之移动端video采坑实现_51C ...· 1 年前 ·

逃课的针织衫 · cnpm ...· 1 年前 ·

魁梧的酸菜鱼 · Handler post方法与用法 - 简书· 1 年前 ·

刚毅的鸵鸟 · VF RenderAs PDF page ...· 1 年前 ·

光明磊落的高山 · SidebySide ...· 1 年前 ·

val df = spark . read . format ( "jdbc" ) . option ( "driver" , "oracle.jdbc.driver.OracleDriver" ) . option ( "url" , "jdbc:oracle:thin:@10.18.2.3:1521:dbname" ) . option ( "user" , "***" ) . option ( "password" , "***" ) . option ( "dbtable" , s "(select t.*, ROWNUM rownum__rn from ${tbname} t) b" ) . option ( "fetchsize" , 100000 ) . option ( "partitionColumn" , "rownum__rn" ) . option ( "lowerBound" , 1 ) . option ( "upperBound" , 4000000 ) . option ( "numPartitions" , 2 ) . load ( ) . drop ( "rownum__rn" )

伪代码，仅帮助理解：

# 情况一：
if partitionColumn || lowerBound || upperBound || numPartitions 有任意选项未指定，报错
# 情况二：
if numPartitions == 1 忽略这些选项，直接读取，返回一个分区
# 情况三：
if numPartitions > 1 && lowerBound > upperBound 报错
# 情况四： 
numPartitions = min(upperBound - lowerBound, numPartitions)
if numPartitions == 1 同情况二
else 返回numPartitions个分区
delta = (upperBound - lowerBound) / numPartitions
分区1数据条件：partitionColumn <= lowerBound + delta || partitionColumn is null
分区2数据条件：partitionColumn > lowerBound + delta && partitionColumn <= lowerBound + 2 * delta
...
最后分区数据条件：partitionColumn > lowerBound + n*delta

推荐文章

彷徨的骆驼 · 复杂帧动画之移动端video采坑实现_51CTO博客_video加载第一帧

1 年前

逃课的针织衫 · cnpm 是什么？怎么配置？_AI创世纪的博客-CSDN博客

1 年前

魁梧的酸菜鱼 · Handler post方法与用法 - 简书

1 年前

刚毅的鸵鸟 · VF RenderAs PDF page size as A4 - Salesforce Developer Community

1 年前

光明磊落的高山 · SidebySide ID:33错误_事件id33_loonghun的博客-CSDN博客

1 年前