以下发行说明提供了由 Apache Spark 3.3.0 提供支持的 Databricks Runtime 11.2 的相关信息。 Databricks 于 2022 年 9 月发布了这些映像。

新增功能和改进

  • 更改表访问控制(表 ACL)中的 ALTER TABLE 权限
  • MERGE INTO 的动态修剪
  • 通过动态文件修剪改进了 Delta 中的冲突检测
  • DSE/SQL 主页中的新“开源集成”卡
  • CONVERT TO DELTA 分区检测改进
  • 表架构现在支持列的默认值
  • 新的 H3 地理空间函数
  • 新的 Databricks Runtime 依赖项
  • 自带密钥:Git 凭据加密
  • SQL:新的聚合函数 any_value
  • 更多群集类型允许使用 Databricks 实用程序文件系统命令
  • 现可授予对 Unity Catalog 元存储的创建权限
  • 优化了启用 Photon 的群集中未分区表的写入
  • 为更多数据源提供 Photon 支持
  • SQL:ALTER SHARE 现在支持 START VERSION
  • 更改表访问控制(表 ACL)中的 ALTER TABLE 权限

    现在用户仅需要具备 MODIFY 权限即可更改表架构,或使用 ALTER TABLE 权限更改属性。 授予表权限、更改表所有者和位置或重命名表仍需要所有权。 此更改使表 ACL 的权限模型与 Unity Catalog 一致。 请参阅 ALTER TABLE

    MERGE INTO 的动态删除

    MERGE INTO 现在在有效时使用动态文件和分区删除来提高性能。 例如,当一个小的源表被合并到一个更大的目标表中时,通常就是这种情况。

    通过动态文件删除改进了 Delta 中的冲突检测

    在提交期间检查潜在冲突时,冲突检测现在会考虑由动态文件删除删除但没有由静态筛选器删除的文件。 这导致失败的事务数量减少。

    DSE/SQL 主页中的新“开源集成”卡

    在 DSE/SQL 主页中引入新的“开源集成”卡来显示开源集成选项,例如增量实时表和 dbt core。

    CONVERT TO DELTA 分区检测改进

    CONVERT TO DELTA 会自动推断注册到 Hive 元存储或 Unity Catalog 的 Parquet 表的分区架构,而无需提供 PARTITIONED BY 子句。

    CONVERT TO DELTA 利用元存储中的分区信息来发现 Parquet 表的文件而不是列出整个基本路径,从而确保删除的分区不会添加到 Delta 表中。

    请参阅 转换为 Delta Lake

    表架构现在支持列的默认值

    表架构现在支持为列设置默认值。 这些列的 INSERT UPDATE DELETE 命令可以使用 DEFAULT 关键字引用这些值。 例如, CREATE TABLE t (id INT, data INT DEFAULT 42) USING PARQUET 后跟 INSERT INTO t VALUES (1, DEFAULT) 将追加行 (1, 42) 。 CSV、JSON、Orc 和 Parquet 数据源支持此行为。

    新的 H3 地理空间函数

    现在可以使用 28 个新的内置 H3 表达式,在支持 Photon 的群集中进行地理空间处理(适用于 SQL、Scala 和 Python)。 请参阅 H3 地理空间函数

    新的 Databricks Runtime 依赖项

    Databricks Runtime 现在依赖于 H3 Java 库版本 3.7.0

    自带密钥:Git 凭据加密

    可以使用 Azure Key Vault 加密 Git 个人访问令牌 (PAT) 或其他 Git 凭据。

    请参阅 设置 Databricks Repos

    SQL:新的聚合函数 any_value

    新的 any_value 聚合函数为一组行返回 expr 的任何随机值。 请参阅 any_value 聚合函数

    更多群集类型允许使用 Databricks 实用程序文件系统命令

    dbutils.fs 命令(与装载相关的命令除外)现在允许在具有 Unity Catalog 的用户隔离群集以及用户拥有 ANY FILE 权限时的旧表 ACL 群集上使用。

    现可授予对 Unity Catalog 元存储的创建权限

    现可授予对 Unity Catalog 元存储的创建目录、创建外部位置、创建共享、创建收件人和创建提供程序权限。

    优化了启用 Photon 的群集中未分区表的写入

    Unity Catalog 托管表现在会自动保存未分区表中大小合适的文件,以提高查询速度和优化性能。

    为更多数据源提供 Photon 支持

    Photon 现在支持更多数据源,包括 CSV 和 Avro,并与缓存数据帧兼容。 以前扫描这些数据源时,无论查询的运算符或表达式如何,都无法 Photon 化整个查询。 现在,扫描这些数据源的查询可 Photon 化,从而显著改进延迟和 TCO。

    默认情况下,此功能通过 spark.databricks.photon.photonRowToColumnar.enabled 配置启用。

  • 此版本中不支持具有嵌套类型的架构(即数组、映射和结构)。
  • 此版本中不支持 ORC、RDD、Kinesis、Kafka 和 EventHub 源。
  • SQL:ALTER SHARE 现在支持 START VERSION

    ALTER SHARE 命令现在支持 START VERSION ,它允许提供程序共享从特定表版本开始的数据。 请参阅 更改共享

  • 升级了 Python 库:
    • distlib 已从 0.3.4 升级到 0.3.5
    • filelock 已从 3.7.1 升级到 3.8.0
    • plotly 已从 5.8.2 升级到 5.9.0
    • protobuf 已从 4.21.2 升级到 4.21.5
    • 升级了 R 库:
      • broom 已从 0.8.0 升级到 1.0.0
      • bslib 已从 0.3.1 升级到 0.4.0
      • callr 从 3.7.0 到 3.7.1
      • caret 已从 6.0-92 升级到 6.0-93
      • dbplyr 已从 2.2.0 升级到 2.2.1
      • devtools 已从 2.4.3 升级到 2.4.4
      • evaluate 已从 0.15 升级到 0.16
      • farver 已从 2.1.0 升级到 2.1.1
      • fontawesome 从 0.2.2 到 0.3.0
      • future 已从 1.26.1 升级到 1.27.0
      • generics 已从 0.1.2 升级到 0.1.3
      • gert 已从 1.6.0 升级到 1.7.0
      • globals 已从 0.15.1 升级到 0.16.0
      • googlesheets4 已从 1.0.0 升级到 1.0.1
      • hardhat 已从 1.1.0 升级到 1.2.0
      • htmltools 已从 0.5.2 升级到 0.5.3
      • parallelly 已从 1.32.0 升级到 1.32.1
      • pillar 已从 1.7.0 升级到 1.8.0
      • pkgload 已从 1.2.4 升级到 1.3.0
      • processx 已从 3.6.1 升级到 3.7.0
      • Rcpp 已从 1.0.8.3 升级到 1.0.9
      • recipes 已从 0.2.0 升级到 1.0.1
      • rlang 已从 1.0.2 升级到 1.0.4
      • roxygen2 已从 7.2.0 升级到 7.2.1
      • RSQLite 已从 2.2.14 升级到 2.2.15
      • sass 已从 0.4.1 升级到 0.4.2
      • shiny 从 1.7.1 到 1.7.2
      • stringi 已从 1.7.6 升级到 1.7.8
      • tibble 已从 3.1.7 升级到 3.1.8
      • tidyverse 已从 1.3.1 升级到 1.3.2
      • timeDate 从 3043.102 升级到 4021.104
      • xfun 已从 0.31 升级到 0.32
      • 升级了 Java 库:
        • org.apache.orc.orc-core 已从 1.7.4 升级到 1.7.5
        • org.apache.orc.orc-mapreduce 已从 1.7.4 升级到 1.7.5
        • org.apache.orc.orc-shims 已从 1.7.4 升级到 1.7.5
        • Apache Spark

          Databricks Runtime 11.2 包括 Apache Spark 3.3.0。 此版本包括 Databricks Runtime 11.1(不受支持) 中提供的所有 Spark 修复和改进,还包括对 Spark 进行的以下其他 bug 修复和改进:

        • [SPARK-40151] [WARMFIX][SC-109002][SC-108809][SQL] 从百分位函数返回更广泛的 ANSI 间隔类型
        • [SPARK-40054] [SQL] 还原 try_cast() 的错误处理语法
        • [SPARK-39489] [CORE] 通过使用 Jackson 而不是 Json4s 来提高事件日志 JsonProtocol 性能
        • [SPARK-39319] [CORE][SQL] 将查询上下文作为 SparkThrowable 的一部分
        • [SPARK-40085] [SQL] 使用 INTERNAL_ERROR 错误类而不是 IllegalStateException 来指示 bug
        • [SPARK-40001] [SQL] 使 NULL 写入 JSON DEFAULT 列将“null”写入存储
        • [SPARK-39635] [SQL] 在 DS v2 自定义指标 API 中支持驱动程序指标
        • [SPARK-39184] [SQL] 处理日期和时间戳序列中偏小的结果数组
        • [SPARK-40019] [SQL] 重构 ArrayType 的 containsNull 的注释并重构 collectionOperator 的表达式中有关 containsNull 的误解逻辑
        • [SPARK-39989] [SQL] 如果是可折叠表达式,则支持估计列统计信息
        • [SPARK-39926] [SQL] 修复非矢量化 Parquet 扫描的列 DEFAULT 支持的 bug
        • [SPARK-40052] [SQL] 在 VectorizedDeltaBinaryPackedReader 中处理直接字节缓冲区
        • [SPARK-40044] [SQL] 修复强制转换溢出错误中的目标间隔类型
        • [SPARK-39835] [SQL] 修复 EliminateSorts 移除本地排序下的全局排序
        • [SPARK-40002] [SQL] 不要使用 ntile 通过窗口下推限制
        • [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
        • [SPARK-39985] [SQL] 在 DataFrames 插入中启用隐式 DEFAULT 列值
        • [SPARK-39776] [SQL] JOIN 详细字符串应添加 Join 类型
        • [SPARK-38901] [SQL] DS V2 支持下推其他函数
        • [SPARK-40028] [SQL][FollowUp] 改进字符串函数示例
        • [SPARK-39983] [CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
        • [SPARK-39812] [SQL] 简化使用 toAggregateExpression 构造 AggregateExpression 的代码
        • [SPARK-40028] [SQL] 为字符串表达式添加二进制示例
        • [SPARK-39981] [SQL] 在 Cast 中引发异常QueryExecutionErrors.castingCauseOverflowErrorInTableInsert
        • [SPARK-40007] [PYTHON][SQL] 将“模式”添加到函数
        • [SPARK-40008] [SQL] 支持将整型转换为 ANSI 间隔
        • [SPARK-40003] [PYTHON][SQL] 将“中值”添加到函数
        • [SPARK-39952] [SQL] SaveIntoDataSourceCommand 应重新缓存结果关系
        • [SPARK-39951] [SQL] 更新嵌套字段的 Parquet V2 列式检查
        • [SPARK-33236] [shuffle] 向后移植到 DBR 11.x:启用基于推送的随机服务以将状态存储在 NM 级别 DB 中以重启工作保留
        • [SPARK-39836] [SQL] 通过提取常用方法简化 V2ExpressionBuilder。
        • [SPARK-39873] [SQL] 移除 OptimizeLimitZero 并将其合并到 EliminateLimits
        • [SPARK-39961] [SQL] 如果强制转换安全,DS V2 下推会转换 Cast
        • [SPARK-39872] [SQL] 更改为在 VectorizedDeltaBinaryPackedReader 中将 BytePackerForLong#unpack8Values 与数组输入 API 配合使用
        • [SPARK-39858] [SQL] 为某些规则移除不必要的 AliasHelper PredicateHelper
        • [SPARK-39900] [SQL] 在二进制格式的谓词下推中处理部分或否定条件
        • [SPARK-39904] [SQL] 将 inferDate 重命名为 prefersDate 并阐明 CSV 数据源中选项的语义
        • [SPARK-39958] [SQL] 无法加载自定义指标对象时添加警告日志
        • [SPARK-39932] [SQL] WindowExec 应清除最终分区缓冲区
        • [SPARK-37194] [SQL] 如果不是动态分区,请避免在 v1 写入中进行不必要的排序
        • [SPARK-39902] [SQL] 在 SparkUI 中将扫描详细信息添加到 Spark 计划扫描节点
        • [SPARK-39865] [SQL] 在表插入溢出错误上显示恰当的错误消息
        • [SPARK-39940] [SS] 使用 DSv1 接收器刷新流式传输查询的目录表
        • [SPARK-39827] [SQL] 在 add_months() 的 int 溢出上使用错误类 ARITHMETIC_OVERFLOW
        • [SPARK-39914] [SQL] 将 DS V2 筛选器添加到 V1 筛选器转换
        • [SPARK-39857] [SQL] 手动 DBR 11.x 向后移植;V2ExpressionBuilder 对 In 谓词 #43454 使用了错误的 LiteralValue 数据类型
        • [SPARK-39840] [SQL][PYTHON] 将 PythonArrowInput 分解为 PythonArrowOutput 的对称
        • [SPARK-39651] [SQL] 如果与 rand 比较是确定性的,则删除筛选条件
        • [SPARK-39877] [PYTHON] 将逆透视添加到 PySpark DataFrame API
        • [SPARK-39909] [SQL] 组织检查 JDBCV2Suite 的下推信息
        • [SPARK-39834] [SQL][SS] 如果 LogicalRDD 来自 DataFrame,则包含它的原始统计信息和约束
        • [SPARK-39849] [SQL] Dataset.as(StructType) 用 null 值填充缺少的新列
        • [SPARK-39860] [SQL] 更多表达式应该扩展谓词
        • [SPARK-39823] [SQL][PYTHON] 将 Dataset.as 重命名为 Dataset.to 并将 DataFrame.to 添加到 PySpark
        • [SPARK-39918] [SQL][MINOR] 将错误消息中的“un-comparable”一词替换为“incomparable”
        • [SPARK-39857] [SQL][3.3] V2ExpressionBuilder 对 In 谓词使用了错误的 LiteralValue 数据类型
        • [SPARK-39862] [SQL] 针对 DBR 11.x 的 PR 43654 手动向后移植:更新 SQLConf.DEFAULT_COLUMN_ALLOWED_PROVIDERS 以允许/拒绝 ALTER TABLE ... 单独 ADD COLUMN 命令。
        • [SPARK-39844] [SQL] 针对 DBR 11.x 的 PR 43652 手动向后移植
        • [SPARK-39899] [SQL] 修复消息参数传递到 InvalidUDFClassException 的问题
        • [SPARK-39890] [SQL] 使 TakeOrderedAndProjectExec 继承 AliasAwareOutputOrdering
        • [SPARK-39809] [PYTHON] 支持 PySpark 中的 CharType
        • [SPARK-38864] [SQL] 将逆透视/融化添加到数据集
        • [SPARK-39864] [SQL] 缓慢注册 ExecutionListenerBus
        • [SPARK-39808] [SQL] 支持聚合函数 MODE
        • [SPARK-39875] [SQL] 将最终类中的 protected 方法更改为 private package-visible
        • [SPARK-39731] [SQL] 修复 CSV 和 JSON 数据源在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时出现的问题
        • [SPARK-39805] [SS] 弃用 Trigger.Once 并提升 Trigger.AvailableNow
        • [SPARK-39784] [SQL] 将 Catalyst 表达式转换为数据源筛选器后,将文本值放在数据源筛选器的右侧
        • [SPARK-39672] [SQL][3.1] 修复了使用相关子查询筛选之前移除项目的问题
        • [SPARK-39552] [SQL] 统一 v1 和 v2 DESCRIBE TABLE
        • [SPARK-39810] [SQL] Catalog.tableExists 应处理嵌套命名空间
        • [SPARK-37287] [SQL] 从 FileFormatWriter 中拉出动态分区和桶排序
        • [SPARK-39469] [SQL] 推理 CSV 架构推断的日期类型
        • [SPARK-39148] [SQL] DS V2 聚合下推可以使用 OFFSET 或 LIMIT
        • [SPARK-39818] [SQL] 修复 ARRAY、STRUCT、MAP 类型中带有 NULL 字段的 DEFAULT 值的错误
        • [SPARK-39792] [SQL] 为十进制平均值添加 DecimalDivideWithOverflowCheck
        • [SPARK-39798] [SQL] 将 toSeq.toArray 替换为构造函数 GenericArrayData 中的 .toArray[Any]
        • [SPARK-39759] [SQL] 在 JDBC(H2 方言)中实现 listIndexes
        • [SPARK-39385] [SQL] 支持下推 REGR_AVGX REGR_AVGY
        • [SPARK-39787] [SQL] 在函数 to_timestamp 分析错误中使用错误类
        • [SPARK-39760] [PYTHON] 支持 PySpark 中的 Varchar
        • [SPARK-39557] [SQL] 手动向后移植到 DBR 11.x:支持 ARRAY、STRUCT、MAP 类型作为 DEFAULT 值
        • [SPARK-39758] [SQL][3.3] 修复无效模式上的正则表达式函数中的 NPE
        • [SPARK-39749] [SQL] ANSI SQL 模式:将十进制转换为字符串时使用纯字符串表示
        • [SPARK-39704] [SQL] 在 JDBC(H2 方言)中实现 createIndex & dropIndex & indexExists
        • [SPARK-39803] [SQL] 使用 LevenshteinDistance ,而不使用 StringUtils.getLevenshteinDistance
        • [SPARK-39339] [SQL] 在 JDBC 数据源中支持 TimestampNTZ 类型
        • [SPARK-39781] [SS] 添加对向 rocksdb 状态存储提供程序提供 max_open_files 的支持
        • [SPARK-39719] [R] 在 SparkR 支持 3L 命名空间中实现 databaseExists/getDatabase
        • [SPARK-39751] [SQL] 重命名哈希聚合密钥探测指标
        • [SPARK-39772] [SQL] 旧构造函数中数据库为 null 时,命名空间应为 null
        • [SPARK-39625] [SPARK-38904][SQL] 添加 Dataset.as(StructType)
        • [SPARK-39384] [SQL] 为 JDBC 方言编译内置线性回归聚合函数
        • [SPARK-39720] [R] 在 3L 命名空间的 SparkR 中实现 tableExists/getTable
        • [SPARK-39744] [SQL] 添加 REGEXP_INSTR 函数
        • [SPARK-39716] [R] 使 SparkR 中的 currentDatabase/setCurrentDatabase/listCatalogs 支持 3L 命名空间
        • [SPARK-39788] [SQL] 为 JdbcUtils catalogName 重命名为 dialectName
        • [SPARK-39647] [CORE] 在注册 BlockManager 之前向 ESS 注册执行程序
        • [SPARK-39754] [CORE][SQL] 移除未使用的 import 或不必要的 {}
        • [SPARK-39706] [SQL] 将 defaultValue 的缺失列设置为 ParquetColumnVector 中的常量
        • [SPARK-39699] [SQL] 使 CollapseProject 更智能了解集合创建表达式
        • [SPARK-39737] [SQL] PERCENTILE_CONT PERCENTILE_DISC 应支持聚合筛选器
        • [SPARK-39579] [SQL][PYTHON][R] 使 ListFunctions/getFunction/functionExists 与 3 层命名空间兼容
        • [SPARK-39627] [SQL] JDBC V2 下推应统一编译 API
        • [SPARK-39748] [SQL][SS] 如果 LogicalRDD 来自 DataFrame,则包含它的原始逻辑计划
        • [SPARK-39385] [SQL] 为下推转换线性回归聚合函数
        • [SPARK-39695] [SQL] 添加 REGEXP_SUBSTR 函数
        • [SPARK-39667] [SQL] 当没有足够的内存来生成和广播表时,添加另一种变通方法
        • [SPARK-39666] [ES-337834][SQL] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循 spark.sql.codegen.factoryMode
        • [SPARK-39643] [SQL] 在 DEFAULT 值中禁止子查询表达式
        • [SPARK-38647] [SQL] 在接口中为扫描添加 SupportsReportOrdering 混合 (DataSourceV2)
        • [SPARK-39497] [SQL] 优化缺少映射键列的分析异常
        • [SPARK-39661] [SQL] 避免创建不必要的 SLF4J 记录器
        • [SPARK-39713] [SQL] ANSI 模式:添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
        • [SPARK-38899] [SQL]DS V2 支持下推日期/时间函数
        • [SPARK-39638] [SQL] 更改为使用 ConstantColumnVector 来存储 OrcColumnarBatchReader 中的分区列
        • [SPARK-39653] [SQL] 清理来自 ColumnVectorUtils ColumnVectorUtils#populate(WritableColumnVector, InternalRow, int)
        • [SPARK-39231] [SQL] 使用 ConstantColumnVector ,而不是使用 On/OffHeapColumnVector 来存储 VectorizedParquetRecordReader 中的分区列
        • [SPARK-39547] [SQL] V2SessionCatalog 不应引发 loadNamspaceMetadata 中的 NoSuchDatabaseException
        • [SPARK-39447] [SQL] 避免 AdaptiveSparkPlanExec.doExecuteBroadcast 中的 AssertionError
        • [SPARK-39492] [SQL] 重做 MISSING_COLUMN
        • [SPARK-39679] [SQL] TakeOrderedAndProjectExec 应遵循子输出排序
        • [SPARK-39606] [SQL] 使用子统计信息估计顺序运算符
        • [SPARK-39611] [PYTHON][PS] 修复 array_ufunc 中的错误别名
        • [SPARK-39656] [SQL][3.3] 修复 DescribeNamespaceExec 中的错误命名空间
        • [SPARK-39675] [SQL] 将“spark.sql.codegen.factoryMode”配置从测试目的切换到内部目的
        • [SPARK-39139] [SQL] DS V2 支持下推 DS V2 UDF
        • [SPARK-39434] [SQL] 在数组索引超出范围时提供运行时错误查询上下文
        • [SPARK-39479] [SQL] DS V2 支持下推数学函数(非 ANSI)
        • [SPARK-39618] [SQL] 添加 REGEXP_COUNT 函数
        • [SPARK-39553] [CORE] 使用 Scala 2.13 时,多线程取消注册随机不应引发 NPE
        • [SPARK-38755] [PYTHON][3.3] 添加文件以解决缺少的 pandas 常规函数的问题
        • [SPARK-39444] [SQL] 将 OptimizeSubqueries 添加到 nonExcludableRules 列表
        • [SPARK-39316] [SQL] 将 PromotePrecision 和 CheckOverflow 合并为十进制二进制算术
        • [SPARK-39505] [UI] 转义 UI 中呈现的日志内容
        • [SPARK-39448] [SQL] 将 ReplaceCTERefWithRepartition 添加到 nonExcludableRules 列表
        • [SPARK-37961] [SQL] 替代某些逻辑运算符的 maxRows/maxRowsPerPartition
        • [SPARK-35223] 还原添加 IssueNavigationLink
        • [SPARK-39633] [SQL] 使用 Dataframe 选项支持 TimeTravel 的时间戳(以秒为单位)
        • [SPARK-38796] [SQL] 使用 {try_}to_number 函数更新数字格式字符串的文档
        • [SPARK-39650] [SS] 修复后向兼容性的流式处理删除重复中不正确的值架构
        • [SPARK-39636] [CORE][UI] 修复 JsonProtocol 中的多个 bug,影响堆 StorageLevels 和任务/执行程序 ResourceRequests
        • [SPARK-39432] [SQL] 从 element_at(*, 0) 返回 ELEMENT_AT_BY_INDEX_ZERO
        • [SPARK-39349] 为错误路径的 QA 添加集中式 CheckError 方法
        • [SPARK-39453] [SQL] DS V2 支持下推 misc 非聚合函数(非 ANSI)
        • [SPARK-38978] [SQL] DS V2 支持下推 OFFSET 运算符
        • [SPARK-39567] [SQL] 支持百分位函数中的 ANSI 间隔
        • [SPARK-39383] [SQL] 支持 ALTER TABLE ALTER COLUMNS 中的 DEFAULT 列到 V2 数据源
        • [SPARK-39396] [SQL] 修复 LDAP 登录异常“错误代码 49 - 无效凭据”
        • [SPARK-39548] [SQL] 具有窗口子句查询的 CreateView 命令遇到“找不到错误的窗口定义”问题
        • [SPARK-39575] [AVRO] 在 Avr 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind...
        • [SPARK-39543] 如果回退到 v1,则应将 DataFrameWriterV2 的选项传递给存储属性
        • [SPARK-39564] [SS] 在流式处理查询中将目录表的信息公开给逻辑计划
        • [SPARK-39582] [SQL] 修复 array_agg 的“Since”标记
        • [SPARK-39388] [SQL] 下推 Orc 谓词时,重复使用 orcSchema
        • [SPARK-39511] [SQL] 如果联接条件为空,则为左半/反联接的右侧增强下推本地限制 1
        • [SPARK-38614] [SQL] 不要通过使用 percent_rank 的窗口下推限制
        • [SPARK-39551] [SQL] 添加 AQE 无效计划检查
        • [SPARK-39383] [SQL] 支持 ALTER TABLE ADD COLUMNS 中的 DEFAULT 列到 V2 数据源
        • [SPARK-39538] [SQL] 避免创建不必要的 SLF4J 记录器
        • [SPARK-39383] [SQL] 手动向后移植到 DBR 11.x:重构 DEFAULT 列支持以跳过传递主分析器
        • [SPARK-39397] [SQL] 放宽 AliasAwareOutputExpression 以支持带有表达式的别名
        • [SPARK-39496] [SQL] 处理 Inline.eval 中的 null 结构
        • [SPARK-39545] [SQL] 替代 Scala 2.13 中 ExpressionSet concat 方法以提高性能
        • [SPARK-39340] [SQL] DS v2 agg 下推应允许顶级列名称中的点
        • [SPARK-39488] [SQL] 简化 TempResolvedColumn 的错误处理
        • [SPARK-38846] [SQL] 在Teradata Numeric Type 和 Spark DecimalType 之间添加显式数据映射
        • [SPARK-39520] [SQL] 替代 Scala 2.13 中 ExpressionSet -- 方法
        • [SPARK-39470] [SQL] 支持将 ANSI 间隔转换为十进制
        • [SPARK-39477] [SQL] 从 SQLQueryTestSuite 的黄金文件中移除“查询数”信息
        • [SPARK-39419] [SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
        • [SPARK-39061] [SQL] 为 Inline 输出属性正确设置可为空
        • [SPARK-39320] [SQL] 支持聚合函数 MEDIAN
        • [SPARK-39261] [CORE] 改进错误消息的换行符格式
        • [SPARK-39355] [SQL] 单列使用引号构造 UnresolvedAttribute
        • [SPARK-39351] [SQL] SHOW CREATE TABLE 应编辑属性
        • [SPARK-37623] [SQL] 支持 ANSI 聚合函数:regr_intercept
        • [SPARK-39374] [SQL] 改进用户指定列列表的错误消息
        • [SPARK-39255] [SQL][3.3] 改进错误消息
        • [SPARK-39321] [SQL] 重构 TryCast 来使用 RuntimeReplaceable
        • [SPARK-39406] [PYTHON] 接受 createDataFrame 中的 NumPy 数组
        • [SPARK-39267] [SQL] 清理 dsl 不必要的符号
        • [SPARK-39171] [SQL] 统一 Cast 表达式
        • [SPARK-28330] [SQL] 支持 ANSI SQL:查询表达式中的结果偏移子句
        • [SPARK-39203] [SQL] 基于数据库 URI 将表位置重写为绝对 URI
        • [SPARK-39313] [SQL] 如果无法转换 V2Expression,则 toCatalystOrdering 应该失败
        • [SPARK-39301] [SQL][PYTHON] 通过 Arrow 优化在 createDataFrame 中利用 LocalRelation 并遵循 Arrow 批大小
        • [SPARK-39400] [SQL] 在所有情况下,spark-sql 都应移除配置单元资源 dir
        • 请参阅 Databricks Runtime 11.2 维护更新

        • 操作系统 :Ubuntu 20.04.4 LTS
        • Java :Zulu 8.56.0.21-CA-linux64
        • Scala:2.12.14
        • Python:3.9.5
        • R:4.1.3
        • Delta Lake:2.1.0
        • 已安装的 Python 库

  •