相关文章推荐
潇洒的紫菜汤  ·  java - Add method ...·  10 月前    · 
大力的充值卡  ·  Qt QObject::connect: ...·  1 年前    · 
斯文的茴香  ·  java语音识别 开源 ...·  1 年前    · 
买醉的熊猫  ·  python库--pandas--DataF ...·  1 年前    · 

以下发行说明提供了由 Apache Spark 3.3.0 提供支持的 Databricks Runtime 11.1 的相关信息。 Databricks 于 2022 年 7 月发布了这些映像。

新增功能和改进

  • Photon 已正式发布
  • Photon:受支持的实例类型
  • 更改数据馈送现在可以自动处理超出范围的时间戳
  • 描述和显示 SQL 函数现在在其输出中显示 Unity Catalog 名称(公共预览版)
  • 自动加载程序中 Parquet 文件的架构推理和演变(公共预览版)
  • 自动加载程序现在支持 Avro (GA) 的架构演变
  • Delta Lake 支持动态分区覆盖
  • 对在 Unity Catalog 中创建的对象的信息架构支持
  • 对使用 Unity Catalog 的 Delta Lake 表的信息约束(公共预览版)
  • Unity Catalog 已正式发布
  • Delta Sharing 已正式发布
  • Photon 已正式发布

    Photon 现已正式发布(从 Databricks Runtime 11.1 开始)。 Photon 是 Azure Databricks 原生的向量化查询引擎,直接与 Apache Spark API 兼容,因此可以处理现有的代码。 Photon 是使用 C++ 开发的,它利用了新式硬件,并使用最新的向量化查询处理技术基于 CPU 中的数据级和指令级并行度产生价值,可以增强实际数据和应用程序的性能 - 所有这些功能在 Data Lake 上都以原生方式实现。

    Photon 是能够更快运行现有 SQL 和数据帧 API 调用,并降低每个工作负载总成本的高性能运行时的一部分。 Databricks SQL 仓库中默认使用 Photon。

    新增功能和改进包括:

  • 新的向量化排序运算符
  • 新的向量化窗口函数
  • 跨所有云的新实例类型和大小
  • Photon 不支持 Scala/Python UDF
  • Photon 不支持 RDD
  • Photon 不支持结构化流
  • 有关详细信息,请参阅以下 Photon 公告。

    Photon:新的向量化排序运算符

    当查询包含 SORT_BY CLUSTER_BY 或带有 ORDER BY 的窗口函数时,Photon 现在支持向量化排序。

    限制:Photon 不支持全局 ORDER BY 子句。 用于窗口计算的排序将进行光化,但全局排序将继续在 Spark 中运行。

    Photon:新的向量化窗口函数

    Photon 现在支持许多帧类型和函数的向量化窗口函数计算。 新的窗口函数包括: row_number rank dense_rank lag lead percent_rank ntile nth_value 。 受支持的窗口框架类型:运行 ( UNBOUNDED PRECEDING AND CURRENT ROW )、无界 ( UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING )、增长 ( UNBOUNDED PRECEDING AND <OFFSET> FOLLOWING ) 和缩小 ( <OFFSET> PRECEDING AND UNBOUNDED FOLLOWING )。

  • Photon 仅支持所有帧类型的 ROWS 版本。
  • Photon 尚不支持滑动帧类型 ( <OFFSET> PRECEDING AND <OFFSET> FOLLOWING )。
  • Photon:受支持的实例类型

  • dds_v5
  • ds_v5
  • eas_v4
  • eds_v4
  • eds_v5
  • es_v5
  • las_v3
  • ls_v3
  • 更改数据馈送现在可以自动处理超出范围的时间戳

    更改数据馈送 (CDF) 现在有一种新模式,可提供时间戳或高于最新提交版本的版本,而不会引发错误。 默认情况下禁用此模式。 可以通过将配置 spark.databricks.delta.changeDataFeed.timestampOutOfRange.enabled 设置为 true 来启用该模式。

    描述和显示 SQL 函数现在在其输出中显示 Unity Catalog 名称(公共预览版)

    命令 DESC TABLE DESC DATABASE DESC SCHEMA DESC NAMESPACE DESC FUNCTION EXPLAIN SHOW CREATE TABLE 现在始终在其输出中显示 Catalog 名称。

    自动加载程序中 Parquet 文件的架构推理和演变(公共预览版)

    自动加载程序现在支持 Parquet 文件的架构推理和演变。 与 JSON、CSV 和 Avro 格式一样,现可使用补救数据列来补救 Parquet 文件中可能会出现的意外数据。 这包括在预期的数据类型中无法分析的数据、具有不同大小写的列或者不是预期架构一部分的其他列。 可以将自动加载程序配置为在传入数据中添加新列时自动演变架构。 请参阅 在自动加载程序中配置架构推理和演变

    自动加载程序现在支持 Avro (GA) 的架构演变

    请参阅 在自动加载程序中配置架构推理和演变

    Delta Lake 支持动态分区覆盖

    Delta Lake 现在启用动态分区覆盖模式,以覆盖每个逻辑分区中的所有现有数据,写入操作将为这些分区提交新数据。 请参阅 使用 Delta Lake 选择性地覆盖数据

    对在 Unity Catalog 中创建的对象的信息架构支持

    信息架构为各种数据库对象(包括表和视图、约束和例程)的元数据提供基于 SQL 的自描述 API。 在信息架构中,可以找到一组视图,这些视图描述了你有权查看的架构目录中的已知对象。 SYSTEM 目录的信息架构返回有关元存储中所有目录的对象的信息。 请参阅 信息架构

    对使用 Unity Catalog 的 Delta Lake 表的信息约束(公共预览版)

    现在可以使用 Unity Catalog 在 Delta Lake 表上定义信息主键和外键约束。 不强制执行信息约束。 请参阅 CONSTRAINT 子句

    Unity Catalog 已正式发布

    Unity Catalog 现已正式发布(从 Databricks Runtime 11.1 开始)。 请参阅 什么是 Unity Catalog?

    Delta Sharing 已正式发布

    Delta Sharing 现已正式发布(从 Databricks Runtime 11.1 开始)。

    Databricks 到 Databricks Delta Sharing 是完全托管的,无需交换令牌。 可以在 UI 中或使用 SQL 和 REST API 创建和管理提供者、接收者和共享。

    部分功能包括限制接收者访问、使用 IP 访问列表和区域限制查询数据,以及将 Delta Sharing 管理委托给非管理员。 你还可以查询对数据的更改,或使用更改数据馈送共享增量版本。 参阅 使用 Delta Sharing 安全共享数据

    DESCRIBE TABLE 和 SHOW TABLE PROPERTIES 的敏感属性编辑

    DESCRIBE TABLE SHOW TABLE PROPERTIES 命令现在可以编辑敏感属性。

    对于 Databricks Runtime 11.1 及更高版本,作业群集默认设置为单用户访问模式

    为了支持 Unity Catalog,使用 Databricks Runtime 11.1 及更高版本通过作业 UI 或作业 API 创建的作业群集将默认设置为单用户访问模式。 单用户访问模式支持大多数编程语言、群集功能和数据治理功能。 你仍然可以通过 UI 或 API 配置共享访问模式,但语言或功能可能会受限。

  • 升级了 Python 库:
    • filelock 已从 3.6.0 升级到 3.7.1
    • plotly 已从 5.6.0 升级到 5.8.2
    • protobuf 已从 3.20.1 升级到 4.21.2
    • 升级了 R 库:
      • chron 已从 2.3-56 升级到 2.3-57
      • DBI 已从 1.1.2 升级到 1.1.3
      • dbplyr 已从 2.1.1 升级到 2.2.0
      • e1071 已从 1.7-9 升级到 1.7-11
      • future 已从 1.25.0 升级到 1.26.1
      • globals 已从 0.14.0 升级到 0.15.1
      • hardhat 已从 0.2.0 升级到 1.1.0
      • ipred 已从 0.9-12 升级到 0.9-13
      • openssl 已从 2.0.0 升级到 2.0.2
      • parallelly 已从 1.31.1 升级到 1.32.0
      • processx 已从 3.5.3 升级到 3.6.1
      • progressr 已从 0.10.0 升级到 0.10.1
      • proxy 已从 0.4-26 升级到 0.4-27
      • ps from 已从 1.7.0 升级到 1.7.1
      • randomForest 已从 4.7-1 升级到 4.7-1.1
      • roxygen2 已从 7.1.2 升级到 7.2.0
      • Rserve 已从 1.8-10 升级到 1.8-11
      • RSQLite 已从 2.2.13 升级到 2.2.14
      • sparklyr 已从 1.7.5 升级到 1.7.7
      • tinytex 已从 0.38 升级到 0.40
      • usethis 已从 2.1.5 升级到 2.1.6
      • xfun 已从 0.30 升级到 0.31
      • 升级了 Java 库:
        • io.delta.delta-sharing-spark_2.12 已从 0.4.0 升级到 0.5.0
        • Apache Spark

          Databricks Runtime 11.2 包括 Apache Spark 3.3.0。 此版本包括 Databricks Runtime 11.1(不受支持) 中提供的所有 Spark 修复和改进,还包括对 Spark 进行的以下其他 bug 修复和改进:

        • [SPARK-40054] [SQL] 还原 try_cast() 的错误处理语法
        • [SPARK-39489] [CORE] 通过使用 Jackson 而不是 Json4s 来提高事件日志 JsonProtocol 性能
        • [SPARK-39319] [CORE][SQL] 将查询上下文作为 SparkThrowable 的一部分
        • [SPARK-40085] [SQL] 使用 INTERNAL_ERROR 错误类而不是 IllegalStateException 来指示 bug
        • [SPARK-40001] [SQL] 使 NULL 写入 JSON DEFAULT 列将“null”写入存储
        • [SPARK-39635] [SQL] 在 DS v2 自定义指标 API 中支持驱动程序指标
        • [SPARK-39184] [SQL] 处理日期和时间戳序列中偏小的结果数组
        • [SPARK-40019] [SQL] 重构 ArrayType 的 containsNull 的注释并重构 collectionOperator 的表达式中有关 containsNull 的误解逻辑
        • [SPARK-39989] [SQL] 如果是可折叠表达式,则支持估计列统计信息
        • [SPARK-39926] [SQL] 修复非矢量化 Parquet 扫描的列 DEFAULT 支持的 bug
        • [SPARK-40052] [SQL] 在 VectorizedDeltaBinaryPackedReader 中处理直接字节缓冲区
        • [SPARK-40044] [SQL] 修复强制转换溢出错误中的目标间隔类型
        • [SPARK-39835] [SQL] 修复 EliminateSorts 移除本地排序下的全局排序
        • [SPARK-40002] [SQL] 不要使用 ntile 通过窗口下推限制
        • [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
        • [SPARK-39985] [SQL] 在 DataFrames 插入中启用隐式 DEFAULT 列值
        • [SPARK-39776] [SQL] JOIN 详细字符串应添加 Join 类型
        • [SPARK-38901] [SQL] DS V2 支持下推其他函数
        • [SPARK-40028] [SQL][FollowUp] 改进字符串函数示例
        • [SPARK-39983] [CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
        • [SPARK-39812] [SQL] 简化使用 toAggregateExpression 构造 AggregateExpression 的代码
        • [SPARK-40028] [SQL] 为字符串表达式添加二进制示例
        • [SPARK-39981] [SQL] 在 Cast 中引发异常QueryExecutionErrors.castingCauseOverflowErrorInTableInsert
        • [SPARK-40007] [PYTHON][SQL] 将“模式”添加到函数
        • [SPARK-40008] [SQL] 支持将整型转换为 ANSI 间隔
        • [SPARK-40003] [PYTHON][SQL] 将“中值”添加到函数
        • [SPARK-39952] [SQL] SaveIntoDataSourceCommand 应重新缓存结果关系
        • [SPARK-39951] [SQL] 更新嵌套字段的 Parquet V2 列式检查
        • [SPARK-39775] [CORE][AVRO] 禁用在分析 Avro 架构时验证默认值
        • [SPARK-33236] [shuffle] 向后移植到 DBR 11.x:启用基于推送的随机服务以将状态存储在 NM 级别 DB 中以重启工作保留
        • [SPARK-39836] [SQL] 通过提取常用方法简化 V2ExpressionBuilder。
        • [SPARK-39867] [SQL] 全局限制不应继承 OrderPreservingUnaryNode
        • [SPARK-39873] [SQL] 移除 OptimizeLimitZero 并将其合并到 EliminateLimits
        • [SPARK-39961] [SQL] 如果强制转换安全,DS V2 下推会转换 Cast
        • [SPARK-39872] [SQL] 更改为在 VectorizedDeltaBinaryPackedReader 中将 BytePackerForLong#unpack8Values 与数组输入 API 配合使用
        • [SPARK-39858] [SQL] 为某些规则移除不必要的 AliasHelper PredicateHelper
        • [SPARK-39962] [WARMFIX][ES-393486][PYTHON][SQL] 当组属性为空时应用投影
        • [SPARK-39900] [SQL] 在二进制格式的谓词下推中处理部分或否定条件
        • [SPARK-39904] [SQL] 将 inferDate 重命名为 prefersDate 并阐明 CSV 数据源中选项的语义
        • [SPARK-39958] [SQL] 无法加载自定义指标对象时添加警告日志
        • [SPARK-39936] [SQL] 将架构存储在 Spark 视图的属性中
        • [SPARK-39932] [SQL] WindowExec 应清除最终分区缓冲区
        • [SPARK-37194] [SQL] 如果不是动态分区,请避免在 v1 写入中进行不必要的排序
        • [SPARK-39902] [SQL] 在 SparkUI 中将扫描详细信息添加到 Spark 计划扫描节点
        • [SPARK-39865] [SQL] 在表插入溢出错误上显示恰当的错误消息
        • [SPARK-39940] [SS] 使用 DSv1 接收器刷新流式传输查询的目录表
        • [SPARK-39827] [SQL] 在 add_months() 的 int 溢出上使用错误类 ARITHMETIC_OVERFLOW
        • [SPARK-39914] [SQL] 将 DS V2 筛选器添加到 V1 筛选器转换
        • [SPARK-39857] [SQL] 手动 DBR 11.x 向后移植;V2ExpressionBuilder 对 In 谓词 #43454 使用了错误的 LiteralValue 数据类型
        • [SPARK-39840] [SQL][PYTHON] 将 PythonArrowInput 分解为 PythonArrowOutput 的对称
        • [SPARK-39651] [SQL] 如果与 rand 比较是确定性的,则删除筛选条件
        • [SPARK-39877] [PYTHON] 将逆透视添加到 PySpark DataFrame API
        • [SPARK-39847] [WARMFIX][SS] 如果调用方线程中断,修复 RocksDBLoader.loadLibrary() 中的争用条件
        • [SPARK-39909] [SQL] 组织检查 JDBCV2Suite 的下推信息
        • [SPARK-39834] [SQL][SS] 如果 LogicalRDD 来自 DataFrame,则包含它的原始统计信息和约束
        • [SPARK-39849] [SQL] Dataset.as(StructType) 用 null 值填充缺少的新列
        • [SPARK-39860] [SQL] 更多表达式应该扩展谓词
        • [SPARK-39823] [SQL][PYTHON] 将 Dataset.as 重命名为 Dataset.to 并将 DataFrame.to 添加到 PySpark
        • [SPARK-39918] [SQL][MINOR] 将错误消息中的“un-comparable”一词替换为“incomparable”
        • [SPARK-39857] [SQL][3.3] V2ExpressionBuilder 对 In 谓词使用了错误的 LiteralValue 数据类型
        • [SPARK-39862] [SQL] 针对 DBR 11.x 的 PR 43654 手动向后移植:更新 SQLConf.DEFAULT_COLUMN_ALLOWED_PROVIDERS 以允许/拒绝 ALTER TABLE ... 单独 ADD COLUMN 命令。
        • [SPARK-39844] [SQL] 针对 DBR 11.x 的 PR 43652 手动向后移植
        • [SPARK-39899] [SQL] 修复消息参数传递到 InvalidUDFClassException 的问题
        • [SPARK-39890] [SQL] 使 TakeOrderedAndProjectExec 继承 AliasAwareOutputOrdering
        • [SPARK-39809] [PYTHON] 支持 PySpark 中的 CharType
        • [SPARK-38864] [SQL] 将逆透视/融化添加到数据集
        • [SPARK-39864] [SQL] 缓慢注册 ExecutionListenerBus
        • [SPARK-39808] [SQL] 支持聚合函数 MODE
        • [SPARK-39839] [SQL] 在 UnsafeRow 结构完整性检查中处理特殊情况下的 null 可变长度十进制与非零 offsetAndSize
        • [SPARK-39875] [SQL] 将最终类中的 protected 方法更改为 private package-visible
        • [SPARK-39731] [SQL] 修复 CSV 和 JSON 数据源在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时出现的问题
        • [SPARK-39805] [SS] 弃用 Trigger.Once 并提升 Trigger.AvailableNow
        • [SPARK-39784] [SQL] 将 Catalyst 表达式转换为数据源筛选器后,将文本值放在数据源筛选器的右侧
        • [SPARK-39672] [SQL][3.1] 修复了使用相关子查询筛选之前移除项目的问题
        • [SPARK-39552] [SQL] 统一 v1 和 v2 DESCRIBE TABLE
        • [SPARK-39806] [SQL] 访问分区表上的 _metadata 可能导致查询崩溃
        • [SPARK-39810] [SQL] Catalog.tableExists 应处理嵌套命名空间
        • [SPARK-37287] [SQL] 从 FileFormatWriter 中拉出动态分区和桶排序
        • [SPARK-39469] [SQL] 推理 CSV 架构推断的日期类型
        • [SPARK-39148] [SQL] DS V2 聚合下推可以使用 OFFSET 或 LIMIT
        • [SPARK-39818] [SQL] 修复 ARRAY、STRUCT、MAP 类型中带有 NULL 字段的 DEFAULT 值的错误
        • [SPARK-39792] [SQL] 为十进制平均值添加 DecimalDivideWithOverflowCheck
        • [SPARK-39798] [SQL] 将 toSeq.toArray 替换为构造函数 GenericArrayData 中的 .toArray[Any]
        • [SPARK-39759] [SQL] 在 JDBC(H2 方言)中实现 listIndexes
        • [SPARK-39385] [SQL] 支持下推 REGR_AVGX REGR_AVGY
        • [SPARK-39787] [SQL] 在函数 to_timestamp 分析错误中使用错误类
        • [SPARK-39760] [PYTHON] 支持 PySpark 中的 Varchar
        • [SPARK-39557] [SQL] 手动向后移植到 DBR 11.x:支持 ARRAY、STRUCT、MAP 类型作为 DEFAULT 值
        • [SPARK-39758] [SQL][3.3] 修复无效模式上的正则表达式函数中的 NPE
        • [SPARK-39749] [SQL] ANSI SQL 模式:将十进制转换为字符串时使用纯字符串表示
        • [SPARK-39704] [SQL] 在 JDBC(H2 方言)中实现 createIndex & dropIndex & indexExists
        • [SPARK-39803] [SQL] 使用 LevenshteinDistance ,而不使用 StringUtils.getLevenshteinDistance
        • [SPARK-39339] [SQL] 在 JDBC 数据源中支持 TimestampNTZ 类型
        • [SPARK-39781] [SS] 添加对向 rocksdb 状态存储提供程序提供 max_open_files 的支持
        • [SPARK-39719] [R] 在 SparkR 支持 3L 命名空间中实现 databaseExists/getDatabase
        • [SPARK-39751] [SQL] 重命名哈希聚合密钥探测指标
        • [SPARK-39772] [SQL] 旧构造函数中数据库为 null 时,命名空间应为 null
        • [SPARK-39625] [SPARK-38904][SQL] 添加 Dataset.as(StructType)
        • [SPARK-39384] [SQL] 为 JDBC 方言编译内置线性回归聚合函数
        • [SPARK-39720] [R] 在 3L 命名空间的 SparkR 中实现 tableExists/getTable
        • [SPARK-39744] [SQL] 添加 REGEXP_INSTR 函数
        • [SPARK-39716] [R] 使 SparkR 中的 currentDatabase/setCurrentDatabase/listCatalogs 支持 3L 命名空间
        • [SPARK-39788] [SQL] 为 JdbcUtils catalogName 重命名为 dialectName
        • [SPARK-39647] [CORE] 在注册 BlockManager 之前向 ESS 注册执行程序
        • [SPARK-39754] [CORE][SQL] 移除未使用的 import 或不必要的 {}
        • [SPARK-39706] [SQL] 将 defaultValue 的缺失列设置为 ParquetColumnVector 中的常量
        • [SPARK-39699] [SQL] 使 CollapseProject 更智能了解集合创建表达式
        • [SPARK-39737] [SQL] PERCENTILE_CONT PERCENTILE_DISC 应支持聚合筛选器
        • [SPARK-39579] [SQL][PYTHON][R] 使 ListFunctions/getFunction/functionExists 与 3 层命名空间兼容
        • [SPARK-39627] [SQL] JDBC V2 下推应统一编译 API
        • [SPARK-39748] [SQL][SS] 如果 LogicalRDD 来自 DataFrame,则包含它的原始逻辑计划
        • [SPARK-39385] [SQL] 为下推转换线性回归聚合函数
        • [SPARK-39695] [SQL] 添加 REGEXP_SUBSTR 函数
        • [SPARK-39667] [SQL] 当没有足够的内存来生成和广播表时,添加另一种变通方法
        • [SPARK-39666] [ES-337834][SQL] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循 spark.sql.codegen.factoryMode
        • [SPARK-39643] [SQL] 在 DEFAULT 值中禁止子查询表达式
        • [SPARK-38647] [SQL] 在接口中为扫描添加 SupportsReportOrdering 混合 (DataSourceV2)
        • [SPARK-39497] [SQL] 优化缺少映射键列的分析异常
        • [SPARK-39661] [SQL] 避免创建不必要的 SLF4J 记录器
        • [SPARK-39713] [SQL] ANSI 模式:添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
        • [SPARK-38899] [SQL]DS V2 支持下推日期/时间函数
        • [SPARK-39638] [SQL] 更改为使用 ConstantColumnVector 来存储 OrcColumnarBatchReader 中的分区列
        • [SPARK-39653] [SQL] 清理来自 ColumnVectorUtils ColumnVectorUtils#populate(WritableColumnVector, InternalRow, int)
        • [SPARK-39231] [SQL] 使用 ConstantColumnVector ,而不是使用 On/OffHeapColumnVector 来存储 VectorizedParquetRecordReader 中的分区列
        • [SPARK-39547] [SQL] V2SessionCatalog 不应引发 loadNamspaceMetadata 中的 NoSuchDatabaseException
        • [SPARK-39447] [SQL] 避免 AdaptiveSparkPlanExec.doExecuteBroadcast 中的 AssertionError
        • [SPARK-39492] [SQL] 重做 MISSING_COLUMN
        • [SPARK-39679] [SQL] TakeOrderedAndProjectExec 应遵循子输出排序
        • [SPARK-39606] [SQL] 使用子统计信息估计顺序运算符
        • [SPARK-39611] [PYTHON][PS] 修复 array_ufunc 中的错误别名
        • [SPARK-39656] [SQL][3.3] 修复 DescribeNamespaceExec 中的错误命名空间
        • [SPARK-39675] [SQL] 将“spark.sql.codegen.factoryMode”配置从测试目的切换到内部目的
        • [SPARK-39139] [SQL] DS V2 支持下推 DS V2 UDF
        • [SPARK-39434] [SQL] 在数组索引超出范围时提供运行时错误查询上下文
        • [SPARK-39479] [SQL] DS V2 支持下推数学函数(非 ANSI)
        • [SPARK-39618] [SQL] 添加 REGEXP_COUNT 函数
        • [SPARK-39553] [CORE] 使用 Scala 2.13 时,多线程取消注册随机不应引发 NPE
        • [SPARK-38755] [PYTHON][3.3] 添加文件以解决缺少的 pandas 常规函数的问题
        • [SPARK-39444] [SQL] 将 OptimizeSubqueries 添加到 nonExcludableRules 列表
        • [SPARK-39316] [SQL] 将 PromotePrecision 和 CheckOverflow 合并为十进制二进制算术
        • [SPARK-39505] [UI] 转义 UI 中呈现的日志内容
        • [SPARK-39448] [SQL] 将 ReplaceCTERefWithRepartition 添加到 nonExcludableRules 列表
        • [SPARK-37961] [SQL] 替代某些逻辑运算符的 maxRows/maxRowsPerPartition
        • [SPARK-35223] 还原添加 IssueNavigationLink
        • [SPARK-39633] [SQL] 使用 Dataframe 选项支持 TimeTravel 的时间戳(以秒为单位)
        • [SPARK-38796] [SQL] 使用 {try_}to_number 函数更新数字格式字符串的文档
        • [SPARK-39650] [SS] 修复后向兼容性的流式处理删除重复中不正确的值架构
        • [SPARK-39636] [CORE][UI] 修复 JsonProtocol 中的多个 bug,影响堆 StorageLevels 和任务/执行程序 ResourceRequests
        • [SPARK-39432] [SQL] 从 element_at(*, 0) 返回 ELEMENT_AT_BY_INDEX_ZERO
        • [SPARK-39349] 为错误路径的 QA 添加集中式 CheckError 方法
        • [SPARK-39453] [SQL] DS V2 支持下推 misc 非聚合函数(非 ANSI)
        • [SPARK-38978] [SQL] DS V2 支持下推 OFFSET 运算符
        • [SPARK-39567] [SQL] 支持百分位函数中的 ANSI 间隔
        • [SPARK-39383] [SQL] 支持 ALTER TABLE ALTER COLUMNS 中的 DEFAULT 列到 V2 数据源
        • [SPARK-39396] [SQL] 修复 LDAP 登录异常“错误代码 49 - 无效凭据”
        • [SPARK-39548] [SQL] 具有窗口子句查询的 CreateView 命令遇到“找不到错误的窗口定义”问题
        • [SPARK-39575] [AVRO] 在 Avr 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind...
        • [SPARK-39543] 如果回退到 v1,则应将 DataFrameWriterV2 的选项传递给存储属性
        • [SPARK-39564] [SS] 在流式处理查询中将目录表的信息公开给逻辑计划
        • [SPARK-39582] [SQL] 修复 array_agg 的“Since”标记
        • [SPARK-39388] [SQL] 下推 Orc 谓词时,重复使用 orcSchema
        • [SPARK-39511] [SQL] 如果联接条件为空,则为左半/反联接的右侧增强下推本地限制 1
        • [SPARK-38614] [SQL] 不要通过使用 percent_rank 的窗口下推限制
        • [SPARK-39551] [SQL] 添加 AQE 无效计划检查
        • [SPARK-39383] [SQL] 支持 ALTER TABLE ADD COLUMNS 中的 DEFAULT 列到 V2 数据源
        • [SPARK-39538] [SQL] 避免创建不必要的 SLF4J 记录器
        • [SPARK-39383] [SQL] 手动向后移植到 DBR 11.x:重构 DEFAULT 列支持以跳过传递主分析器
        • [SPARK-39397] [SQL] 放宽 AliasAwareOutputExpression 以支持带有表达式的别名
        • [SPARK-39496] [SQL] 处理 Inline.eval 中的 null 结构
        • [SPARK-39545] [SQL] 替代 Scala 2.13 中 ExpressionSet concat 方法以提高性能
        • [SPARK-39340] [SQL] DS v2 agg 下推应允许顶级列名称中的点
        • [SPARK-39488] [SQL] 简化 TempResolvedColumn 的错误处理
        • [SPARK-38846] [SQL] 在Teradata Numeric Type 和 Spark DecimalType 之间添加显式数据映射
        • [SPARK-39520] [SQL] 替代 Scala 2.13 中 ExpressionSet -- 方法
        • [SPARK-39470] [SQL] 支持将 ANSI 间隔转换为十进制
        • [SPARK-39477] [SQL] 从 SQLQueryTestSuite 的黄金文件中移除“查询数”信息
        • [SPARK-39419] [SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
        • [SPARK-39061] [SQL] 为 Inline 输出属性正确设置可为空
        • [SPARK-39320] [SQL] 支持聚合函数 MEDIAN
        • [SPARK-39261] [CORE] 改进错误消息的换行符格式
        • [SPARK-39355] [SQL] 单列使用引号构造 UnresolvedAttribute
        • [SPARK-39351] [SQL] SHOW CREATE TABLE 应编辑属性
        • [SPARK-37623] [SQL] 支持 ANSI 聚合函数:regr_intercept
        • [SPARK-39374] [SQL] 改进用户指定列列表的错误消息
        • [SPARK-39255] [SQL][3.3] 改进错误消息
        • [SPARK-39321] [SQL] 重构 TryCast 来使用 RuntimeReplaceable
        • [SPARK-39406] [PYTHON] 接受 createDataFrame 中的 NumPy 数组
        • [SPARK-39267] [SQL] 清理 dsl 不必要的符号
        • [SPARK-39171] [SQL] 统一 Cast 表达式
        • [SPARK-28330] [SQL] 支持 ANSI SQL:查询表达式中的结果偏移子句
        • [SPARK-39203] [SQL] 基于数据库 URI 将表位置重写为绝对 URI
        • [SPARK-39313] [SQL] 如果无法转换 V2Expression,则 toCatalystOrdering 应该失败
        • [SPARK-39301] [SQL][PYTHON] 通过 Arrow 优化在 createDataFrame 中利用 LocalRelation 并遵循 Arrow 批大小
        • [SPARK-39400] [SQL] 在所有情况下,spark-sql 都应移除配置单元资源 dir
        • 请参阅 Databricks Runtime 11.1 维护更新

        • 操作系统 :Ubuntu 20.04.4 LTS
        • Java :Zulu 8.56.0.21-CA-linux64
        • Scala:2.12.14
        • Python:3.9.5
        • R:4.1.3
        • Delta Lake:1.2.1
        • 已安装的 Python 库

  •