二进制文件 - Azure Databricks | Microsoft Learn

相关文章推荐

温暖的海龟 · 将十进制（整数型）转换为二进制（字符串型）n ...· 5 天前 ·

善良的骆驼 · numpy将二进制字符串转换为十进制 - ...· 5 天前 ·

精明的豆腐 · Python 读写二进制文件 ...· 5 天前 ·

才高八斗的开心果 · 16进制的4相当于2进制的 - CSDN文库· 5 天前 ·

朝气蓬勃的火腿肠 · 二进制、字节、16进制_Bad-Kbase的 ...· 5 天前 ·

知识渊博的单车 · 第19章：用FFT计算线性卷积和循环互相关 ...· 1 年前 ·

忧郁的篮球 · 消息队列在VB.NET数据库开发中的应用 ...· 1 年前 ·

深情的爆米花 · textarea的文字数限制_51CTO博客 ...· 1 年前 ·

风流倜傥的热带鱼 · Troubleshooting NuGet ...· 1 年前 ·

被表白的楼梯 · Mybatis之ResultSetHandl ...· 1 年前 ·

Databricks Runtime 支持二进制文件数据源，该数据源读取二进制文件并将每个文件转换为包含该文件的原始内容和元数据的单个记录。二进制文件数据源会生成一个包含以下列和可能的分区列的数据帧：


    path (StringType)

：文件的路径。


    modificationTime (TimestampType)

：文件的修改时间。在某些 Hadoop 文件系统实现中，此参数可能不可用，值将设置为默认值。


    length (LongType)

：文件的长度（以字节表示）。


    content (BinaryType)

：文件的内容。

若要读取二进制文件，请将数据源 format 指定为 binaryFile 。

Databricks 建议使用二进制文件数据源来加载图像数据。

在 Databricks Runtime 8.4 及更高版本中，Databricks display 函数支持显示使用二进制数据源加载的图像数据。

如果所有加载的文件具有包含图像扩展名的文件名，则将自动启用图像预览：

df = spark.read.format("binaryFile").load("<path-to-image-dir>")
display(df)    # image thumbnails are rendered in the "content" column
或者，可以通过使用带有字符串值 "image/*" 的 mimeType 选项对二进制列添加批注，从而强制执行图像预览功能。 图像基于二进制内容中的格式信息进行解码。 受支持的图像类型为 bmp、gif、jpeg 和 png。 不受支持的文件显示为损坏的图像图标。
df = spark.read.format("binaryFile").option("mimeType", "image/*").load("<path-to-dir>")
display(df)    # unsupported files are displayed as a broken image icon
如需了解建议的用于处理图像数据的工作流，请参阅图像应用程序的参考解决方案。
若要加载其路径与给定 glob 模式匹配的文件，同时保留分区发现行为，可以使用 pathGlobFilter 选项。 以下代码使用分区发现从输入目录读取所有 JPG 文件：
df = spark.read.format("binaryFile").option("pathGlobFilter", "*.jpg").load("<path-to-dir>")
如果要忽略分区发现并以递归方式搜索输入目录下的文件，请使用 recursiveFileLookup 选项。 此选项会搜索整个嵌套目录，即使这些目录的名称不遵循 date=2019-07-01 之类的分区命名方案。
以下代码从输入目录中以递归方式读取所有 JPG 文件，并忽略分区发现：
df = spark.read.format("binaryFile") \
  .option("pathGlobFilter", "*.jpg") \
  .option("recursiveFileLookup", "true") \
  .load("<path-to-dir>")
Scala、Java 和 R 存在类似的 API。
若要在重新加载数据时提高读取性能，Azure Databricks 建议你在保存从二进制文件加载的数据时禁用压缩：
spark.conf.set("spark.sql.parquet.compression.codec", "uncompressed")
df.write.format("delta").save("<path-to-table>")

推荐文章

温暖的海龟 · 将十进制（整数型）转换为二进制（字符串型）numpy.binary_repr()_numpy十进制转二进制-CSDN博客

5 天前

善良的骆驼 · numpy将二进制字符串转换为十进制 - CSDN文库

5 天前

精明的豆腐 · Python 读写二进制文件以及Numpy读写二进制文件 - 云远·笨小孩 - 博客园

5 天前

才高八斗的开心果 · 16进制的4相当于2进制的 - CSDN文库

5 天前

朝气蓬勃的火腿肠 · 二进制、字节、16进制_Bad-Kbase的技术博客_51CTO博客

5 天前

知识渊博的单车 · 第19章：用FFT计算线性卷积和循环互相关 - 知乎

1 年前

忧郁的篮球 · 消息队列在VB.NET数据库开发中的应用 - jack_Meng - 博客园

1 年前

深情的爆米花 · textarea的文字数限制_51CTO博客_textarea不可编辑

1 年前

风流倜傥的热带鱼 · Troubleshooting NuGet Package Restore in Visual Studio | Microsoft Learn

1 年前

被表白的楼梯 · Mybatis之ResultSetHandler - 阅读清单 - 腾讯云开发者社区-腾讯云

1 年前