以编程方式与工作区文件交互 - Azure Databricks

相关文章推荐

玩篮球的海龟 · 在 Azure Functions 中排查 ...· 3 周前 ·

狂野的松树 · 连接器发布阶段和时间线 - Azure ...· 2 周前 ·

腼腆的伤疤 · Azure AI 视频处理指南 - ...· 1 周前 ·

爽快的红烧肉 · GitLab在CockroachDB和Yug ...· 2 年前 ·

玉树临风的乌冬面 · PHP异步执行shell命令并检索实时输出- ...· 2 年前 ·

想出国的碗 · pandas从日期时间转换为整数时间戳-腾讯 ...· 2 年前 ·

淡定的跑步机 · python切换进程用户到nginx账号_码 ...· 2 年前 ·

严肃的苹果 · 【解决：command not ...· 2 年前 ·

写入执行 Tensorboard 之类的库时的输出。

可以在 Databricks Runtime 8.4 或更高版本中使用 Databricks Repos 读取和导入工作区文件。可以在 Databricks Runtime 11.2 及更高版本中以编程方式创建、编辑和删除工作区文件。

若要禁止将内容写入到工作区文件，请设置群集环境变量 WSFS_ENABLE_WRITE_SUPPORT=false 。有关详细信息，请参阅环境变量。

读取数据工作区文件

可以通过笔记本中的代码以编程方式读取小型数据文件，例如 .csv 或 .json 文件。以下示例使用 Pandas 查询存储在相对于项目存储库根目录的 /data 目录中的文件：

import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
可以使用 Spark 读取数据文件。 必须为 Spark 提供完全限定的路径。 Repos 中的工作区文件使用路径 file:/Workspace/Repos/<user_folder>/<repo_name>/file。
可以从文件旁边的下拉菜单中将绝对或相对路径复制到存储库中的文件：
下面的示例演示如何使用 {os.getcwd()} 获取完整路径。
import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")
若要详细了解 Azure Databricks 上的文件，请参阅如何使用 Azure Databricks 上的文件。
以编程方式创建、更新和删除文件和目录
在 Databricks Runtime 11.2 及更高版本中，可以直接操作 Azure Databricks 中的工作区文件。 以下示例使用标准 Python 包和功能来创建和操作文件和目录。
# Create a new directory
os.mkdir('dir1')
# Create a new file and write to it
with open('dir1/new_file.txt', "w") as f:
    f.write("new content")
# Append to a file
with open('dir1/new_file.txt', "a") as f:
    f.write(" continued")
# Delete a file
os.remove('dir1/new_file.txt')
# Delete a directory
os.rmdir('dir1')

推荐文章

玩篮球的海龟 · 在 Azure Functions 中排查 Python 函数应用错误 | Microsoft Learn

3 周前

狂野的松树 · 连接器发布阶段和时间线 - Azure Data Factory | Microsoft Learn

2 周前

腼腆的伤疤 · Azure AI 视频处理指南 - Azure Architecture Center | Microsoft Learn

1 周前

爽快的红烧肉 · GitLab在CockroachDB和YugabyteDB上的兼容性对比（一）-系统初始化 - 知乎

2 年前

玉树临风的乌冬面 · PHP异步执行shell命令并检索实时输出-腾讯云开发者社区-腾讯云

2 年前

想出国的碗 · pandas从日期时间转换为整数时间戳-腾讯云开发者社区-腾讯云

2 年前

淡定的跑步机 · python切换进程用户到nginx账号_码出钞能力的博客-CSDN博客

2 年前

严肃的苹果 · 【解决：command not found: tsc】手动更改npm的默认目录 - 嗨Sirius - 博客园

2 年前