写入执行 Tensorboard 之类的库时的输出。
可以在 Databricks Runtime 8.4 或更高版本中使用 Databricks Repos 读取和导入工作区文件。 可以在 Databricks Runtime 11.2 及更高版本中以编程方式创建、编辑和删除工作区文件。
若要禁止将内容写入到工作区文件,请设置群集环境变量
WSFS_ENABLE_WRITE_SUPPORT=false
。 有关详细信息,请参阅
环境变量
。
读取数据工作区文件
可以通过笔记本中的代码以编程方式读取小型数据文件,例如
.csv
或
.json
文件。 以下示例使用 Pandas 查询存储在相对于项目存储库根目录的
/data
目录中的文件:
import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
可以使用 Spark 读取数据文件。 必须为 Spark 提供完全限定的路径。 Repos 中的工作区文件使用路径 file:/Workspace/Repos/<user_folder>/<repo_name>/file。
可以从文件旁边的下拉菜单中将绝对或相对路径复制到存储库中的文件:
下面的示例演示如何使用 {os.getcwd()} 获取完整路径。
import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")
若要详细了解 Azure Databricks 上的文件,请参阅如何使用 Azure Databricks 上的文件。
以编程方式创建、更新和删除文件和目录
在 Databricks Runtime 11.2 及更高版本中,可以直接操作 Azure Databricks 中的工作区文件。 以下示例使用标准 Python 包和功能来创建和操作文件和目录。
# Create a new directory
os.mkdir('dir1')
# Create a new file and write to it
with open('dir1/new_file.txt', "w") as f:
f.write("new content")
# Append to a file
with open('dir1/new_file.txt', "a") as f:
f.write(" continued")
# Delete a file
os.remove('dir1/new_file.txt')
# Delete a directory
os.rmdir('dir1')