工作区库充当本地存储库,你可以从中创建群集安装库。 工作区库可能是你的组织创建的自定义代码,也可能是你的组织已经标准化的开源库的特定版本。
必须先在群集上安装工作区库,然后才能将其用于笔记本或作业。 请参阅
在群集上安装工作区库
。
工作区中的所有用户均可使用共享文件夹中的工作区库,而某个用户文件夹中的工作区库仅该用户可用。
使用库 UI 上传的库存储在 DBFS 根中。 所有工作区用户都能修改 DBFS 根中存储的数据和文件。 可以通过使用云对象存储中的库或使用库包存储库将库上传到工作区文件或 Unity Catalog 卷来避免这种情况。
工作区库与使用工作区文件存储的库有何不同?
术语“工作区库”是指注册到工作区的任何库。 工作区库与笔记本和工作区文件一起显示,并遵循其包含目录的 ACL 规则。
术语“工作区文件”是指工作区中存储的任何任意文件。 可以将 Python .whl 包存储为工作区文件,然后将其注册为工作区库。 请参阅
什么是工作区文件?
。
可以将库作为工作区文件上传。 请参阅
工作区文件基本用法
。
虽然可以将许多文件类型上传到工作区文件,但只能使用工作区文件安装 Python .whl 文件。 请参阅
与库和初始化脚本的计算兼容性
。
在 Databricks Runtime 13.3 LTS 及更高版本中,可以使用
%pip
安装存储为工作区文件的 Python wheel。 请参阅
使用 %pip 安装存储为工作区文件的包
。
创建工作区库
右键单击用于存储该库的工作区文件夹。
选择“创建”>“库”。 此时将显示“创建库”对话框。
选择“库源”并按照相应的过程操作:
-
引用已上传的库
-
PyPI 包
-
Maven 包
-
CRAN 包
上传 Jar、Python Egg 或 Python Wheel
已弃用安装 Python Egg 的功能,并将在未来的 Databricks Runtime 版本中删除该功能。
使用库 UI 上传的库存储在 DBFS 根中。 所有工作区用户都能修改 DBFS 根中存储的数据和文件。 可以通过使用云对象存储中的库或使用库包存储库将库上传到工作区文件或 Unity Catalog 卷来避免这种情况。
-
在“库源”按钮列表中,选择“上传”。
-
选择“Jar”、“Python Egg”或“Python Whl”。
-
选择性地输入库名称。
-
将 Jar、Egg 或 Whl 拖到下拉框中,或单击下拉框,然后导航到文件。 该文件将上传到
dbfs:/FileStore/jars
。
-
单击“创建”。 将显示“库状态”屏幕。
引用已上传的 Jar、Python Egg 或 Python Wheel
可以通过引用存储在 DBFS 根目录或对象存储中的 JAR、Python egg 或 Python wheel 文件,或者使用工作区文件来创建新的工作区库。 遵循此工作流可注册指向库的指针,而无需上传或移动文件。
使用 Databricks Runtime 13.2 及更高版本,还可以
在 Unity Catalog 中引用卷
。 此功能现提供
公共预览版
。
对于共享访问模式,必须将 JAR 添加到
allowlist
。 请参阅
将共享计算上的库和 init 脚本加入允许列表
。
-
在“库源”按钮列表中选择“
文件路径/ADLS
”。
-
选择“Jar”、“Python Egg”或“Python Whl”。
-
选择性地输入库名称。
-
指定库的路径,如以下示例所示:
-
abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl
-
/Workspace/path/to/library.whl
-
dbfs:/path/to/library.whl
-
/Volumes/<catalog>/<schema>/<volume>/<path_to_library_file>
-
单击“创建”。 将显示“库状态”屏幕。
有关在对象存储中使用库的详细信息,请参阅
从对象存储安装库
。
有关工作区文件的详细信息,请参阅
如何处理 Azure Databricks 中的文件
。
在群集上安装工作区库
Azure Databricks 按照在群集上安装所有工作区库的顺序处理这些工作区库。 如果库之间存在依赖关系,则可能需要注意群集上的安装顺序。
使用库 UI 上传的库存储在 DBFS 根中。 所有工作区用户都能修改 DBFS 根中存储的数据和文件。 可以通过使用云对象存储中的库或使用库包存储库将库上传到工作区文件或 Unity Catalog 卷来避免这种情况。
在分配的访问模式下,使用分配的主体的标识(用户或服务主体)。
在共享访问模式下,库使用安装库的用户的标识。
无隔离共享访问模式不支持卷,但使用与共享访问模式相同的标识分配。
若要查看在群集上安装库的所有选项,请参阅
群集库
。
若要安装工作区中已存在的库,可以从群集 UI 或库 UI 开始:
-
在边栏中单击
“
计算
”。
-
单击群集名称。
-
单击“库”选项卡。
-
单击“新安装”。
-
在“库源”按钮列表中,选择“工作区库”。
-
选择一个工作区库。
-
单击“安装”。
-
转到包含该库的文件夹。
-
单击库名称。
-
选中要在其上安装该库的群集旁边的复选框,然后单击“安装”。 列表中仅显示正在运行的群集。
查看工作区库详细信息
工作区文件夹为发现工作区库和管理 ACL 提供了便利。
-
转到包含该库的工作区文件夹。
-
单击库名称。
“库详细信息”页面显示该库运行中的群集及其
安装状态
。 如果已安装库,则页面包含指向包主机的链接。 如果已上传库,则页面将显示指向已上传的包文件的链接。
移动工作区库
工作区文件夹为发现工作区库和管理 ACL 提供了便利。 移动工作区库不会移动文件,但可以修改哪些用户有权访问工作区库。
-
转到包含该库的工作区文件夹。
-
右键单击库名称,然后选择“
移动
”。 将显示文件夹浏览器。
-
单击目标文件夹。
-
单击“
移动
”。
删除工作区库
删除工作区库之前,应将其从所有群集中
卸载
。
若要删除工作区库,请执行以下操作:
-
将库移动到“回收站”文件夹。
-
永久删除“回收站”文件夹中的库,或清空“回收站”文件夹。