Spark与DLASQL引擎以及数据湖构建服务共享元数据_云原生数据湖分析-阿里云帮助中心

Spark访问数据湖元数据服务

Spark引擎可以支持多种元数据服务，既支持访问用户自建的 Hive ，也支持访问DLA统一管理的数据湖元数据。DLA统一管理的数据湖元数据管理服务，同时支持多种引擎访问，实现多种引擎的元数据信息共享。在数据湖元信息发现、 T+1全量同步一键建仓中创建的库表结构, 可以被Spark读取并使用，Spark SQL创建或者修改的元数据也可以被其他引擎访问到。下图是Spark SQL和DLA SQL与元数据服务之间的关系。

纯SQL作业

DLA Spark支持直接在控制台写Spark SQL。无需用户打包jar包或者写python代码，更有利于数据开发人员使用Spark进行数据分析。

您需要先登录 DLA控制台，在 Serverless Spark > 作业管理 菜单中创建SparkSQL类型的作业。创建SparkSQL类型的作业后，系统默认会使用DLA元数据服务。如果您想关闭DLA元数据服务，可以使用以下两种方式：

使用 in-memory catalog ，将不会使用DLA元数据服务。
```
set spark.sql.catalogImplementation = in-memory;
```

设置 hive metastore version 为1.2.1或其他版本。

set spark.sql.catalogImplementation = hive;
set spark.sql.hive.metastore.version = 1.2.1;

SparkSQL作业的文本框中，支持直接写SQL语句， 每条SQL语句以分号隔开 。

SQL语句支持下列类型命令：

SET命令

用于指定Spark的设置，一般置于整个SQL语句的最前面。
每条Set命令指定一个Spark参数的值，每条SET命令用分号隔开。
SET命令的Key和Value均 不要加单引号或者双引号。

ADD JAR命令

用于增加Spark SQL运行时，依赖的jar包，比如UDF的jar包，各类数据源连接器的Jar包等。Jar包目前支持OSS格式路径，一般置于整个SQL语句的最前面。
每条add jar命令指定一个oss jar包路径，路径字符串不要加单引号和双引号，每条ADD JAR命令用分号隔开。

Spark SQL语法所支持的DDL或DML语句

例如查询语句 select 。
例如插入语句 insert 。
例如查看数据库 SHOW DATABASE 。

from pyspark.sql import SparkSession
if __name__ == "__main__":
    # init pyspark context
    spark = SparkSession \
        .builder \
        .appName("Python SQL Test") \
        .getOrCreate()
    # create a database
    spark.sql(
            "create database if not exists dlatest comment 'c' location 'oss://{your bucket name}/{path}/' WITH DBPROPERTIES(k1='v1', k2='v2')")
    # create table
    spark.sql(
            "create table dlatest.tp(col1 INT)  PARTITIONED BY (p1 STRING, p2 STRING) location 'oss://{your bucket name}/{path}/' STORED AS parquet TBLPROPERTIES ('parquet.compress'='SNAPPY')")
    # show structure
    print(spark.sql("show create table dlatest.tp").collect()[0])
    # insert data
    spark.sql("INSERT into dlatest.tp partition(p1='a',p2='a') values(1)")
    # show data
    spark.sql("select * from dlatest.tp").show()

{
    "name": "DLA SQL Test",
    "file": "oss://path/to/example.py",
    "conf": {
        "spark.driver.resourceSpec": "small",
        "spark.sql.hive.metastore.version": "dla",
        "spark.sql.catalogImplementation": "hive",
        "spark.dla.connectors": "oss",
        "spark.executor.instances": 1,
        "spark.dla.job.log.oss.uri": "oss://path/to/spark-logs",
        "spark.executor.resourceSpec": "small"
}

CREATE DATABASE db1 LOCATION 'oss://test/db1/';

CREATE TABLE table1(col1 INT) LOCATION 'oss://test/db1/table1/';

DROP DATABASE IF EXISTS db1;

Spark访问数据湖元数据服务

纯SQL作业

代码中使用Spark SQL

使用DLA元数据服务的限制和注意事项