如果不手动设置一下,那么每次运行Spark时都会在当前所在目录生成derby.log和metastore_db文件,不方便集中管理。这种随意性与冗余对于程序员来说是不能接受的,所以必须自定义设置,使之统一生成在唯一路径下。
在spark/conf目录下,将
spark-defaults.conf.template
复制为
spark-defaults.conf
,在该配置文件最后一行写入
spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby
(tmp/deby 替代为你希望的目录路径,路径一定要用
右斜线
分隔),即可。
如果不手动设置一下,那么每次运行Spark时都会在当前所在目录生成derby.log和metastore_db文件,不方便集中管理。这种随意性与冗余对于程序员来说是不能接受的,所以必须自定义设置,使之统一生成在唯一路径下。在spark/conf目录下,将spark-defaults.conf.template复制为spark-defaults.conf,在该配置文件最后一行写入spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby(tmp/
数据没有
生成
的时候:(执行的时候报错)
in thread “main” java.lang.IllegalArgumentException: Error while instantiating ‘org.apache.
spark
.sql.hive.HiveSessionState’:
大概意思就是不能实例化org.apache.
spark
.sql.hive.HiveSessionState
但是
生成
了源数据库
默认使用的
spark
自带的hive,按理说应该
生成
meta
【一】
Spark
SQL数据源
【1】
Spark
SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询
【2】
Spark
SQL的默认数据源为Parquet格式。数据源为Parquet文件时,
Spark
SQL可以方便的执行所有的操作。修改配置项...
Hive
Meta
store
作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、
Spark
等。本文讲述通过
spark
SQL配置连接Hive
Meta
store
,并以3.1.2版本为例。
通过
Spark
连接Hive
Meta
store
,需要准备如下文件:
hive-site.xml
apache-hive-3.1.2-bin
spark
-3.0.3-bin-hadoop3.2
在完成下述操作之前,当然首先需要安装并启动hive standalone
meta
store
,并将hi
看文档可以知道,
Spark
SQL复用了hive的sql解析器/
meta
store
管理。而hive的默认的
meta
store
为
derby
,它有两个弊端:
1.
meta
store
一次仅允许一个客户端连接
2.每个客户端进行sql操作时,都会在本进程所在的文件夹内新建
meta
store
所以,在产品的开发中,至少应该将
meta
store
配为postgresql的
步骤如下:
1.在pos
我觉得这个macos的
路径
配置还是很有必要在赘述一下的!!!
网上的很多的
spark
环境配置在配置
路径
都是直接去修改ect/profile,其实这样是很危险的,本博主亲测,不小心删了一行,结果导致命令行出现了问题,不得不重装系统。
首先我们先了解一下Mac系统的环境变量,加载顺序为:
/etc/profile /etc/paths ~/.bash_profile ~/.ba...
Hive 3.1.2 分布式安装基于 Hadoop 3.1.3 和
Spark
,需要按照以下步骤进行:
1. 安装 Hadoop 3.1.3,配置 Hadoop 的环境变量和配置文件。
2. 安装
Spark
,配置
Spark
的环境变量和配置文件。
3. 下载 Hive 3.1.2,解压缩到指定目录。
4. 配置 Hive 的环境变量和配置文件,包括 Hive-site.xml、hive-env.sh、hive-exec-
log
4j2.properties、hive-
log
4j2.properties 等。
5. 启动 Hadoop 和
Spark
集群。
6. 启动 Hive 服务,使用命令行或者 Hive Web UI 进行操作。
7. 配置 Hive 的元数据存储,可以选择使用 MySQL 或者
Derby
等数据库。
8. 创建 Hive 表,进行数据的导入和查询操作。
以上就是 Hive 3.1.2 分布式安装的基本步骤,需要根据实际情况进行调整和优化。