相关文章推荐
豪情万千的消防车  ·  .Net 错误码 -CSDN博客·  8 月前    · 
细心的乒乓球  ·  RDLC报表多条件分组-腾讯云开发者社区-腾讯云·  1 年前    · 
果断的汽水  ·  Mysql中使用count加条件统计 - 墨天轮·  1 年前    · 
文质彬彬的眼镜  ·  js使用两种拼接字符串的方式循环数据动态生成 ...·  1 年前    · 
帅呆的海龟  ·  android tablayout 禁止点击-掘金·  2 年前    · 
Code  ›  MySQL数据迁移到MRS Hive分区表-数据治理中心 DataArts Studio-用户指南-数据集成-使用教程 - 天翼云
数据治理 mysql 分区表 hive
https://www.ctyun.cn/document/10014064/10120190
不敢表白的钥匙扣
1 年前

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
查看全部活动
热门活动
  • 新客特惠 NEW 全场热销云主机2.5折!
  • 算力套餐 NEW 让算力触手可及
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 中小企业上云场景组合购 NEW 建站、域名等场景一站式购齐,组合购9元起!
  • 天翼云电脑专场 HOT 移动办公神器天翼云电脑4核8G畅享3个月只要130元起!
  • 云主机特惠 HOT 多款云主机新老同享,满足您的上云需求!
免费活动
  • 企业免费试用专区 HOT 数十款产品免费试用,完成企业实名认证领取2000元试用金!
  • 个人免费试用专区 HOT 完成个人实名认证即可获得1000元试用金!
  • 新客特惠 全场云主机2.5折起
  • 云上安全专场 安全产品全场6折起!

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务。
进入甄选商城 进入云市场
办公协同
  • WPS云文档天翼云版 翼企云( License版) 天翼云企业云盘(标准服务版) 蓝信安全移动工作平台(SAAS) SSL证书 新域名服务 税务风控云 商企云财税(SAAS版) 翼云加速-标准版包月套餐 天翼云管家2.0 天翼云管家 翼备份(SaaS版)300G 智慧工厂_生产流程管理解决方案 天翼智慧工地 天翼全栈混合云敏捷版(软件) 天翼全栈混合云敏捷版(一体机)

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云技术合作伙伴
  • 天翼云OpenAPI中心 天翼云诸葛AI平台 天翼云EasyCoding平台
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云培训认证
  • 天翼云学堂 天翼云市场商学院
天翼云服务合作伙伴
  • 天翼云MSP合作伙伴
天翼云合作计划
  • 央企云合作计划
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴 天翼云甄选商城合作伙伴
天翼云东升计划
  • 东升适配创新中心 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
资源与工具
  • 天翼云OpenAPI EasyCoding敏捷开发平台 AI创作间
培训与认证
  • 天翼云学堂 天翼云认证

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • OpenAPI中心 客户支持计划

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云 天翼云4.0 天翼云APP 全球基础设施 分析师和白皮书 天翼云·创新直播间 2023云生态大会 2022云生态大会 天翼云中国行 支持与服务 了解天翼云
  • 站点切换
    • 中国站
  • 文档
  • 控制中心
  • 备案
  • 管理中心

查看所有产品

数据治理中心 DataArts Studio

数据治理中心 DataArts Studio

  • 约束与限制 数据治理中心DataArts Studio与其他服务的关系 准备工作简介 创建DataArts Studio实例 创建DataArts Studio基础包 (可选)创建DataArts Studio增量包 管理工作空间 创建并管理工作空间 (可选)修改作业日志存储路径 授权用户使用DataArts Studio 创建IAM用户并授予DataArts Studio权限 添加工作空间成员和角色 (可选)获取认证信息 使用DataArts Studio前的准备 DataArts Studio支持的数据源 创建数据连接 新建MRS Hive连接 新建DWS连接 新建MySQL连接 数据集成概述 约束与限制 支持的数据源 创建CDM集群 解绑/绑定集群的EIP 下载集群日志 查看集群基本信息/修改集群配置 查看监控指标 支持的监控指标 设置告警规则 查看监控指标 管理Agent 管理集群配置 配置常见关系数据库连接 配置分库连接 配置MySQL数据库连接 配置Oracle数据库连接 配置DLI连接 配置Hive连接 配置HBase连接 配置HDFS连接 配置OBS连接 配置FTP/SFTP连接 配置Redis/DCS连接 配置DDS连接 配置CloudTable连接 配置CloudTable OpenTSDB连接 配置MongoDB连接 配置Cassandra连接 配置Kafka连接 配置DMS Kafka连接 配置Elasticsearch/云搜索服务(CSS)连接 新建表/文件迁移作业 新建整库迁移作业 配置作业源端参数 配置OBS源端参数 配置HDFS源端参数 配置HBase/CloudTable源端参数 配置Hive源端参数 配置DLI源端参数 配置FTP/SFTP源端参数 配置HTTP源端参数 配置常见关系数据库源端参数 配置MySQL源端参数 配置Oracle源端参数 配置分库源端参数 配置MongoDB/DDS源端参数 配置Redis源端参数 配置Kafka/DMS Kafka源端参数 配置Elasticsearch或云搜索服务源端参数 配置OpenTSDB源端参数 配置作业目的端参数 配置OBS目的端参数 配置HDFS目的端参数 配置HBase/CloudTable目的端参数 配置Hive目的端参数 配置常见关系数据库目的端参数 配置DWS目的端参数 配置DDS目的端参数 配置DCS目的端参数 配置云搜索服务目的端参数 配置DLI目的端参数 配置OpenTSDB目的端参数 配置定时任务 作业配置管理 管理单个作业 批量管理作业 支持云审计的关键操作 如何查看审计日志 创建MRS Hive连接器 创建MySQL连接器 MySQL数据迁移到MRS Hive分区表 MySQL数据迁移到OBS MySQL数据迁移到DWS MySQL整库迁移到RDS服务 Oracle数据迁移到云搜索服务 Oracle数据迁移到DWS OBS数据迁移到云搜索服务 OBS数据迁移到DLI服务 MRS HDFS数据迁移到OBS Elasticsearch整库迁移到云搜索服务 DDS数据迁移到DWS 增量迁移原理介绍 文件增量迁移 关系数据库增量迁移 时间宏变量使用解析 HBase/CloudTable增量迁移 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 数据架构概述 数据架构使用流程 添加审核人 管理配置中心 新建数据标准 逻辑模型设计 物理模型设计 管理维度表 新建事实表 新建原子指标 新建衍生指标 新建复合指标 新建时间限定 数据集市建设 新建汇总表 逆向数据库(关系建模) 逆向数据库(维度建模) 导入导出表 关联质量规则 批量修改主题/目录/流程 数据架构示例 数据开发概述 数据管理流程 新建数据连接 新建数据库 (可选)新建数据库模式 新建数据表 脚本开发流程 开发SQL脚本 开发Shell脚本 开发Python脚本 提交版本并解锁 (可选)管理脚本 复制名称与重命名脚本 移动脚本/脚本目录 导出导入脚本 查看脚本引用 迁移脚本责任人 作业开发流程 提交版本并解锁 (可选)管理作业 复制名称和重命名作业 移动作业/作业目录 导出导入作业 迁移作业责任人 批作业监控 实时作业监控 补数据监控 通知周期概览 配置环境变量 配置OBS桶 管理作业标签 配置默认项 节点数据血缘 配置数据血缘 查看数据血缘 CDM Job Rest Client Import GES MRS Kafka Kafka Client ROMA FDI Job DLI Flink Job DLI SQL DLI Spark DWS SQL MRS Spark SQL MRS Hive SQL MRS Presto SQL MRS Spark MRS Spark Python MRS Flink Job MRS MapReduce Shell RDS SQL ETL Job Python Create OBS Delete OBS OBS Manager Open/Close Resource Data Quality Monitor Sub Job For Each Dummy EL表达式参考 表达式概述 基础操作符 日期和时间模式 Env内嵌对象 Job内嵌对象 StringUtil内嵌对象 DateUtil内嵌对象 JSONUtil内嵌对象 Loop内嵌对象 OBSUtil内嵌对象 表达式使用示例 作业依赖详解 IF条件判断教程 获取Rest Client算子返回值教程 For Each算子使用介绍 开发一个Python脚本 开发一个DWS SQL作业 开发一个Hive SQL作业 开发一个DLI Spark作业 开发一个MRS Flink作业 开发一个MRS Spark Python作业 业务指标监控 业务指标监控概述 新建业务场景 查看业务场景实例 数据质量监控 数据质量监控概述 新建规则模板 新建质量作业 新建对账作业 查看规则实例 查看质量报告 新建一个业务场景 新建一个质量作业 新建一个作业对账实例 数据权限简介 数据目录权限 数据表权限 数据安全(待下线) 数据安全简介 元数据采集 元数据简介 开发一个增量元数据采集任务 通过数据地图查看数据血缘关系 配置数据血缘 查看数据血缘 数据服务概览 开发API 创建专享版集群 新建审核人 创建API 配置模式生成API 脚本模式生成API 注册API 调试API 发布API 管理API 设置API可见 停用/恢复API 下线/删除API 复制API 全量导出/导出/导入API 调用API 审核中心操作说明 数据治理中心 DataArts Studio产品服务协议 数据治理中心 DataArts Studio产品服务等级协议 数据治理中心 DataArts Studio用户操作指南 数据治理中心 DataArts Studio故障排除
无相关产品

本页目录

数据治理中心 DataArts Studio MySQL数据迁移到MRS Hive分区表
MySQL数据迁移到MRS Hive分区表
更新时间 2023-08-17 07:55:33
  • 新浪微博
  • 微信
    扫码分享
  • 复制链接
最近更新时间: 2023-08-17 07:55:33
分享文章
  • 新浪微博
  • 微信
    扫码分享
  • 复制链接
本章节主要介绍MySQL数据迁移到MRS Hive分区表。

MapReduce服务(MapReduce Service,简称MRS)提供企业级大数据集群云服务,里面包含HDFS、Hive、Spark等组件,适用于企业海量数据分析。

其中Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。

Hive的分区使用HDFS的子目录功能实现,每一个子目录包含了分区对应的列名和每一列的值。当分区很多时,会有很多HDFS子目录,如果不依赖工具,将外部数据加载到Hive表各分区不是一件容易的事情。云数据迁移服务(CDM)可以请轻松将外部数据源(关系数据库、对象存储服务、文件系统服务等)加载到Hive分区表。

下面使用CDM将MySQL数据导入到MRS Hive分区表为例进行介绍。

假设MySQL上有一张表trip_data,保存了自行车骑行记录,里面有起始时间、结束时间,起始站点、结束站点、骑手ID等信息,trip_data表字段定义如下图“MySQL表字段”所示。

使用CDM将MySQL中的表trip_data导入到MRS Hive分区表,流程如下:

1.在MRS Hive上创建Hive分区表

2.创建CDM集群并绑定EIP

3.创建MySQL连接

4.创建Hive连接

5.创建迁移作业

  • 已经创建MRS。
  • 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。
  • 已参考 管理驱动 ,上传了MySQL数据库驱动。
  • 在MRS Hive上创建Hive分区表

    在MRS的Hive上使用下面SQL语句创建一张Hive分区表,表名与MySQL上的表trip_data一致,且Hive表比MySQL表多建三个字段y、ym、ymd,作为Hive的分区字段。SQL语句如下:

    create table trip_data(TripID int,Duration int,StartDate,timestamp,StartStation varchar(64),StartTerminal int,EndDate timestamp,EndStation varchar(64),EndTerminal int,Bike int,SubscriberType varchar(32),ZipCodev varchar(10))partitioned by (y int,ym int,ymd int);
                    

    Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data进行按时间维度统计汇总时,只需要对局部数据扫描,大大提升性能。

    创建CDM集群并绑定EIP

  • 参考创建CDM集群,创建CDM集群。
  • 关键配置如下:

  • CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。
  • CDM集群所在VPC、子网、安全组,选择与MRS集群所在的网络一致。
  • CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MySQL。
  • 详见下图: 集群列表

    如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。

    创建MySQL连接

  • 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面。
  • 选择“MySQL”后单击“下一步”,配置MySQL连接的参数。
  • 单击“显示高级属性”可查看更多可选参数,具体请参见 配置常见关系数据库连接。这里保持默认,必填参数如下表“MySQL连接参数”所示。

  • 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面。
  • 连接器类型选择“MRS Hive”后单击“下一步”配置Hive连接参数,如下图“创建MRS Hive连接”所示。
  • 各参数说明如下表“MRS Hive连接参数”所示,需要您根据实际情况配置。

    选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。
    如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。
    说明
    如果CDM集群为2.9.0版本及之后版本,且MRS集群为3.1.0及之后版本,则所创建的用户至少需具备Manager_viewer的角色权限才能在CDM创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。
    如果CDM集群为2.9.0之前的版本,或MRS集群为3.1.0之前的版本,则所创建的用户需要具备Manager_administrator或System_administrator权限,才能在CDM创建连接。
    仅具备Manager_tenant或Manager_auditor权限,无法创建连接。 访问MRS Manager的用户密码。 OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 “HIVE_3_X”版本支持该参数。支持以下模式:
    EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
    STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
    说明
    STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 EMBEDDED 检查Hive JDBC连通性 是否需要测试Hive JDBC连通性。 是否使用集群配置 用户可以在“连接管理”处创建集群配置,用于简化Hadoop连接参数配置。 其他Hive客户端配置属性。
  • 作业参数配置完成后,单击“下一步”,进入字段映射界面,如下图“Hive字段映射”所示。
  • 映射MySQL表和Hive表字段,Hive表比MySQL表多三个字段y、ym、ymd,即是Hive的分区字段。由于没有源表字段直接对应,需要配置表达式从源表的StartDate字段抽取。

  • 单击 image.png进入转换器列表界面,再选择“新建转换器 > 表达式转换”,如下图“配置表达式”所示。
  • y、ym、ymd字段的表达式分别配置如下:

    DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyy")

    DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyyMM")

    DateUtils.format(DateUtils.parseDate(row[2],"yyyy-MM-dd HH:mm:ss.SSS"),"yyyyMMdd")

    CDM的表达式已经预置常用字符串、日期、数值等类型的字段内容转换。

  • 单击“下一步”配置任务参数,一般情况下全部保持默认即可。
  • 该步骤用户可以配置如下可选功能:

  • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
  • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
  • 是否定时执行:如果需要配置作业定时自动执行,请参见 配置定时任务。这里保持默认值“否”。
  • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
  • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
  • 作业运行完是否删除:这里保持默认值“不删除”。
  • 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
  • 作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。
  • 在历史记录界面单击“日志”,可查看作业的日志信息。

    上一篇 :  创建MySQL连接器 下一篇 :  MySQL数据迁移到OBS
    文本反馈

    鼠标选中文档,精准反馈问题 选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理 7*24小时不间断售后保障

     
    推荐文章
    豪情万千的消防车  ·  .Net 错误码 -CSDN博客
    8 月前
    细心的乒乓球  ·  RDLC报表多条件分组-腾讯云开发者社区-腾讯云
    1 年前
    果断的汽水  ·  Mysql中使用count加条件统计 - 墨天轮
    1 年前
    文质彬彬的眼镜  ·  js使用两种拼接字符串的方式循环数据动态生成HTML_程序媛zcx的博客-CSDN博客
    1 年前
    帅呆的海龟  ·  android tablayout 禁止点击-掘金
    2 年前
    今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
    删除内容请联系邮箱 2879853325@qq.com
    Code - 代码工具平台
    © 2024 ~ 沪ICP备11025650号