相关文章推荐
风流倜傥的灭火器  ·  关于WPF ...·  1 年前    · 
旅途中的小马驹  ·  Install and Set Up ...·  1 年前    · 
分库分表:中间件最全方案对比

分库分表:中间件最全方案对比

背景

分库分表这个词相信很多人都不陌生,在互联网公司数据到达一定规模的时候,多数都会对数据进行分库分表,或者也有人叫分片,英文翻译为Sharding;

更加准确来说我们常常关心的是水平分片,即单个业务的某些表到达一定规模后,即使建立索引也无法从根本上带来很大的性能提升,这时我们会考虑把单表拆分。

以MySQL为例**,B+树索引的深度会随着记录的增多而逐渐加深**,根据索引查询的开销也会越来越大,而单表拆分成多个表之后,B+树深度降低,每个单表独立查询的速度也会加快,如果同时还分库的话,并且在不同的实例上,大量的查询压力也会分担到不同的机器上,这对单个数据库机器减压也带来好处。

分库分表的技术方案总体上来讲分为两大类: 应用层依赖类中间件 中间层代理类中间件



应用层依赖类中间件

这类分库分表中间件的特点就是 和应用强耦合 ,需要应用显示依赖相应的jar包(以Java为例),比如知名的TDDL、当当开源的 sharding-jdbc 、蘑菇街的 TSharding 、携程开源的 Ctrip-DAL 等。

此类中间件的基本思路

就是重新实现JDBC的API,通过重新实现DataSource、PrepareStatement等操作数据库的接口,让应用层在基本(注意:这里用了基本)不改变业务代码的情况下透明地实现分库分表的能力。
中间件给上层应用提供熟悉的JDBC API,内部通过sql解析、sql重写、sql路由等一系列的准备工作获取真正可执行的sql,然后底层再按照传统的方法(比如数据库连接池)获取物理连接来执行sql,最后把数据结果合并处理成ResultSet返回给应用层。

优点

就是无需额外部署,只要和应用绑定一起发布即可

缺点

就是不能跨语言,比如Java写的sharding-jdbc显然不能用在C#项目中,所以携程的dal也要重新写一套C#的客户端。

ShardingSphere

ShardingSphere是一套开源的 分布式数据库中间件解决方案 组成的生态圈,它由 Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar (计划中)这3款相互独立的产品组成。 他们 均提供标准化的数据分片、分布式事务和数据库治理 功能,可适用于如Java同构、异构语言、容器、云原生等各种多样化的应用场景。
ShardingSphere定位为关系型数据库中间件,旨在充分合理地在分布式的场景下利用关系型数据库的计算和存储能力,而并非实现一个全新的关系型数据库 。 它与NoSQL和NewSQL是并存而非互斥的关系。NoSQL和NewSQL作为新技术探索的前沿,放眼未来,拥抱变化,是非常值得推荐的。反之,也可以用另一种思路看待问题,放眼未来,关注不变的东西,进而抓住事物本质。 关系型数据库当今依然占有巨大市场,是各个公司核心业务的基石,未来也难于撼动,我们目前阶段更加关注在原有基础上的增量,而非颠覆。

Sharding-JDBC

定位为轻量级Java框架,在Java的JDBC层提供的额外服务。 它使用客户端直连数据库,以jar包形式提供服务,无需额外部署和依赖,可理解为增强版的JDBC驱动,完全兼容JDBC和各种ORM框架。

  • 适用于任何基于Java的ORM框架,如:JPA, Hibernate, Mybatis, Spring JDBC Template或直接使用JDBC。
  • 基于任何第三方的数据库连接池,如:DBCP, C3P0, BoneCP, Druid, HikariCP等。
  • 支持任意实现JDBC规范的数据库。目前支持MySQL,Oracle,SQLServer和PostgreSQL。





Sharding-Proxy

定位为 透明化的数据库代理端 ,提供封装了数据库二进制协议的服务端版本,用于完成对异构语言的支持。 目前先提供MySQL版本 ,它可以使用任何兼容MySQL协议的访问客户端(如:MySQL Command Client, MySQL Workbench等)操作数据,对DBA更加友好。

  • 向应用程序完全透明,可直接当做MySQL使用。
  • 适用于任何兼容MySQL协议的客户端。



Sharding-Sidecar(TBD)

定位为Kubernetes或Mesos的云原生数据库代理 ,以DaemonSet的形式代理所有对数据库的访问。 通过无中心、零侵入的方案提供与数据库交互的的啮合层,即Database Mesh,又可称数据网格。

Database Mesh的关注重点在于如何将分布式的数据访问应用与数据库有机串联起来,它更加关注的是交互,是将杂乱无章的应用与数据库之间的交互有效的梳理。使用Database Mesh,访问数据库的应用和数据库终将形成一个巨大的网格体系,应用和数据库只需在网格体系中对号入座即可,它们都是被啮合层所治理的对象。



Sharding-JDBC Sharding-Proxy Sharding-Sidecar

混合架构

  • Sharding-JDBC采用无中心化架构,适用于Java开发的高性能的轻量级OLTP应用;
  • Sharding-Proxy提供静态入口以及异构语言的支持,适用于OLAP应用以及对分片数据库进行管理和运维的场景。
OLTP与OLAP的介绍
数据处理大致可以分成两大类: 联机事务处理OLTP(on-line transaction processing) 联机分析处理OLAP(On-Line Analytical Processing)
OLTP是传统的 关系型数据库 的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是 数据仓库系统 的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP 系统强调 数据库内存效率 ,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
OLAP 系统则 强调数据分析 ,强调SQL执行市场,强调磁盘I/O,强调分区等。

ShardingSphere是多接入端共同组成的生态圈。 通过混合使用Sharding-JDBC和Sharding-Proxy,并采用同一注册中心统一配置分片策略,能够灵活的搭建适用于各种场景的应用系统,架构师可以更加自由的调整适合于当前业务的最佳系统架构。



ShardingSphere功能列表

数据分片【Sharding-JDBC】
  • 分库 & 分表
  • 读写分离
  • 分布式主键

分布式事务(Doing)【Sharding-Proxy】

  • XA强一致事务
  • 柔性事务

数据库治理【Sharding-Sidecar(TBD)】

  • 配置动态化
  • 熔断 & 禁用
  • 调用链路追踪
  • 弹性伸缩 (Planning)


ShardingSphere规划线路图



中间层代理类中间件

这类分库分表中间件的核心原理是 在应用和数据库的连接之间搭起一个代理层 ,上层应用以标准的MySQL协议来连接代理层,然后代理层负责转发请求到底层的MySQL物理实例,这种方式对应用只有一个要求,就是只要用MySQL协议来通信即可,所以用MySQL Workbench这种纯的客户端都可以直接连接你的分布式数据库,自然也天然支持所有的编程语言。比较有代表性的产品有开创性质的 Amoeba 、阿里开源的 Cobar 、社区发展比较好的 Mycat 等。

MyCat

**MyCat是一个开源的分布式数据库系统,**是一个实现了MySQL协议的服务器, 前端用户可以把它看作是一个数据库代理 ,用MySQL客户端工具和命令行访问,而其后端可以用MySQL原生协议与多个MySQL服务器通信,也可以用JDBC协议与大多数主流数据库服务器通信, 其核心功能是分表分库,即将一个大表水平分割为N个小表,存储在后端MySQL服务器里或者其他数据库里





在技术实现上除了和应用层依赖类中间件基本相似外,代理类的分库分表产品必须实现标准的MySQL协议,某种意义上 讲数据库代理层转发的就是MySQL协议请求,就像Nginx转发的是Http协议请求

上述无论哪种类型的产品,除了实现分库分表这一主要功能外,都会额外实现一些其他很有实用价值的功能,比如 读写分离、负载均衡 等。

作者:琦彦
链接: blog.csdn.net/fly910905
来源:csdn

补充 * 现有的中间件进行了一番总结

之前工作做了下分库分表的技术选型,对现有的中间件进行了一番总结。

最开始想用mycat的,毕竟名气大,但查阅了文档和结构,发现下面的分库分表面对的3个问题无法解决。

最后选择使用sharding-jdbc,在jdbc层面做库表关联,更底层些。年后该框架作者去了京东,有单独的团队维护。

分库分表面对的3个问题:

  • 1.事务一致性:比如更新10张表,最后一张失败,怎样保证事务。
  • 2.字典表问题:一般字典表维护在一个库中,分库查询的话影响效率,每个库都存储一份字典表的话,上表面提到的事务一致性问题又会出现。库之间也会过于冗余。
  • 3.分页查询:比如查询100到110之间的数据,做法可不是每个库取100~110间的数据,再去前10条,而是每个库查询0~110间的数据,比如10个库,就会返回 10 * 110条数据,再从这里取100~110间的数据。这里的问题就是如果是 500000~500010的话,返回的数据量就太大了。

分表分库中间件对比

  • Atlas:不能实现分布式分表,所有的子表必须在同一台DB的同一个database里且所有的子表必须事先建好,Atlas没有自动建表的功能。 Atlas参考链接
  • Cobar:必须将拆分后的表分别放入不同的库来实现分布式。 Cobar参考链接
  • TDDL:阿里,功能强大,过于复杂,部分开源。需要评估使用情况,防止过剩。
  • Mycat :国内开源,从入门到放弃。 mycat参考链接
  • heisenberg:百度开源,相对简单,易于管理。 heisenberg参考链接
  • Oceanus:功能强大,开源,简化开发和配置成功。但产品还不成熟。
  • vitess:google产品,集群基于ZooKeeper管理,通过RPC方式进行数据处理,可支撑高流量,它还添加了一个连接池,具有基于行的高速缓存,重写SQL查询,更安全。 vitess参考链接
  • OneProxy:中国厂商产品,稳定性待确认。 OneProxy参考链接
  • Sharding-JDBC:当当最新开源,jdbc层面操作。 Sharding-JDBC参考链接

选型考虑3点:

1.产品功能和可扩展性:mycat就是不行。就是名气大,已经到头了。Cobar也是可扩展性的问题放弃的

2.产品是否成熟,或者说可用,比如国内的一般就不考虑了,稳定性是个问题。百度的heisenberg其实不错,但是代码很久没有维护了,社区也不积极,就放弃了。google的vitess也可以 ,但是海外的产品,也放弃了。

3.实际情况:我们公司是腾讯系的,阿里的TDDL显然不能用了。

参考链接: blog.csdn.net/u01389861

发布于 2021-05-25 12:57

文章被以下专栏收录