![开源数据库Sharding技术[1],第1张 开源数据库Sharding技术[1],第1张](/aiimages/%E5%BC%80%E6%BA%90%E6%95%B0%E6%8D%AE%E5%BA%93Sharding%E6%8A%80%E6%9C%AF%5B1%5D.png)
从 Shard 到 Sharding
Shard 这个词英文的意思是 碎片 而作为数据库相关的技术用语 似乎最早见于大型多人在线角色扮演游戏(MMORPG)中的 Sharding 姑且称之为 分片
Sharding 不是一门新技术 而是一个相对简朴的软件理念 如您所知 MySQL 之后才有了数据表分区功能 那么在此之前 很多 MySQL 的潜在用户都对 MySQL 的扩展性有所顾虑 而是否具备分区功能就成了衡量一个数据库可扩展性与否的一个关键指标(当然不是唯一指标) 数据库扩展性是一个永恒的话题 MySQL 的推广者经常会被问到 如在单一数据库上处理应用数据捉襟见肘而需要进行分区化之类的处理 是如何办到的呢 答案是 Sharding
Sharding 不是一个某个特定数据库软件附属的功能 而是在具体技术细节之上的抽象处理 是水平扩展(Scale Out 亦或横向扩展 向外扩展)的解决方案 其主要目的是为突破单节点数据库服务器的 I/O 能力限制 解决数据库扩展性问题
事关数据库扩展性
说起数据库扩展性 这是个非常大的话题 目前的商业数据都有自己的扩展性解决方案 在过去相对来说比较成熟 但是随着互联网的高速发展 不可避免的会带来一些计算模式上的演变 这样很多主流商业系统也难免暴露出一些不足之处 比如 Oracle 的 RAC 是采用共享存储机制 对于 I/O 密集型的应用 瓶颈很容易落在存储上 这样的机制决定后续扩容只能是 Scale Up(向上扩展) 类型 对于硬件成本 开发人员的要求 维护成本都相对比较高
Sharding 基本上是针对开源数据库的扩展性解决方案 很少有听说商业数据库进行 Sharding 的 目前业界的趋势基本上是拥抱 Scale Out 逐渐从 Scale Up 中解放出来
Sharding 的应用场景
任何技术都是在合适的场合下能发挥应有的作用 Sharding 也一样 联机游戏 IM BSP 都是比较适合 Sharding 的应用场景 其共性是抽象出来的数据对象之间的关联数据很小 比如IM 每个用户如果抽象成一个数据对象 完全可以独立存储在任何一个地方 数据对象是 Share Nothing 的 再比如 Blog 服务提供商的站点内容 基本为用户生成内容(UGC) 完全可以把不同的用户隔离到不同的存储集合 而对用户来说是透明的
这个 Share Nothing 是从数据库集群中借用的概念 举例来说 有些类型的数据粒度之间就不是 Share Nothing 的 比如类似交易记录的历史表信息 如果一条记录中既包含卖家信息与买家信息 如果随着时间推移 买 卖家会分别与其他用户继续进行交易 这样不可避免的两个买卖家的信息会分布到不同的 Sharding DB 上 而这时如果针对买卖家查询 就会跨越更多的 Sharding 开销就会比较大
Sharding 并不是数据库扩展方案的银d 也有其不适合的场景 比如处理事务型的应用就会非常复杂 对于跨不同DB的事务 很难保证完整性 得不偿失 所以 采用什么样的 Sharding 形式 不是生搬硬套的
Sharding与数据库分区(Partition)的区别
有的时候 Sharding 也被近似等同于水平分区(Horizontal Partitioning) 网上很多地方也用 水平分区来指代 Sharding 但我个人认为二者之间实际上还是有区别的 的确 Sharding 的思想是从分区的思想而来 但数据库分区基本上是数据对象级别的处理 比如表和索引的分区 每个子数据集上能够有不同的物理存储属性 还是单个数据库范围内的 *** 作 而 Sharding 是能够跨数据库 甚至跨越物理机器的
lishixinzhi/Article/program/SQL/201311/16326
在当今世界是很受欢迎的开源数据库,有人说MySQL是完全免费软件,这种说法对不对啊,接下来将为大家解开这个谜团。 MySQL是世界上最受欢迎的开源数据库。MySQL在中国也越来越受欢迎并被广泛关注。但是中国部分用户对于MySQL认识还存在一个误区,当提起MySQL时,许多用户第一反应是:“MySQL不是完全免费的软件吗?”。然而,通过仔细研读MySQL所遵循的GPLv2协议,得到的结论是:MySQL是开源软件,但开源并不意味着完全免费,开源的优势可以使更多的人对代码改进和完善,但开源软件的使用应遵循该软件提供的使用授权协议。 Oracle/Sun公司以双重许可的方式提供 MySQL数据库服务器和 MySQL客户端库,旨在满足开发和分销需求的商业分销商(例如 OEMs,ISVs和 VARs)和开源项目两种需求。 对于OEMs,ISVs,VARs 和其他商业应用分销商: OEMs,ISVs,VARs 和其他分销商如果在分销的商业授权软件中结合了MySQL 数据库,且不愿意遵循GNU GPL V2 协议公开商业授权软件源码的,必须和Oracle/Sun 公司达成商业许可协议。 对于开源项目和其他开放源码的应用开发人员:对于遵循GPL 协议的自由开放源码软件(“FOSS”)开发者,想要分发这些包含MySQL 的FOSS 应用,Oracle/Sun 的MySQL GPL 开源软件许可将是最好的选择。对于遵循FOSS 协议而不是GPL 协议的软件开发者和分销商,Oracle/Sun公司提供一个GPL许可的MySQL客户端库,其中对FOSS做了例外处理,使其在特定情况下,使用这些MySQL 客户端库而不会使整个衍生软件必须遵循GPL 协议。 简而言之,如果您开发的应用软件用到MySQL,不用于销售盈利,您可以免费使MySQL,但您同时也必须开放您的源代码。反之您是用于销售,您应该支付License费用。 MySQL是开源自由软件,当我们在谈论自由软件时,我们所指的是自由,而不是价格。开源自由软件不同于一般意义上的免费软件,很多商业软件企业在激烈市场竞争下,也纷纷推出了免费版本如微软的SQL Server免费版本。 MySQL创始人之一David Axmark针对该现象这样指责道:“不要相信它们所谓的开源。开源和免费不是一个概念,开源最大的意义在于最底层源代码都是完全开放的,所有的用户都可以来看,都可以来寻找bug,然后加以修改。免费软件做到了成本的降低,但永远不可能通过这样的方式提高质量,这就是我们和它们的区别。” 开源和商业并不矛盾,一方面,通过开源版本使MySQL数据库拥有大量用户,产品质量得到不断的改进和发展;另一方面,开源使商业目的的用户的前期研发投入为零,MySQL数据库通过商业版的许可销售和支持服务则可以获得收入。这在某种程度上,可以成功解决开源软件如何盈利的问题,促进开源软件产品更长远发展。 伴随着开源软件在中国的发展,诸多相关讨论提及法律问题,越来越多的讨论甚至争论转向法律层面
其次中国面积太大且区域发展不均衡,同时复杂地形地貌较多,测绘的技术要求和工作量远大于欧洲。最后,我觉得还是我国的社会和经济发展水平没到那个层次。这种信息系统也算是一种基础设施,实际上很多行业的工作都需要这些信息,这方面建设的滞后对工作效率的影响还蛮大的,不仅事半功倍、容易重复劳动,不同单位和个人做的基础资料整理还很容易有偏差。至于其他答主提到国内也有一些找资源的方式,我没用过的暂不评价,但地形、地质、水文这些信息作为城市规划等工作最基础的资料,是相关领域工作人员理应轻易获得的,如果需要花很多时间和精力去收集这本身就不合理。就如同医生看病还要亲自去制药一样,都是社会分工不够明确、行业配套不够完善的体现。我自己之前在国内学了城市规划,也参与过一些实习工作,不仅是地理环境的相关资料,社会经济发展的一些数据也并不好找,区县一级的统计数据国内做的很完善,但乡镇一级的公开数据就很有限了。现在在英国学城市规划,基础的地理信息在digimap上很容易就能找到,稍微专业点的资料在类似的几个网站也都能找到, *** 作简单,还可以根据自己的需要选择下载格式。在社会经济发展的相关资料方面,人家更是精确到街道。只能说在这个领域,我国还有很长的路要走。
Sharding 策略
数据 Sharding 的策略与分区表的方式有很多类似的地方 有基于表 ID 范围 数据产生的时间或是SOA理念下的基于服务等众多方式 可选择 而与传统的表分区方式不同的是 Sharding 策略和业务结合的更为紧密 成功的 Sharding 必须对自己的业务足够熟悉 进行众多可行性分析的基础上进行 业务逻辑驱动
Sharding 实现案例分析 Digg 网站
作为风头正劲的 Web 网站之一的 Digg 虽然用户群庞大 但网站数据库数据并非海量 去年同期主数据大约只有 GB 的样子 现在应该更大一些 但应该不会出现数量级上增长 数据库软件采用 MySQL x Digg 的 IO 压力非常大 而且是读集中的应用( %的 IO 是读请求) 因为提供的是新闻类服务 这类数据有其自身特点 最近时间段的数据往往是读压力最大的部分
根据业务特点 Digg 根据时间范围对主要的业务数据做 Sharding 把不到 % 的 热 数据有效隔离开来 同时对这部分数据用以更好的硬件 提供更好的用户体验 而另外 % 的数据因用户很少访问 所以尽管访问速度稍慢一点 对用户来说 影响也很小 通过 Sharding Digg 达到了预期效果
现有的Sharding 软件简介
现在 Sharding 相关的软件实现其实不少 基于数据库层 DAO 层 不同语言下也都不乏案例 限于篇幅 作一下简要的介绍
MySQL Proxy + HSCALE
一套比较有潜力的方案 其中 MySQL Proxy (//fe mysql /wiki/MySQL_Proxy) 是用 Lua 脚本实现的 介于客户端与服务器端之间 扮演 Proxy 的角色 提供查询分析 失败接管 查询过滤 调整等功能 目前的 版本还做不到读 写分离 HSCALE 则是针对 MySQL Proxy 插件 也是用 Lua 实现的 对 Sharding 过程简化了许多 需要指出的是 MySQL Proxy 与 HSCALE 各自会带来一定的开销 但这个开销与集中式数据处理方式单条查询的开销还是要小的
Hibernate Shards
这是 Google 技术团队贡献的项目(// hibernate / ) 该项目是在对 Google 财务系统数据 Sharding 过程中诞生的 因为是在框架层实现的 所以有其独特的特性 标准的 Hibernate 编程模型 会用 Hibernate 就能搞定 技术成本较低 相对d性的 Sharding 策略以及支持虚拟 Shard 等
Spock Proxy
这也是在实际需求中产生的一个开源项目 Spock(// spock /)是一个人员查找的 Web 网站 通过对自己的单一 DB 进行有效 Sharding化 而产生了Spock Proxy(//spockproxy sourcefe net/ ) 项目 Spock Proxy 算得上 MySQL Proxy 的一个分支 提供基于范围的 Sharding 机制 Spock 是基于 Rails 的 所以Spock Proxy 也是基于 Rails 构建 关注 RoR 的朋友不应错过这个项目
HiveDB
上面介绍了 RoR 的实现 HiveDB (// hivedb /)则是基于Java 的实现 另外 稍有不同的是 这个项目背后有商业公司支持
PL/Proxy
前面几个都是针对 MySQL 的 Sharding 方案 PL/Proxy 则是针对 PostgreSQL 的 设计思想类似 Teradata 的 Hash 机制 数据存储对客户端是透明的 客户请求发送到 PL/Proxy 后 由这里分布式存储过程调用 统一分发 PL/Proxy 的设计初衷就是在这一层充当 数据总线 的职责 所以 当数据吞吐量支撑不住的时候 只需要增加更多的 PL/Proxy 服务器即可 大名鼎鼎的 Skype 用的就是 PL/Proxy 的解决方案
lishixinzhi/Article/program/SQL/201311/16327
如果打算为项目选择一款免费、开源的数据库,那么你可能会在MySQL与PostgreSQL之间犹豫不定。MySQL与PostgreSQL都是免费、开源、强大、且功能丰富的数据库。你主要的问题可能是:哪一个才是最好的开源数据库,MySQL还是PostgreSQL呢?该选择哪一个开源数据库呢?
在选择数据库时,你所做的是个长期的决策,因为后面如果再改变决定将是非常困难且代价高昂的。你希望一开始就选择正确。两个流行的开源数据库MySQL与PostgreSQL常常成为最后要选择的产品。对这两个开源数据库的高层次概览将会有助于你选择最适合自己需要的。
MySQL
MySQL相对来说比较年轻,首度出现在1994年。它声称自己是最流行的开源数据库。MySQL就是LAMP(用于Web开发的软件包,包括Linux、Apache及Perl/PHP/Python)中的M。构建在LAMP栈之上的大多数应用都会使用MySQL,包括那些知名的应用,如WordPress、Drupal、Zend及phpBB等。
一开始,MySQL的设计目标是成为一个快速的Web服务器后端,使用快速的索引序列访问方法(ISAM),不支持ACID。经过早期快速的发展之后,MySQL开始支持更多的存储引擎,并通过InnoDB引擎实现了ACID。MySQL还支持其他存储引擎,提供了临时表的功能(使用MEMORY存储引擎),通过MyISAM引擎实现了高速读的数据库,此外还有其他的核心存储引擎与第三方引擎。
MySQL的文档非常丰富,有很多质量不错的免费参考手册、图书与在线文档,还有来自于Oracle和第三方厂商的培训与支持。
MySQL近几年经历了所有权的变更和一些颇具戏剧性的事件。它最初是由MySQL AB开发的,然后在2008年以10亿美金的价格卖给了Sun公司,Sun公司又在2010年被Oracle收购。Oracle支持MySQL的多个版本:Standard、Enterprise、Classic、Cluster、Embedded与Community。其中有一些是免费下载的,另外一些则是收费的。其核心代码基于GPL许可,对于那些不想使用GPL许可的开发者与厂商来说还有商业许可可供使用。
现在,基于最初的MySQL代码还有更多的数据库可供选择,因为几个核心的MySQL开发者已经发布了MySQL分支。最初的MySQL创建者之一Michael "Monty" Widenius貌似后悔将MySQL卖给了Sun公司,于是又开发了他自己的MySQL分支MariaDB,它是免费的,基于GPL许可。知名的MySQL开发者Brian Aker所创建的分支Drizzle对其进行了大量的改写,特别针对多CPU、云、网络应用与高并发进行了优化。
PostgreSQL
PostgreSQL标榜自己是世界上最先进的开源数据库。PostgreSQL的一些粉丝说它能与Oracle相媲美,而且没有那么昂贵的价格和傲慢的客服。它拥有很长的历史,最初是1985年在加利福尼亚大学伯克利分校开发的,作为Ingres数据库的后继。
PostgreSQL是完全由社区驱动的开源项目,由全世界超过1000名贡献者所维护。它提供了单个完整功能的版本,而不像MySQL那样提供了多个不同的社区版、商业版与企业版。PostgreSQL基于自由的BSD/MIT许可,组织可以使用、复制、修改和重新分发代码,只需要提供一个版权声明即可。
可靠性是PostgreSQL的最高优先级。它以坚如磐石的品质和良好的工程化而闻名,支持高事务、任务关键型应用。PostgreSQL的文档非常精良,提供了大量免费的在线手册,还针对旧版本提供了归档的参考手册。PostgreSQL的社区支持是非常棒的,还有来自于独立厂商的商业支持。
数据一致性与完整性也是PostgreSQL的高优先级特性。PostgreSQL是完全支持ACID特性的,它对于数据库访问提供了强大的安全性保证,充分利用了企业安全工具,如Kerberos与OpenSSL等。你可以定义自己的检查,根据自己的业务规则确保数据质量。在众多的管理特性中,point-in-time recovery(PITR)是非常棒的特性,这是个灵活的高可用特性,提供了诸如针对失败恢复创建热备份以及快照与恢复的能力。但这并不是PostgreSQL的全部,项目还提供了几个方法来管理PostgreSQL以实现高可用、负载均衡与复制等,这样你就可以使用适合自己特定需求的功能了。
PostgreSQL被誉为市场上最先进的开源数据库。数据一致性和完整性等性质都是PostgreSQL的高度优先事项。 MySQL被誉为是最流行的开源数据库。最初MySQL就被设计为快速的Web服务器后台,是Web系统的理想数据库之选,且文档资源丰富。
以上就是关于开源数据库Sharding技术[1]全部的内容,包括:开源数据库Sharding技术[1]、mysql是完全免费的吗、国内为什么没有开源地理信息数据库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)