大數據

看云栖说云栖—— 开源、SQL or NoSQL

查理·芒格:你必须知道重要学科的重要理论,并经常使用它们——要全部都用上,而不是只用几种。

本文内容提取自2019杭州云栖大会《开源数据库专场》、《NoSQL数据库专场》、《ElasticSearch开发者生态专场》。这次继续聊数据库,且还是聚焦于在线业务数据处理,但不像前几天在《双十一的俩功臣》中分享的阿里云自研数据库,这次几乎全是开源数据库。

前两天看到一篇CSDN翻译的文章《云与开源谁吃谁》,看到下面这张图:开源正在被云吃掉,而云正在被多云吃掉。

吃.jpg

(图片来自于网络)

开源其实是很古老的事物,在开源圣经《大教堂和集市》于1997年问世之前,GNU/Linux就已经流行很多年了。我认为一项东西越是古老,就越有可能仍然有用。随着RedHat、GitHub的相继被收购,开源作为一种商业模式有可能正在走向末路,但开源作为一项软件开发组织形式一定还会在在云服务商的资助下,在多云的博弈下继续存在很多年。

在《开源数据库专场》,阿里云数据库团队宣布在2020年DRDS将开源,DRDS是阿里云自研的一个数据库分片引擎,可以将海量的数据处理任务分散到多个数据库上进行处理,在阿里巴巴去IOE的过程中扮演了非常重要的角色。现在,DRDS即将开源了。

DRDS在阿里去IOE中的战友是MySQL,阿里云MySQL8.0有下面这些特色:

  • TDE加密&SM4国密算法、支持使用国内的国密算法对数据表文件进行透明加密。
  • New Thread Pool、新线程池,对提高并发数有好处。
  • AliSQL Cluster、提供99.99%的高可用,支持3可用区部署,提供金融级数据保护能力。
  • Sequence Engine、顺序数生成更靠谱,更灵活可靠的生成各种主键。
  • 热点账户&库存秒杀、提升单行事务处理能力,应对积分、红包、库存等热点。
  • 隐式主键、保证所有的表都有主键,自动为不含定义的表加主键,可以提升复制性能。
  • Performance Insight、提供更多性能指标监控信息。
  • SQL Outline、透明的Hint固化SQL执行计划。
  • 大文件异步删除、可以平稳的删除上百GB或上TB的大文件。
  • 语句级并发控制、动态控制某个SQL的执行频率,限制单个差SQL对整个数据库资源的抢占。
  • Recycle Bin、延迟删除对象,遇到误操作,可以快速找回。
  • Semisync Optimize、优化主从同步的性能,提供更好的HA保护。

在《Elasticsearch开发者生态专场》,阿里云发布了Elasticsearch2.0,主要特性如下:

  • 增强版ES、索引构建性能提升95.8%、支持秒级弹性扩容、存储成本降低50%以上。
  • Logstach as Service、开箱即用的Logstach云托管服务、支持OSS、LogService(阿里云自己的日志服务)的input插件。
  • 阿里NLP分词器、阿里达摩院倾力打造、默认词库超过700MB、支持热词库更新。
  • 智能运维、智能诊断Elasticsearch实例健康状况、定期生成诊断报告,降低运维成本。

在应用场景分享和圆桌论坛环节,众安保险、Elastic Code、阿里云安全团队分别介绍了ElasticSearch在保单搜索、代码搜索、安全风控领域的应用。

在《NoSQL数据库专场》,介绍了Redis、MongoDB、HBase、Cassandra、GDB这几种NoSQL数据库。

这其中只有GDB不是开源数据库,GDB是阿里云自研的,主要面向在线业务的图数据库服务。阿里云GDB支持主流的Gremlin图数据查询语言,支持ACID事务、提供自动索引、无需定义Schema、主要用于社交网络、金融欺诈检测、实时推荐引擎、知识图谱、网络/IT运营等场景。
这其中被应用的最广泛的应该是Redis,阿里云上的Redis有什么不同:

  • 中心化的集群架构,在不影响可用性的前提下提高兼容性,支持读写分离、便于深度优化定制。
  • 支持热升级、在用户无感知的情况下对Redis Proxy代理进行升级。
  • Redis数据迁移方案、通过开源项目RedisShake/RedisFullCheck支持跨云热迁移与校验Redis数据、上的去,也下的来,斗鱼的混合云架构中大量使用了RedisShake/RedisFullCheck。
  • Redis混合存储、提供混合存储实例,结合RocksDB实现数据即时落盘,突破内存限制。

针对MongoDB,阿里云提供安全审计、备份恢复、诊断分析、MongoShake复制、企业级存储引擎的支持。

HBase一般和大数据相关,但在这里,HBase是作为一项NoSQL技术被讨论的,在阿里云内部HBase有一万+的节点、峰值请求3亿+、存储了200PB+的数据、服务了内部9000+的用户。为了降低HBase的存储成本,阿里云HBase支持自动存储分层,可将冷数据自动迁移到OSS。在性能方面,通过对日志存储等技术细节的优化,阿里云托管的HBase要比自建在ECS上的HBase性能有几倍的提升。

最后一个要介绍的是Cassandra,阿里云应该是国内最早开通Cassandra服务的云服务商。Cassandra是结合了Google BigTable和亚马逊DynamoDB的一个NoSQL数据库实现,但这里的NoSQL是Not Only SQL的意思,Cassandra 使用名为CQL的类SQL语言,可以让会MySQL的开发和运维人员在一台之内学会Cassandra。Cassandra的一些成功案例包括:

  • 用户画像&历史订单、亿级别用户数据、100+用户属性、6000万+日更新数据,99%的延迟控制在5ms以内。
  • Feed流、1000+节点、500+TB数据、平均延迟20ms。
  • 小对象存储、Read/Write QPS 100K+、对象平均大小50KB、平均延迟7ms。
  • 推荐平台、结合Kafka、MongoDB、Spark、Redis构建的商品推荐平台,通过Kafka对日志进行采集,结合MongoDB中的商品信息,通过Spark实时处理引擎将画像数据推送入Cassandra,通过Spark离线计算引擎每30分运行一次推荐,结果存入Redis。

在阿里云上的Cassandra有这些不同:

  • 自动化运维
  • 兼容DynamoDB(AWS的客户看过来)
  • 备份恢复(待支持)
  • 全链路优化性能提升100%+
  • 自研公网访问:多种网络环境VPC、公网,Server自动切换路由链路,开源客户端无需改动
  • 自研分级安全插件:在原有super user上,多一级system user,保护云上核心资源不被篡改。
  • 对接到阿里云产品生态 —— DTS、CMS、CDP、云Kafka、X-Pack Spark等。

Leave a Reply

Your email address will not be published. Required fields are marked *