导语
大数据和互联网的时代,正冲击着每一个行业,技术的日新月异令人目不暇接。随着云计算和大数据时代的到来,传统数据库面临前所未有的挑战,在性能和成本的双重压之下,数据库亟需寻找突破之路。

一时间,针对不同应用的各种新型数据库孕育而生,而敢于吃螃蟹的各个企业,也收获了不错的成效并积累了丰富的实战经验。

本期以“新型数据库”为专题,力邀国内外知名数据库企业负责人来分享技术运用实战,内容涵盖:Pinot将大数据做到实时与民主化、阿里分布式数据库服务DRDS、Spark与Flink、下一代大规模并行数据库架构风格、RapidsDB技术大起底等精彩内容。
带你走进数据库

云+微服务+新硬件:下一代大规模并行数据库架构风格
何鸿凌,中国移动集团公司业务支撑系统部信息处副经理,高级工程师

从上个世纪70年代开始,数据库就成为计算机软件中最重要的“中间件”。有了数据库后,关于数据操作的原语可以从应用代码中分离出来,DBMS(数据库管 理系统)承担了数据结构的管理、存取等任务,并维护了数据的可用性、一致性。这种专业化的分工,使得软件开发效率和系统运行效率大大提升。

进入21世纪后,随着软件和硬件技术的发展、互联网的兴起,数据库技术发展进入了一个百花齐放的新阶段,其指导思想仍旧是专业化分工。为每一种数据类型和应用访问类型都有了其针对性的数据库技术。「阅读原文
云时代的分布式数据库:阿里分布式数据库服务DRDS
王晶昱,阿里巴巴资深技术专家,主要负责阿里的分布式数据库DRDS(TDDL)和阿里的分布式消息服务ONS(RocketMQ/Notify)两个系统

随着互联网时代的到来,计算机要管理的数据量呈指数级别地飞速上涨,而我们却完全无法对用户数做出准确预估。我们的系统所需要支持的用户数,很可能 在短短的一个月内突然爆发式地增长几千倍,数据也很可能快速地从原来的几百GB飞速上涨到了几百个TB。如果在这爆发的关键时刻,系统不稳定或无法访问, 那么对于业务将会是毁灭性的打击。

伴随着这种对于系统性能、成本以及扩展性的新需要,以HBase、MongoDB为代表的NoSQL数据库和以阿里DRDS、VoltDB、ScaleBase为代表的分布式NewSQL数据库如雨后春笋般不断涌现出来。

本文将会介绍阿里DRDS的技术理念、发展历程、技术特性等内容。「阅读原文

刀尖上的乾坤大挪移 :RapidsDB技术大起底
刘睿民,柏睿数据科技有限公司董事长兼CTO、艾诺威讯(北京)科技有限公司CEO、联想中国服务总部首席技术顾问

大数据和互联网时代,正冲击每一个行业,技术的日新月异,令人目不暇接,但是从整个行业来看,基于Hadoop的批量大数据处理方式,以及基于内存 数据库和内存计算的实时处理和分析,已经慢慢成熟,并且成为了事实上的标准。随着内存闪存造价的不断下降和技术的不断成熟,基于MPP海量并行技术的内存 数据仓库,不再是遥不可及的传说,并成为了我们身边触手可及的应用。使用标准的PC服务器,我们就能够在企业中随意搭建这么一套内存MPP的数据仓库,并结合业务对身边的大数据作出实时的决策。

本篇文章来自柏睿数据CTO刘睿民先生,作为国产软件在高端基础技术上吃螃蟹的人,刘睿民将会介绍柏睿数据公司出品的重要产品— MPP内存数据仓库Rapids DB的重要特性,以及实现过程中的一些技术细节。「阅读原文

基于LLVM的内存计算
吴朱华,上海云人信息科技有限公司联合创始人兼CEO,国内资深的云计算和大数据专家

最近业界有很多技术和产品都被认为属于内存计算的范畴,并且大家都觉得内存计算是未来大数据方面的核心技术,特别是类似Spark和HANA这样的产品和技术涌现,使得内存计算已经在大数据技术方面成为主流。

但身为一个在内存计算方面研究3年左右的笔者,感觉很多人对于内存计算的理解仅停留在把数据缓存在内存中,或者使用最新的SIMD指令集,而笔者在这三年的研发过程中的最大发现并不是这样,我个人觉得内存计算引擎相对于传统数据处理引擎,最大的革新是基于LLVM编译器的动态代码生成技术。

所以,本文将给大家介绍现在的产品和技术是如何使用LLVM编译器来动态生成执行代码的,从而实现真正意义上的内存计算,那么在深入这个技术之前,想给大家稍微介绍一下LLVM的技术本身。「阅读原文

阿里云分布式缓存OCS与DB之间的数据一致性
杨成虎,阿里巴巴集团技术专家,擅长通过NoSQL存储系统、Cache系统去解决海量数据的互联网问题

据AlertSite网络分析公司表示,Facebook的响应时间在2010年平均为1秒钟,到2011年中期已提高到了0.73秒。对比来看,响应时间占第二位的LinkedIn,网络下载内容时要花费将近2倍的时间。Twitter的响应时间则整整迟了2秒钟。响应时间优化的首要手段就是采用缓存技术,减少系统间交互请求和磁盘IO。

OCS是阿里巴巴集团的分布式缓存产品,支撑着淘宝、阿里巴巴、支付宝的日常运作,尤其在双11等大型活动上,承载了绝大多数的数据请求。与OCS相比,著名的Memcached具备了分布式集群管理的功能。

2014年OCS经历了从分布式到云服务的进化,作为阿里云服务的缓存产品正式商业化。「阅读原文

MyCat:开源分布式数据库中间件
王金剑,CSDN博客认证专家,开源数据库中间件Mycat核心开发成员

虽然云计算时代,传统数据库存在着先天性的弊端,但是NoSQL数据库又无法将其替代。如果传统数据易于扩展,可切分,就可以避免单机(单库)的性能缺陷。

MyCat的目标就是:低成本地将现有的单机数据库和应用平滑迁移到“云”端,解决数据存储和业务规模迅速增长情况下的数据瓶颈问题。2014年MyCat首次在上海的《中华架构师》大会上对外宣讲引发围观,更多的人参与进来,随后越来越多的项目采用了MyCat。

MyCat截至到2015年4月,保守估计已经有超过60个项目在使用,主要应用在电信领域、互联网项目,大部分是交易和管理系统,少量是信息系统。比较大的系统中,数据规模单表单月30亿。「阅读原文

Pinot-LinkedIn如何将大数据做到实时与民主化
吴继业,前LinkedIn商务分析部数据工程总监,现任Gorwoingio联合创始人

作为在世界上第一个尝试使用,并推广Pinot作为分析型工具的LinkedIn团队,对我们的Pinot团队由衷赞赏。我代表我的团队在这里与社区的小伙伴们分享下一些体会和经验。

一切都来源于LinkedIn Sponsored Update这个LinkedIn广告业务转型到移动端成功的产品开发。2013年,LinkedIn致力于构建300万的企业与2.3亿(2013年第二季度的用户数)全球用户联通的桥梁,帮助企业直接推送最相关的信息流到用户首页。这是一个重要的战略性产品。之前的应用都是先有网页端产品,然后才会建立移动端的应用。而Sponsored Update是第一个同时在Web和Mobile App上发布的LinkedIn商业应用。实质上,Sponsored Update是链接网页端和手机端的广告业务,货币化是业务重点。然而,LinkedIn把用户体验放在首位来考量,努力寻找收入和互动的平衡点,避免用户被铺天盖地,或是不相干的广告影响。而寻找平衡点的关键在于对数据的应用,使有偿广告与自然信息合理地更新。但是多平台的特性,更增加了我们分析的复杂度。「阅读原文

关系型到文档型的跨越
李方舟(Ark),在国产开源新型分布式数据库公司工作,大数据行业的新行者

在文档型NoSQL数据库出现之前,许多开发者一直绞尽脑汁思考,希望能想出更好的处理关系型数据库技术的方法,如今他们可能要跳出那种思维而另辟蹊径。本篇将介绍关系型数据库和分布式文档型数据库的区别以及在应用开发上的一些建议。

李方舟认为,数据的去结构化可能会使用到更多的空间,但随着存储空间价格的不断下降,存储空间和读写速度的比重势必将越来越像追求速度一方倾斜,而由此带来的高性能、可扩展性以及灵活的数据结构等优点又将大大提升应用的各方面性能表现。

SequoiaDB的数据模型以JSON格式存储的文档型模型,所以它具备了文档型和NoSQL数据库的数据灵活性和高可扩展性。SequoiaDB的文档型数据模型不仅简化了数据存取的过程,也大大的提升了数据的灵活性。在应用中不仅免去了设计模式这个麻烦的环节,还能很好的适应大数据时代高并发、实时性和分布式的要求。「阅读原文

Spark与Flink:对比与分析
卢亿雷,AdMaster技术副总裁,资深大数据技术专家;彭远波,AdMaster研发工程师

Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平台,设计思想主要来源于Hadoop、MPP数据库、流式计算系统等,支持增量迭代计算。

Spark和Flink都支持实时计算,且都可基于内存计算。Spark后面最重要的核心组件仍然是Spark SQL,而在未来几次发布中,除了性能上更加优化外(包括代码生成和快速Join操作),还要提供对SQL语句的扩展和更好地集成。至于Flink,其对于流式计算和迭代计算支持力度将会更加增强。无论是Spark、还是Flink的发展重点,将是数据科学和平台API化,除了传统的统计算法外,还包括学习算法,同时使其生态系统越来越完善。「阅读原文
CSDN精选站内外优秀数据库文章
本期专题大致分为:综述、企业实战、技术分享等,希望从用户角度学习他们的技术理念、发展历程,借鉴他们的成功之道,相信在中国的这片沃土上,会繁衍出更多、更好的数据库应用。

关注CSDN官方微信(CSDNnews,请扫右侧二维码)和@CSDN官方微博

欢迎继续投递数据库稿件(发邮件至xiamz@csdn.net)。