2013中国大数据技术大会圆满落幕

2013年12月5-6日,中国最具影响、规模最大的大数据领域技术盛会——2013中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)在北京世纪金源大饭店圆满落幕。大会以“应用驱动的架构与技术”为主题,共设立“大数据架构与系统”、“大数据技术”、“大数据应用”、“大数据研究与发展”,“大数据基准测试(Benchmark)”五大技术分论坛,并首次增加“2013中国智能交通与大数据技术峰会”和“传统行业如何驾驭大数据总裁研讨会”。作为分论坛数量最多的一届大会,2013中国大数据技术大会参会人数首次突破2000人。 [详情]

图文实录

  • 12月5日
  • 12月6日
  • 17:28【大数据架构与系统】阿里数据平台事业部海量数据技术专家罗李介绍了云梯现在的情况,他称云梯现在已经多NameNode,跨越2个物理机房,并且也实现了跨机房副本管理,数据迁移,同时多机房也对用户透明,目前云梯规模已接近万台,可存储数据容量达220PB。

  • 17:20【大数据技术】阿里搜索事业部高级技术专家王峰介绍了一淘全网商品搜索系统架构、全网商品离线处理流程。本次大会是一淘第一次从基本概念、拓扑结构、消息管理、进度管理、编程接口等方面对外来介绍iSteam的计算模型。

  • 16:50【大数据研究与发展】华东师范大学软件学院副教授周敏奇介绍了集群感知的内存计算系统CLIAIMS。他强调,计算机硬件技术的发展,特别是多核处理器和大容量内存技术的成熟和商业化,为集群环境下的内存计算提供了硬件基础,并使得数据密集型的实时计算成为可能。

  • 16:42【大数据应用】阿里巴巴数据平台架构师刘昌钰,讲述了阿里大数据应用平台的业务流程:数据导入、数据开发、数据生产、数据回流、元数据中心、数据质量中心。阿里每天要处理的数据非常惊人,仅在日志中心,日采集40TB数据,峰值1GB/s。

  • 16:22【大数据架构与系统论坛】智明星通CTO穆黎森在演讲中透露称,Xingcloud目前每天大约有20亿次插入/更新、200K+聚合数据,查询响应时间平均大约在10秒,而对于他们的Drill,目前也已经加入了分布式,与此同时存储引擎上加入了写入接口等。

  • 16:20【总裁论坛】案例研讨环节,北京振威展览有限公司总经理将这个问题摆在了各位老总的面前。振威展览拥有全球上万家生产商及采购商的产品信息资料,庞大的数据信息库对于这家传统展会服务商有什么用?参会的老总进行了激烈的讨论。

  • 16:15【智能交通与大数据技术峰会】作为广州交通合作伙伴,广州交通信息化建设投资营运有限公司高级工程师崔德宝深入分享大数据综合处理服务平台的设计原则和技术架构。非序列性数据操作、基于列的分布式数据、基于Hadoop框架的MapReduce模式、数据仓库等关键技术都有应用。

  • 16:10【大数据应用】数据堂联合创始人肖永红指出,整个产业目前还处在信息的“小”时代,现在很多人还在找数据,求数据,真正的大时代还没有到来。另一方面,大数据的价值不会随着使用次数增多而减少,数据可以被不断的整合和处理,不断被发现新的价值。

  • 15:58【大数据研究与发展】新加坡管理大学信息系统学院助理教授朱飞达介绍了社交媒体大数据挖掘及智能商业应用。他指出,针对用户关系挖掘、社交媒体跨平台同步、恶意账号侦测和舆情监控等典型应用,我们可以通过用户的社交行为入手,整合集群关系和时序信息。

  • 15:55【大数据技术主题论坛】奇虎360技术经理赵健博介绍目前360搜索、安全、监控等业务都使用了HBase集群,同时重点介绍了奇虎360近一年来结合业务对HBase作出的改进,如针对集群大、Region多致使启动时间过长进行的优化,同时还分享了专属MetaServer、Scan、保护模式、索引加载等方面的调优。

  • 15:47【大数据架构与系统】Apache Hadoop Sze, Tsz-Wo (Nicholas)在演讲中透露,Snapshots使用的是Hadoop 2 GA release(v2.2.0)进行开发的,有136个子任务,开发时间用了8个月。他们的开发不是简单拷贝,比如说File Blocks是共享的,在实施层面他们是完全独立的发布。

  • 15:42【智能交通与大数据技术峰会】百度LBS技术总监顾维灏认为大数据是通过海量数据的收集、存储、整理和分析,用群体智慧进行有效的判断和预测。大数据应用可以有大众高频轨迹挖掘得出最快驾车路线。大数据挖掘、分析、可视化是百度所有产品都可做的事情。

  • 15:35【大数据应用】小米软件开发工程师冯宏华讲到,目前小米有15个HBase集群:9个在线集群,2个离线集群,4个测试集群。几百台数据节点,每个节点拥有24TB存储能力。它支撑着小米云服务、米聊消息全存储、小米推送、MIUI 离线分析、多看离线分析等服务。

  • 15:30【大数据研究与发展】西北工业大学计算机学院教授李战怀介绍了大数据背景下分布式系统的数据一致性策略。通过回顾RDBMS中的一致性时,他认为可扩展性问题、有限的数据支持类型、较低的处理速度和硬件依赖问题是大数据的新挑战和RDBMS的掣肘。

  • 15:25【总裁论坛】中国移动集中化经分(BI)系统项目负责人何鸿凌表示,从大数据掘金,将成为企业竞争力的分水岭。企业需要利用大数据技术尽可能的收集、关联、保存数据。然后尽可能的使现有商业模式更加具有竞争力、尽可能的发掘新的商务模式,将数据变为价值。

  • 15:23【智能交通与大数据技术峰会】深圳市综合交通运行指挥中心总工程师关志超认为传感技术、通信技术,特别是交通物联网技术高速发展,人、车、路、环境四要素时刻互联互通。以“智能设施、智能公交、智能物流、智能政务”为基础的深圳城市智慧交通数据大平台正逐步形成。

  • 15:14【总裁论坛】第二场演讲是SAP公司全球数据库解决方案亚太区技术总监卢东明带来的《传统行业如何驾驭大数据》,演讲中他介绍了数据库未来的发展方向,SAP在大数据行业里的意义。他表示,传统行业里有大量的数据库能够供大家使用,让大家升级、与新兴企业做竞争。

  • 15:06【大数据架构与系统】Hortonworks Technical Lead Gunther Hagleitner解释了他们的HDFS Buffer Cache,他称HDFS Buffer Cache和ORC关系很大,还是以列为基础,使用同样的架构,这让文件可以直接转移到内存中,中间不用对缓存进行拷贝,使得可以直接调用内存,这也让速度获得了大大的提高

  • 15:05【大数据技术】通过英特尔亚太研发有限公司大数据部门构架师夏俊鸾了解到,早在2011年,Intel就开始贡献Spark;当下Intel已拥有3个提交者、7个贡献者,贡献patche近80个。夏俊鸾还指出,对比MapReduce,即使把Spark移除内存,也会快2-3倍。

  • 14:20【大数据技术】UC Berkeley AMPLab博士、Tachyon创始人李浩源指出“内存为王”,着重介绍了Tachyon:无需更改即兼容Spark和Hadoop、提供Java式的文件API、为raw table提供原生支持。同时,还提供了一个PinList,可以保证程序即使在内存不足的情况下也可以永远运行在内存之中。

  • 14:37【大数据研究与发展】伊利诺伊大学新加坡高等数字科学中心研究科学家张振杰畅谈了大数据时代的隐私保护的挑战和机遇。对于未来的IT产业,他认为从业者必须能够确保他们进行的任何计算、分析和提供的任何工具都不会泄露任何隐私。

  • 14:15【智能交通与大数据技术峰会】同济大学交通运输工程学院教授杨超专注于交通系统模型的构建与研究。大数据时代带来了更多样的数据来源与接近总体量级的样本。并且他大胆预测,通过大数据,未来每个人的个体活动93%是可以预测的。

  • 13:35【大数据架构与系统】LinkedIn Hadoop核心团队成员俞晨杰分享了他们作业流平台Azkaban,他称Azkaban任务执行非常灵活,支持任何Hadoop版本,支持Hadoop security,同时支持所有Pig、hive版本以及非Hadoop平台。

  • 13:34【大数据研究与发展】中国科学院院士、中科院数学与系统科学研究院研究员陆汝钤介绍了大数据的冲击对知识工程领域产生的影响。对于专家系统知识的局限性,他认为聚焦于特定领域的专业知识是主要原因。

  • 13:30【大数据应用】搜狐移动研发部负责人蔡明军指出,对于移动智能终端来说,屏幕小,输入难,信息量大。RSS订阅太高端,搜索引擎经常不知道搜啥。面向未来,我们需要推荐引擎。

  • 13:22【大数据技术】下午场在ChinaHadoop社区负责人谢磊的主持下拉开帷幕。

  • 13:20【大数据研究与发展】华东师范大学教授周傲英担任主持。

  • 12:45【大数据基准测试主题论坛】华东师范大学教授钱卫宁从基准评测架构、数据生成、负载生成、度量定义等不同角度介绍了名为BSMA的在线社交媒体分析型查询基准评测,并展示、分析了社交媒体数据分析处理在时间线查询、社交网络查询等方面的挑战。

  • 12:15【大数据技术主题论坛】秒针技术经理刘诚忠分享开发经验。他之所以最终选择了Cloudera Impala作为公司实时查询项目Camaro开发的基础,因为它具备下面几个优势:较好的代码范、模块清晰、容易定制、比Hadoop的速度更快、分布式的执行树等。刘诚忠并对Camaro未来功能进行了展望,认为值得期待。

  • 12:02【大数据应用】工业和信息化部电信研究院专家魏凯指出,目前的大数据应用还是以互联网行业领先,其他行业还在摸索中。大数据分析已经开始向经济社会其他领域广泛渗透。全球大数据市场规模较小,但增速很快,在开源生态、投资并购等方面都非常活跃。

  • 11:58【大数据架构与系统】腾讯数据中心资深专家翟艳堂分享了腾讯建立大规模Hadoop集群的过程,首先要解决单点问题,将JobTracker分散化,做NameNode高可用。在业务选型方面,选择了成熟度更高的Facebook开源的Corona。

  • 11:43【大数据基准测试主题论坛】中国人民大学副教授陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析分析应用的局限性。陈跃国总结道,绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升。

  • 11:36【大数据应用】腾讯精准推荐中心广告推荐负责人薛伟指出,典型的大数据包含四个特征:1.大量,腾讯QQ月活跃用户超过8亿,在线人际关系链超1000亿。2.高速,Qzone相册日均上传超过4亿,写操作超10亿。3.多样,数据种类多。4.价值,价值密度低,商业价值高。

  • 11:30【大数据技术】俄亥俄州立大学博士后研究员鲁小亿对当前MPI的现状进行了介绍,指出高性能、可移植性对于大数据来说十分必要,目前MPI扩展到大数据面临几大问题:相比Hadoop代码量很大,同时不具备较强的可扩展性;编程上如通信协议、核心数据结构等都面临着较大困难。

  • 11:20【大数据架构与系统】VMware主管工程师堵俊平分享了大数据5点趋势:Hadoop 2.0和YARN在大数据生态系统中扮演资源管理的核心角色;MR不够好,Tez,Spark可能是替代者;HDFS努力支持更多的业务场景;更多的基于Hadoop的SQL引擎,如Drill、 Impala、Stinger;企业级服务,安全、HA、QoS等。

  • 11:03【智能交通与大数据技术峰会】上海市城乡建设和交通发展院交通信息中心主任何承表示上海从2004年开始采集交通信息数据,2006年建成交通综合信息平台,汇聚140多项数据,还接入公交卡数据。得出交通通行指数,分析评价道路通行状态。更重要的是对数据结果的增值价值。

  • 11:00【大数据基准测试主题论坛】清华大学教授、软件学院副院长王建民介绍了工业大数据的特点、相应的测试基准并分享了自主研发的测试框架及实践结果。他指出,世界上95%的工业产品已经饱和,200多种工业产品是中国第一。

  • 10:55【大数据基准测试】西北工业大学副教授张晓介绍了海量大数据从产生到大变革和面对变革所要具备的存储和管理方法。他认为,大数据在产生、保存、访问时都对存储系统有较高的要求,这其中包括了高并发、高吞吐量的聚合访问带宽以及高可扩展性。

  • 10:45【大数据应用】英特尔数据中心软件部首席架构师陈奇指出,数据可以驱动创新的良性循环。在2012年,全球的数据资料存储量为2.8ZB。未来的2020年,全球数据量将达到40ZB。云将变得更加智能,将有更丰富的数据可以用来分析。智能客户端的用户体验将变得更加丰富。

  • 10:42【智能交通与大数据技术峰会】IBM大中华区智慧城市首席规划师岳梅樱表示智慧城市是自顶向下的设计,其机制及规划对城市交通的影响极大。她建议,智慧城市需要一院三中心机制,包括创新研发、人才培养、管理及公关服务、产权交易等多部分,才能保证城市永续经营。

  • 10:40北京大学“百人计划”研究员袁晓如首先为大家介绍了大数据与可视化的内涵,指出信息图是与可视化不一样的,可视化需要更多对数据的分析与处理。重点分享了可视化在大数据时代面临的挑战,如可感知性(以北京出租GPS和某地点周边交通为例)、可扩展性、交互性、从用户角度出发的可扩展性,尤其指出目前中国仍然缺乏大数据可视化方面的专家人才,需要政府和大型公司来努力培养。

  • 10:35【大数据架构与系统】百川通联技术副总裁、联合创始人刘书良分享了在DSP业务中遇到的QPS问题,包括需要与IaaS服务商沟通取消对特定虚机的QPS限制,同时取消PPS限制。另外,用1台4核、8G内存服务器替换成4台1核、512M内存的云服务器,获得更好的性能。

  • 10:15【智能交通与大数据技术峰会】中国移动研究院专家,中国移动通信研究院云计算系统部大数据产品开发室技术经理徐萌表示移动互联网用户流量激增,手机数据化、宽带化趋势明显,亟需深挖大数据价值。移动的大云实验室在BC-Hadoop上在做搭建开源站点和开源合作方面的工作。

  • 10:15【大数据基准测试】中科院计算所研究员、博士生导师詹剑锋与大家分享了面向系统和体系结构的大数据基准测试程序的经验。他认为,大数据依赖于内存访问,成本的问题很重要。关于TPC,他总结到,TPC现在一半是技术,一半是政治。

  • 10:10【大数据应用主题论坛】中国移动经分(BI/DW)系统规划项目负责人何鸿凌指出,电信运营商的分析需求正在发生变化:1.“长尾”个性化需求越来越多。2.探索性需求越来越多。3.向后预测性分析越来越多。4.复杂的分析越来越多。5.跨域数据分析越来越多。6.大数据应用覆盖面却越来越广。

  • 9:52【大数据技术】浙江大学教授何晓飞回顾了传统机器学习的发展历程,并以人脸识别、社交网络的推荐系统等具体应用对比了传统机器学习与大数据时代机器学习的区别。期间他还指出了目前存在的缺点,突出了大数据时代在线学习的重要性,分析在线学习存在的缺点,并给出了具体的改进建议。

  • 9:42【大数据架构与系统】阿里数据平台杨少华介绍了阿里飞天平台上的海量数据存储与分析系统ODPS,已经承担了集团内多项核心数据业务,未来也将逐步对外开放海量数据存储和处理能力。ODPS支持跨机房数据共享,文件分块,每块存三份并分布在不同机架。

  • 9:40【大数据基准测试】IEEE Fellow、俄亥俄州立大学计算机与工程系教授Dhabaleswar K.Panda介绍了社交网络技术和基准对于Hadoop的冲击。他还介绍了RDMA,即远程DMA,它可以把数据直接推到存储器,无需接受器,不用等待适配器,这也是RDMA中非常重要的部分。

  • 9:33【智能交通与大数据技术峰会】奇虎360首席技术官谭晓生详细分享了360公司基于大数据分析的各类网络攻击检测经验。360对大数据基础设施投入有万兆snort入侵监测系统。同时他指出对攻击数据分析后的可视化研究非常重要。

  • 9:30【大数据基准测试】TPC联合主席、Cisco高级工程师Raghu Nambiar先生介绍了合成式基准、应用式基准和产业基准。在谈到产业基准时,他认为,在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。

  • 9:26【大数据应用】宏源证券研究所副所长易欢欢指出,以前个人信用来源来自金融账户、水电煤气。现在的个人信用还包括了Amazon、eBay、甚至是Facebook和Twitter。打通社交网络数据,可以提供多渠道的数据获取,决定贷款最终的发放。如果奥巴马发推at过你,那你的信用额度将会大幅提升。

  • 9:25【大数据应用】中国移动研究院业务支撑研究所所长孙少陵做本场主持。孙少陵指出,我们对数据分析师的要求不光会使用Hadoop、使用大的数据仓库,也要熟悉各种算法、各种模型,具有一定数学的基础。最重要的,你必须要了解业务、要了解你分析的行业,它是什么样的生产流程,它的特点是什么。

  • 9:21【大数据技术】百度系统部资深系统研发工程师胡殿明为我们做了第一个主题分享,他针对存储系统可靠性,分析了故障源,对其进行了分类,并对其中的磁盘故障等进行了具体分析;同时,重点对三副本与纠删码之间的对比、磁盘故障预警背景进行了分析。

  • 9:20【大数据架构与系统】Hortonworks高级技术成员Ted Yu介绍了在YARN上运行多个小的HBase集群,可以对每个小的HBase集群进行动态资源调整,这样就避免了各个业务组都不愿分享自身闲置资源给其他业务组的局面。

  • 9:18【智能交通与大数据技术峰会】中国智能交通协会理事长吴忠泽指出交通相关的数据量级已从TB级别跃升到PB级别。交通数据的深层价值有待进一步的挖掘和开发。政策和技术上突破、确保交通数据资源的安全性是目前面临的问题。

  • 9:05【大数据基准测试】中科院计算所研究员、博士生导师詹剑锋和中国人民大学信息学院院长、教授杜小勇担任主持。

  • 9:00【大数据技术】我们有幸邀请到百度大数据首席架构师林仕鼎主持。看到现场的火爆程度,林仕鼎对大数据技术推广的前景非常看好。

  • 8:55今天是7大主题论坛:大数据架构与系统、大数据技术、大数据应用、大数据研究与发展、大数据基准测试、2013中国智能交通与大数据技术峰会,以及传统行业如何驾驭大数据总裁研讨会。需要提前规划规划!欢迎朋友们将今天参会感受@CSDN云计算,会有神秘小礼物,明天送出!

@CSDN新浪微博

12月6日 主题论坛
大数据架构与系统
大数据研究与发展
大数据技术
大数据应用
大数据应用主题论坛现场   座无虚席
 中国移动研究院业务支撑 研究所所长 孙少陵
宏源证券研究所副所长 易欢欢
 中国移动经分系统规划项目负责人 何鸿凌
 英特尔数据中心软件部首席架构师 陈奇
 腾讯精准推荐中心广告推荐负责人 薛伟 PPT
 工业和信息化部电信研究院专家 魏凯 PPT
奇虎360系统部总监 唐会军
搜狐移动研发部负责人 蔡明军
奇虎360高级软件工程师 肖康 PPT
小米软件开发工程师 冯宏华 PPT
数据堂联合创始人 肖永红 PPT
 阿里巴巴数据平台架构师  刘昌钰 PPT
大数据基准测试
2013中国智能交通与大数据技术峰会
“统行业如何驾驭大数据”总裁论坛
会议现场座无虚席
CSDN创始人 蒋涛
五五私人董事会COO 刘佳砚
中关村人才协会秘书长 李志英
中科院计算所副研究员 查礼
 SAP全球数据库解决方案部技术总监 卢东明
 中国移动经分系统规划项目负责人 何鸿凌
与会嘉宾现场互动发言
大会花絮
现场展台情况
现场展台
“第一届中国大数据技术创新与创业大赛”颁奖仪式
席地而坐的参会者
主会会场
签到处一角
签到处
大会动态