• 2015中国大数据技术大会圆满落幕

    第九届中国大数据技术大会于2015年12月10-12日在北京隆重举办。16大分论坛包含数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育等7大应用论坛和3大热点议题论坛。[详细]

  • 启明星辰公司副总裁潘柱廷:2016大数据技术发展趋势解读

    《促进大数据发展行动纲要》驱动产业生态,深度分析推动大数据智能应用,可视化推动大数据平民化。数据权属与数据主权备受关注,互联网、金融、健康保持热度,智慧城市、企业数据化、工业大数据是新增长点。开源、测评、大赛催生良性人才与技术生态,但大数据安全与隐私令人忧虑。[详细]

大会亮点

12月10日 全体大会

12月11日 专题论坛

大数据政策法规和标准化分论坛

在11日的大数据政策法规和标准化分论坛上,工信部电信研究院政策与经济研究所法律部主任李海英、Gartner公司电信运营商技术部研究总监刘轶、南京邮电大学信息产业发展战略研究院院长王春晖、清华大学大数据技术研究中心常务副主任陆薇、中国信息通信研究院技术与标准研究所大数据项目经理姜春宇等五位专家就大数据的政策法规和标准化发表了主题演讲。报道

大数据基础设施分论坛

11日的大数据基础设施分论坛中,来自阿里云、Hulu、北京忆恒创源、阿里巴巴、企事录以及中科院计算所的技术专家分享了大数据基础设施从设计、搭建到平台测试标准各个方面的技术关键点、实际问题和解决方法。报道

数据库分论坛

11日的数据库分论坛分论坛中,来自南大通用、西北工业大学、中国移动苏州研发中心、 华东师范大学、Pivotal的专家与教授分享了大数据时代下数据管理技术、事务处理等方面的经验。本次论坛由华东师范大学数据科学与工程研究院院长周傲英主持。报道

深度学习分论坛

11日下午的深度学习分论坛,地平线机器人科技高级工程师余轶南,阿里巴巴iDST语音组高级专家鄢志杰,厦门大学教授纪荣嵘,华中科技大学教授、国家防伪工程中心副主任白翔,以及微软亚洲研究院研究员洪春涛分享了深度学习在图像识别、语音识别、视觉搜索、文字识别等方面的应用,以及开源深度学习框架的演进。报道

金融大数据分论坛

11日的金融大数据分论坛上,来自蚂蚁金融、平安科技、华为、新加坡管理大学信息系统学院、宜信的多位技术专家就如何通过大数据进行风险管理、信用评估,建立全社会的征信体系,进行了探讨。报道

工业与制造业大数据分论坛

来自清华大学、宝钢中央研究院、哈尔滨工业大学、三一重工华兴数字公司、国家重点实验室、杭州电子科技大学的六位专家与教授分享了工业与制造业中大数据的应用和面临的挑战。本次论坛由哈尔滨工业大学副教授、博士生导师王宏志和中国科学院计算技术研究所副研究员靳小龙共同主持。报道

数据市场及交易分论坛

11日上午的数据市场及交易分论坛,中关村大数据产业联盟副秘书长陈新河、亚信智慧数据公司DataHub产品总监龚静、数据堂(北京)科技股份有限公司联合创始人兼副总裁肖永红、北京安理律师事务所管理合伙人王新锐、中国信息通信研究院高级工程师韩涵分享了他们在数据交易中的经验和观点。报道

医疗健康与生物大数据分论坛

在备受关注的医疗健康与生物大数据分论坛上,来自中国科学院计算技术研究所、深圳大学、同济大学、国防科大以及华大基因的5位专家刘志勇、罗跃嘉、黄德双、彭绍亮、刘心就大数据在医疗健康与生物大数据方面的应用,从自身的研究出发,发表了主题演讲。报道

华为大数据技术专场

12月12日 专题论坛

网络与通讯大数据分论坛

12日的网络与通讯大数据分论坛,在华为诺亚方舟实验室副总监张宝峰主持下顺利召开。网络与通讯,作为大数据的基础承载平台,虽不直接产生很大的收益,但却是未来万物互联、信息发挥价值的基础保障。本论坛将围绕网络与通讯大数据面临的挑战及各企业在该领域的探索实践进行分享。报道

大数据分析及生态系统分论坛

12日的大数据分析及生态系统分论坛中,来自Hortonworks、IBM、京东、百度、eBay、银联智惠和南京大学的七位专家介绍了大数据分析及生态系统的进展。本次论坛由清华大学计算机系副教授张广艳主持。报道

推荐系统分论坛

12日上午的推荐系统分论坛,百度基础架构部高级架构师沈国龙、FreeWheel技术副总裁李旸、新浪微博算法技术总监姜贵彬、京东数字营销大数据高级总监万昊和猎聘网首席数据官单艺分享了机器学习和推荐算法在搜索、广告、社交、电商和招聘等不同领域的应用。报道

大数据安全分论坛

在12日下午的大数据安全分论坛上,来自阿里巴巴数据安全部阿里数据安全小组总监郑斌、腾讯安全云部助理总经理李旭阳、奇虎360高级技术经理张卓、明略数据技术合伙人杨威、启明星辰资深研究员周涛、中移软件大数据分析与挖掘工程师高家凤及同事沈洁、数美公司联合创始人兼CTO梁堃和众多参会者共聚一堂,就大数据安全领域的话题展开主题分享。报道

交通与旅游大数据分论坛

12日的交通与旅游大数据分论坛中,来自北京市交通运行监测调度中心、神州专车、高德、 携程、途牛、途家的六位专家与教授分享了政府和企业利用大数据在交通与旅游方面的实践。本次论坛由CSDN副总编董世晓主持。报道

互联网大数据分论坛

12日下午的互联网大数据分论坛,滴滴机器学习研究院研发总监刘威、百度主任架构师、机器翻译技术负责人何中军、京东商城大数据研发部负责人刘彦伟、中国人民大学副教授窦志成、国双技术副总裁黄勇坚、北京拓尔思信息技术股份有限公司副总裁刘瑞宝、微众税银联合创始人兼COO曾源分享了大数据在移动出行、机器翻译、数据平台实现、分析引擎、征信等领域的应用。报道(上)

教育大数据分论坛

12日上午的教育大数据分论坛上,跟谁学大数据部副总裁罗斌用大数据解码教育O2O,详解互联网时代,学生老师边界重构、空间距离限制被打破;英语流利说联合创始人、首席科学家林晖基于流利说的语音大数据处理与挖掘架构,剖析了帮助用户更高效地学习语言所采用的具体方法与实践;北京光量子教育科技有限责任公司CTO丁文鹏对于利用Simhash进行题目去重和搜索优化分享了自己的经验;拓维信息架构师许崇博介绍了图像文字识别问题的内在关系和核心解决办法。报道

社会治理大数据分论坛

12日的社会治理大数据分论坛中,来自阿里、中兴、华南师范大学、北大、中国人民公安大学、北京航空航天大学的专家与教授分享了大数据在社会治理方面的应用、技术关键点、实际问题和解决方法。报道

IBM Linux on Power算法马拉松挑战赛

潘柱廷:大数据的应用将更加平民化

  • 启明星辰公司副总裁、CCF大数据专家委员会副秘书长 潘柱廷

    大数据最大的优势是作为决策分析,其实是一个互联网类服务系统背后的能力,这样一个能力拓展到更多的民生的领域,比如大数据健康,需要健康的医疗服务体系,把能力包装在后面,前面需要这个系统本体有一个跟老百姓很好的接口,让老百姓很好的用起来。[详细]

张敬亮:聚焦大数据在行业落地

  • 中科天玑科技有限公司大数据产品事业部经理 张敬亮

    对目前大数据在行业落地方面的困难,中科天玑也努力在做尝试,其思路是尽量多地与原有业务数据进行结合,让客户平缓过渡到大数据新业务模式。[详细]

刘彦伟:京东实时数据平台架构设计与实现思路

  • 京东大数据平台研发负责人 刘彦伟

    京东大数据平台要支持京东的订单、商家、自营、仓储、配送、售后、金融和O2O等全线业务,主要完成接入、存储、计算三大基础工作,分为基于Hadoop的离线数据平台JDW和基于kafka、Storm的实时数据平台JRDW。[详细]

施东峰:基于IBM Power 8平台的大数据算法探索与实践

  • IBM大中华区硬件系统部服务器解决方案副总裁 施东峰

    在一个私有云或数据中心中,由于机器数量的增加,硬件设备的损坏是不可避免的,这些能耗将会成为用户一个很大的开支,基于x86通用服务器进行集群和横向扩展等的IT云架构存在很多问题需要用户去面对。在这方面,IBM以基于Power 8技术的产品让效能得到大幅提升。[详细]

孙元浩:分布式必将替代关系型数据库

  • 星环科技创始人兼CTO 孙元浩

    数据处理市场可分为三块,交易型的市场、数据分析、非结构化数据,这三块中交易型可能占三分之一,分析型的占了三分一以上,纵观市场的发展,未来Hadoop会完全取代分析型市场,因为前者今天的性能、功能慢慢开始超越后者了,节点大概是在2018年,而数据仓库也会随之发生大的变化。[详细]

任鑫琦:关联挖掘让数据更具智慧

  • 明略数据SCOPA产品经理 任鑫琦

    传统的大数据公司过去总是一味的强调可以处理多大数据,达到什么样的性能,很少去关注这些数据真正能给客户提供多大的价值,单纯的数据量处理的增加不是真正的革命,明略数据关注的是能不能让这些数据自动为用户提供智慧,为用户解决真正的问题。[详细]

焦烈焱:传统企业在大数据时代的玩法

  • 普元信息技术股份有限公司CTO 焦烈焱

    在传统行业中,金融行业跟互联网的大数据应用区别较小,主要是人的数字化。金融行业利用大数据早期是历史数据查询,但现在他们也像互联网公司一样,利用各种信息把人的行为数字化,加上标签,从而实现营销、征信、风险评估等,真正的做到利用数据,让数据价值化。[详细]

大会展区

博彦科技展台
华为展台
猎聘网展台
明略数据展台
慕课网展台
普元展台
天诚盛业展台
星环科技展台
中金数据展台
中科曙光展台
中科天玑展台
中移软件展台
Cloudera展台
HGST展台
CSDN软件商城展台
博文视点展台

图文实录

  • 12月10日
  • 12月11日
  • 12月12日
  • 17:40【互联网大数据分论坛】微众税银联合创始人兼COO曾源发表题为《政务大数据在征信领域的应用》的演讲。现有信用体系满足各金融主体需求中的缺陷可以慨括为:信用评估体系建设不完善,信用评估技术落后,数据缺失、杂乱,资源难统一,评价结果不具备预测性,评价模型不具备普适性。使用大数据平台进行技术支撑,利用大数据技术进行性能优化。

  • 17:30【大数据分析及生态系统分论坛】 南京大学计算机系PASA大数据实验室教授黄宜华带来的演讲是“Octopus(大章鱼):基于R语言的跨平台大数据机器学习与数据分析系统”。他谈到大数据机器学习是一个同时涉及到机器学习和大数据处理两个主要方面的交叉性研究课题。

  • 17:20【大数据安全分论坛】数美公司联合创始人兼CTO梁堃在主题演讲中介绍了Sentry金融实时风控系统。他表示实时风控系统对于银行业继续保持高速发展越来越重要。Sentry金融实时风控系统是基于大数据技术构建的实时交易风险评估系统。其工作过程是,在每一笔交易发生时,实时进行(1)业务系统将交易信息发送风控系统;(2)发现该交易中存在的异常行为和可疑场景;(3)根据发现的“证据”计算该交易的风险系数;(4)将风险系数等相关信息反馈给业务系统。Sentry使用的开源组件有分布式存储系统Cassandra、实时计算系统 Storm、 分布式一致性协议的实现ZooKeeper。

  • 17:00【互联网大数据分论坛】北京拓尔思信息技术股份有限公司副总裁刘瑞宝发表题为《大数据——互联网时代政府发展的引擎》的演讲。政府主导的智慧城市建设正在面临瓶颈,智慧城市的市场化推动不足。智慧1.0就是充分利用互联网的渠道性。智慧是整体的、系统的,离不开整条生态链、整个生态圈的支撑。智慧2.0就是实现数据支撑的政府监管:数据时空化;实时比对,发现异常;挖掘数据之间关系;建立指数化模型。大数据让每个个体都真实呈现。用机器学习构建网贷平台的风险评估模型,定量化分析结果对接管理,对内实现监管,对外实现权益保护,重点监测对象实时风险分析。智慧3.0,人的行为越来越多被数字化,决策需要数据支撑。

  • 16:50【大数据安全分论坛】来自腾讯安全云部助理总经理李旭阳发表的演讲主题是“大数据打击社工诈 骗”,他首先介绍了安全其实包括三个方面,包括针对舆情、暴恐、间谍的 国家安全方面;针对信息安全,各种业务安全的企业安全方面;以及针对信息泄露,社区诈骗的公众安全。虽然解决的方法很多,包括多维度数据收集、有效维度的筛选、机器学习等 ,但是目前对于社工诈骗效果不太好,所以腾讯将以前用在业务安全上面的方法用在社工诈骗上,效果不错,他们的方法称为染色,包括顺藤摸瓜和找 贼窝,另外,在对抗阶段需要注意保密、干扰对方等方法论。最后,他详细介绍了大数据评估体系。

  • 16:40【社会治理大数据分论坛】北京航空航天大学教授吴俊杰围绕着“社会计算与社会舆情管理研究进展”对当代大数据与社会计算进行了深度分享。城市跳动着交通、环境、能耗、医疗、应急等大数据网络社会与物理社会的协调演化,为社会感知带来了全新机遇,大数据思维已深入人心。从社会系统视角看,大数据时代下的创新系统和主体沟通模式主要包含跨网信息传播、群体行为涌现、人-机-物协调与共生智能、多中心共治。但是,社会计算同时也面临着大数据建模、短文本分析、大数据计算、多学科交叉等挑战。

  • 16:30【大数据分析及生态系统分论坛】 银联智惠联合创始人兼CTO龙凯给带来的分享是“银联智惠消费大数据解决方案”。银联智惠依托全局性大数据资源,通过独特技术手段,推出深度的行业应用。数据安全、数据隐私、数据产权是大数据产业链三大基础。商业智能通过收集、管理、分析以及转化数据,使其可用从而获得必要信息。通过大数据分析客户目标特点,实现智慧金融信贷周期一体化解决方案。智慧安全云通过收集各类内外数据,利用Hadoop等基础设施查询、统计、分析。

  • 16:20【大数据安全分论坛】阿里巴巴数据安全部阿里数据安全小组总监郑斌在《大数据下的数据安全》主题演讲中表示以数据流控制为中心的IT时代正走向以数据共享为基础、激活生产力为目的的DT时代,而大数据是新的生产要素,互联网+的新基础设施云网端(云:云计算、大数据;网:互联网、物联网;端:终端,APP)正激活大数据。

  • 16:10【互联网大数据分论坛】国双技术副总裁黄勇坚发表题为《挖掘用户行为大数据中的金矿》的演讲。他认为,用户行为数据的特征包括大量数据、可采集、精准、结构化与非结构化。营销决策流程提前,表现为60%的购买者在与销售人员接洽前已经完成了其决策流程。面临的问题:优化提升用户体验?如何更好设计符合用户兴趣的产品?我们的解决方法:采集加工、分析报表、决策和预测、行动。他通过举例介绍了多维度数据分析技术。大数据下数据全关联,可以基于数据分析解决企业的疑难问题。

  • 16:05【大数据分析及生态系统分论坛】eBay软件工程师、Apache Kylin PMC成员仲俭做了题为“Apache Kylin的大数据可视化实践”的演讲。Kylin关键在于其提前计算,将颜色、大小等维度提出后由Hadoop进行处理。从eBay和京东两个案例出发,详解展现了Kylin丰富可视化接口和强大的数据处理能力。Apache Kylin 与 Zeppelin进行了整合和二次开发。开发人员可在Zeppelin架构下自行开发后端,仅需编写interpreter;同时Zeppelin上对应的语句,可在其他平台上同样运行。

  • 16:00【社会治理大数据分论坛】中国人民公安大学教授梅建明以“大数据与恐怖主义的防范”为主题分享演讲。恐怖组织利用网络实行筹资、洗钱活动,具有隐蔽性、实时性特点,极易逃避监管。在这个时代反恐预防是关键。大数据为防范恐怖主义提供了机遇,但挑战也明显。这些挑战来自于技术、法律、文化、体制等诸多方面。在技术方面,数据具有来源广、形式多、冗余高、更新快、关联弱的特点。同时,在法律、文化、体制方面,也存在许多困难。

  • 15:40【互联网大数据分论坛】中国人民大学副教授窦志成发表题为《大数据时代的互联网分析引擎》的演讲。人工编辑的目录存在一定问题:导航的方式仅适于少量网站;手工编辑代价高,用户查找网站困难;找入口网站,而不是找信息,与用户需求相悖。搜索引擎20年来都没改变的基本模式:网页是基本单元;返回简单结果列表“ten blue links”;用户通过阅读结果来获取信息。这种模式不能满足用户对大规模互联网数据的深层次需求,部分高阶信息获取需求无法很好满足。

  • 15:30【社会治理大数据分论坛】北京大学中国社会科学调查中心科研发展部主任顾佳峰带来《大数据时代下中国社会调查的科学新观》主题演讲。大数据对人类社会的行为、环境等各个方面产生了冲击,从2006年成立起,北大中国社会科学调查中心先后多次进行了中国家庭跟踪调查(CFPS),并进行了多项行动,搭建基于大数据技术的精准调查访问系统、调查数据元管理系统,并与北大图书馆合作,整合数据资源,搭建数据分享与利用的综合服务平台。

  • 15:25【大数据分析及生态系统分论坛】百度大数据部高级研发工程师衣国垒演讲主题是“通过Elasticsearch进行大数据分析”。分布式的架构Elasticsearch最初构建在Lucene搜索引擎上,近年来由全文检索系统转变为数据分析平台。他认为Elasticsearch的兴起与近年来的生态密不可分。Elasticsearch具有多维分析、实时性、易用性等优势。

  • 15:20【社会治理大数据分论坛】在中国科学院自动化研究所复杂系统管理与控制国家重点实验室副研究员郑晓龙博士的主持下继续进行。

  • 15:20【大数据安全分论坛】明略技术合伙人杨威演讲的主题是“构建安全的企业级大数据平台”,他表示目前的目前企业安全面临的风险不仅来自企业外部,还来自内部以及数据风险和服务风险,他介绍了Hadoop平台“安全”的两个方面既要安全又要可靠,他重点介绍了缺乏安全配置的Hadoop平台有哪些隐患,包括:SIMPLE的身份验证机制 ,nobody都可以冒充superuser;基于Linux用户组信息的文件访问控制,本地权限可被恶意用户利用;不经授权的数据访问和粗粒度的数据访问控制, 不经授权的获取关键数据;不设防的底层文件存储,会导致偷走文件即偷走 了数据内容。

  • 15:10【社会治理大数据分论坛】华南师范大学计算机学院教授赵淦森分享了《大数据治理中的数据融合与安全》。他主要分享了金融信用挖掘、刑事共犯追踪、基于协同融合的税务治理、重大猜中投资廉情治理、协同融合的数据安全管控方面的大数据社会治理案例。以重大猜中投资廉情治理为例,协同融合后的关联查询的第一步就是打通数据孤岛,还要做到让孤立表变关联表及全过程数据的重构。

  • 15:00【互联网大数据分论坛】京东商城大数据研发部负责人刘彦伟发表题为《京东实时数据平台的实现和应用》的演讲。他主要分享了京东实时数据平台架构及实现。基本过程是将数据通过JDBUS(数据直通车)写入实时数据总线,再传入实时数据平台。数据直通车是一个功能强大的数据搬运系统,其价值在于通过产品化屏蔽底层复杂技术实现,让所有人都可以完成数据采接入工作。实时数据总线是数据接入与下游消费之间的一个数据暂存存储,以标准格式的消息降低异构系统之间对接的成本,实现一次接入、多用户消费,实现异步架构,单个数据实体以Topic粒度存储。实时计算平台是基于Storm打造的流式计算平台,统一的实时计算集群,实现了公司资源利用最大化,包括人力、技术、硬件等。

  • 14:50【大数据安全分论坛】中移软件大数据分析与挖掘工程师高家凤及同事沈洁共同分享了《电信运营商信息安全算法研究和应用实践》主题演讲。高家凤表示拦截骚扰诈骗电话和垃圾短信,之前基于统计和业务人员经验的传统治理方法高成本且低效率,如何利用大数据更高效完成该工作,高家凤展示了中国移动基于算法和模型的大数据试验流程。治理不良信息的大数据平台包含平台层、算法层、应用层,可提供强大的数据据处理能务,提升信息安全工作整体价值,用到了Hadoop Spark等开源技术。

  • 14:45【大数据分析及生态系统分论坛】京东集团云平台数据首席架构师杜宇甫分享的题目是“构建大数据生态环境”。数据分析环节包括数据采集、存储、建模、分析、应用。他详细介绍了该环节用到的Flume、Spark GraphX、streaming等技术。生态的意义在于合作伙伴之间联合作战,实现共赢。京东生态云是用户可用的云服务:在上层提供分析工具;在云端提供云存储、云分析、云海,提供开发者使用的数据集群以及实时分析。管理员通过京东数据云管理数据网关。最后,他强调任何数据要有自己的市场,否则没有任何价值。

  • 14:30【互联网大数据分论坛】百度主任架构师、机器翻译技术负责人何中军分享题为《互联网机器翻译》的演讲。以前的统计机器翻译需要双语对翻译模型,而且还需要目标语言的语言模型。基于短语的方法表现为绝不翻译较好、难以利用全局信息、步骤复杂、耗费资源大。基于深度学习的方法充分利用全局信息且译文流畅、模型小、步骤简单、网络结构复杂计算量大。

  • 14:20【社会治理大数据分论坛】中兴软创科技股份有限公司智慧产品部副部长邓晖分享了《大数据在政府治理中的应用与思考》。 政府是天然的大数据交易商。中兴软创在合作实践过程中发现,基础设施相对来说比较容易解决,技术架构需要解决怎样从0开始,为政府机构解决问题。关键的组件包括主数据管理平台、大数据采集端、大数据中心、大数据分析器、大数据服务器、可视化服务器、大数据客户端。在数据中心方面,他以认购库模型为例,分析了其中的数据分析过程。在合作过程中也有难点,比如数据格式繁杂、数据质量不高。最后,他还分享了大数据分析过程中踩过的坑,比如特征提取、评估方法的确定、算法演化问题等。

  • 14:12【大数据分析及生态系统分论坛】IBM数据和分析事业部大中华区大数据产品总监洪建勋分享的是“Spark数据和设计迎巨变”。客户联手IBM和Spark开始创新,收集海量数据进行分析应用,比如用于慢性病预防等等。数据是企业竞争的基础,目前数据分析的研究方向已倾向于制造业和工业。IBM的大数据简易分析框架由前端数据采集、预处理、数据挖掘、可视化分析组成。IBM SQL基于Hadoop技术,用户可通过不同的方式访问数据。最后,他谈到大数据的生态不仅仅是一个Hadoop或者Spark,开发者应重新利用旧的技术,离开业务价值谈大数据,并非真正的大数据。

  • 14:00【大数据安全分论坛】启明星辰资深研究员周涛分享的焦点是关注“在安全分析中如何规避“大” 数据分析”,他首先对企业安全大数据做了介绍,包括安全大数据的成因和特点以及安全大数据带来的挑战,他认为,目前攻击的方式发生了变化,从原来的常规恶意代码到现在的由APT引发的data breach,主要的应对之策是改变事件处置响应的被动模式,从更基础的数据中主动发现威胁。

  • 13:50【大数据分析及生态系统分论坛】Hortonworks技术员于志宏(Ted Yu)演讲的题目是“Recent developments in HBase”。他从批量加载 HFile备份、端到端Offheap读路径优化、Slider上的HBase三部分详细讲解了HBase的最新进展。

  • 13:55【大数据安全分论坛】奇虎360高级技术经理张卓在主题演讲中表示加大防御速度、缺乏互联网数据是当前安全防范遇到的两大难点。空间换时间,是张卓提出的应对策略。同时他披露奇虎360首次将深度学习引入到安全领域,用于内网资产识别、资产识别、内网资产划分、告警日志数据的分析等领域。

  • 13:40【互联网大数据分论坛】滴滴机器学习研究院研发总监刘威介绍如何将机器学习算法集成到“滴滴出行”各大产品线,包括实时交通路况检测、接驾时间预估(ETA,针对空间、时间和路况进行预测,涉及离散预测函数、数十万次请求的秒级响应)、交易引擎(解决每秒5亿次匹配计算+NP难问题,效果为快车拼车成功率一个月翻番)、全局智能运力调度系统(对司机画像判断其不同时间段的订单偏好、提前判断哪些提取可能出现紧张的供需关系)、极速拼车(哈希算法匹配)、顺风车移动社交平台等。

  • 13:35【社会治理大数据分论坛】阿里巴巴集团安全部大数据内参魏鸿带来《互联网+社会治理的一些思考》。阿里巴巴安全部与2005年成立,目前员工近2000人,致力于打击犯罪O2O(线上风控、线下联手打击)。网络空间对物理空间造成了改变,传统的治理模式受到新的挑战。在网上的优势,比如数据分析、云计算能力,也要赋予社会治理。利用网络空间的优势来创造新的治理模式,反而有助于解决物理空间遇到的治理难题。

  • 13:30BDTC 2015 社会治理大数据分论坛,在本场主持人,中兴通讯云计算与大数据首席架构师罗圣美的主持下正式开始。

  • 13:20大数据分析及生态系统分论坛在清华大学计算机系副教授张广艳的主持下展开。

  • 13:20【互联网大数据分论坛】BDTC第三天下午的互联网大数据分论坛在中国人民大学信息学院教授、副院长文继荣的主持下正式开始,本论坛将涵盖移动出行、机器翻译、数据平台、互联网分析、互联网金融等方面。

  • 13:10大数据安全论坛,在启明星辰首席战略官潘柱廷的主持下正式开始。

  • 12:20【推荐系统分论坛】猎聘网首席数据官单艺在发表题为《运用增强学习算法提升推荐效果》的演讲。增强学习提供了一套自适应智能系统的理论框架。他提到的老虎机算法通过留很小的百分比去试验,观察return,选择目前最好的策略。Thomspon算法利用贝叶斯理论,根据当前后验进行采样,选取收益最大的。MAB模型能够帮助UI优化、推荐策略试验、用户兴趣探测、内容试验。Contextual MAB模型可以做得更深入、更好。

  • 12:10【交通与旅游大数据分论坛】途家BI总监秦涌分享的题目“途家网数据分析的商业实践”。他表示数据的价值在于技术和商业的结合。秦涌通过围绕途家业务多个案例,详解了途家在计算方法设计、结果输出分析、改善落地驱动业务方面的工作。最后,他表示:“数据分析的出发点一定和具体业务相关;数据分析没有固定的方法,在数据分析上使用数学模型;通过数据分析人员在业务单元轮岗提升数据分析结果的价值、加强数据和业务互动”。

  • 12:00【教育大数据分论坛】在拍照搜题应用中,图像文字识别环节是重点也是难点。整个识别问题可以分解为:字块提取、字块识别、行结构分析、公式结构分析等关键子问题。现场,拓维信息架构师许崇博详细剖析了这些问题的内在关系以及核心解决方法。以字块提取及识别为例,前者逻辑思路从背景灰度均衡、局部二值化、连通量提取到组合成字块,后者以将字体打印到图像上,加随机背景色、噪声、高斯模糊、扭曲变换生成样本。

  • 11:45【网络与通讯大数据分论坛】网络与通讯大数据论坛的最后一位演讲嘉宾是来自华为诺亚方舟实验室高级研究员曾嘉,他的演讲主要是关注电信大数据关键技术挑战,他首先介绍了电信时空数据的独特优势,他表示七维数据构成电信时空大数据基础,需要时空数据分析平台和生产系统对接起来,并做大量商业尝试:时空标签、信用标签和实时分析产品应用于实时广告、精准营销、金融征信、移动数字轨 迹等方面。

  • 11:25【推荐系统分论坛】京东数字营销大数据高级总监万昊发表题为《大数据技术在京东广告中的应用》的演讲。他认为,大数据不仅仅在于数据大,更重要的在于对数据的洞察。数据洞察是指数据里挖掘出的能够应用于产品、提升效果的规律。广告中最重要的大数据应用在于定向。

  • 11:15【交通与旅游大数据分论坛】途牛大数据总监孟敬慈进行了题为“途牛旅游大数据应用实践”的演讲。目前途牛业务模式分为旅游电商、金融科技、影视传媒三块。旅游行业具有非标准化、高/低频次、强时效性+高客单价特点,进而衍生了资源组合、降维打击问题和风险管理与价格管理需求。途牛采用最优库存与定价模型、收益管理、基于价格预测的金融衍生品等解决方案。他总结到旅游产品与金融需要紧密结合,才能做到最好的收益管理。

  • 11:10【网络与通讯大数据论坛】来自并行科技有限公司研发总监黄新平的分享主要关注大数据技术在7*24小时数据中心在线运维系统中的应用和高性能计算应用大数据分析,他首先提 到并行科技主要提供数据中心大规模机群实时监控管理、应用性能管理、运营大数据分析挖掘。他强调,传统运维服务缺少精细化分析,专业的运维团 队以及专业数据中心管理软件,面对越来越复杂的系统,急待解决日益复杂 的管理问题。并行科技创新的7*24小时在线运维,将现场运维服务转变为通 过互联网的数据中心在线运维,减少购买运维软件和专业管理员的压力,完成全自动数据采集、分析任务,同时他谈到了Paramon软件目前采集的数据情况。最后他还介绍了应用优化案例。

  • 11:05【交通与旅游大数据分论坛】 携程基础大数据高级数据分析经理于磊分享的是“携程基础大数据架构实践”。OTA公司数据具有业务线差异大、复杂度高等特点,其大数据落地场景往往是分析报表、用户中心等。目前携程大数据架构中,数据源层进行埋点规范、规范校验;日志层进行离线 & 实时数据接入;算法引擎层通过算法引擎,审核画像;通用化配置层以通用化精准营销平台(开发中),实现数据出口;精准化应用层用于推荐栏位和个性化广告投放。

  • 11:00【教育大数据分论坛】光量子教育科技CTO丁文鹏分享了《基于Simhash的题目去重与搜索》。目前有一些通用的检测算法,比如汉明距离、更偏向数学描述的Jaccard index、编辑距离、向量空间的余弦相似性。但是使用通用检测算法来比较两个题目的相似性的效率比较低,所以我们需要使用Locality-sensitive Hashing,比如MiniHash和SimHash。演讲人举例分析了如何利用SimHash进行题目去重。在实际使用中,他们直接使用near-duplicate特性进行聚类,新题目可通过索引定位到对应的cluster,只有与cluster已有题目相似才会录入,防止拉链。在搜索中,会使用k=3来进一步去重,保证搜索结果最优。

  • 10:50【推荐系统分论坛】新浪微博算法技术总监姜贵彬发表题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。他认为推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。

  • 10:40【网络与通讯大数据分论坛】中国电子科技集团第七研究所副总工程师兼通信设计院总工程师沈文明在主题演讲中表示面对移动网络发展带来诸多挑战,运营商需更科学地规划网络,更智能地优化网络优化。如何基于大数据进行网络规划与优化,他提到了“服务+软件”模式,以大数据平台为基础,将服务能力、服务内容、服务团队进行融合。为了实现该规划设计,该企业正努力突破两个关键能力:多厂商/多接口数据解析能力、网络侧高精度定位技术。

  • 10:30【推荐系统分论坛】接下来的演讲由精硕科技(ADMaster)技术副总裁兼总架构师卢亿雷主持。卢亿雷简单介绍了接下来的三位嘉宾不同的议题方向,包括社交网络、电商和招聘,并请下一位讲师上台演讲。

  • 10:20【交通与旅游大数据分论坛】高德交通大数据资深专家方兴演讲主题是“大数据如何指导旅游出行”。他首先展示数据分析得出的国内交通状况。高德地图通过实时数据处理,发布实时路况与事件,实时交通与导航。其技术架构包括:前台应用在线服务、Hbase等在线数据存储、阿里ODPS数据统一存储、生产服务器实时日志采集。通过结合轨迹热力图与现有路网,按道路聚合,结合历史车速数据实现路网数据挖掘,对路况预测、渲染、发布。

  • 10:00【推荐系统分论坛】FreeWheel技术副总裁李旸发表题为《FreeWheel基于大数据的新兴视频广告测量实践》的演讲。他主要从以下三个方面进行了分享:新兴视频广告测量方式、用户性别年龄预测、广告完成率预测。他提到广告测量的挑战仍然是广告的实际效果很难被测量,视频广告缺乏有效的测量方式。目前大多数都采用基于用户反馈进行测量。新兴视频广告测量方式包括三种:数字收视率、广告完成、可见曝光。视频和网页特征提取的具体做法是:基于名称和简短描述,提取两个特征,即Genre和Topic,用相似用户平滑进行优化。广告完成率预测的特征包括三个维度:Ad、User和Context。

  • 09:50【教育大数据分论坛】英语流利说联合创始人、首席科学家林晖详解了语音大数据及其在语言学习中的应用。大数据分Volume、Variety、Velocity、Veracity四个方面,英语流利说以自适应学习,积累了250万小时的语音数据,这也就意味着单机语音识别需要60年(假设0.2的实时率),需要有2万+CPU的集群才能在短时间内完成处理。流利说语音数据处理架构包含了实时算法服务、语音分析服务、深度模型、redis、kafka等。

  • 09:40【网络与通讯大数据分论坛】中国电信云计算分公司大数据事业部首席数据分析师张宇中带来的演讲聚焦 在中国电信大数据应用实践,他从电信大数据的能力展开,他表示电信上千 节点的数据处理能力,每日汇聚500亿条数据,随后他介绍了中国电信的大数据平台生产和服务的具体过程,其中,数据接入能力50TB,传导能力100TB,计算能力200TB。之后他详细介绍了中国电信大数据的具体应用,包括星图针对的风险防控,精准营销;鲲鹏针对的人流画像的商业选址、人流热图;针对大数据PaaS平台的飞龙,开放电信级安全数据开放能力。最后他也强调,中国电信一直秉持开放融合,建立大数据应用生态。

  • 09:30【交通与旅游大数据分论坛】神州专车首席架构师李思带来的分享“神州专车时空大数据处理实践 ”。 神州专车中,安全是基础,管理和技术双管齐下;效率是关键,技术为主;增长是目标,数据驱动。通过车联网/OBD收集数据实时处理,同时离线分析机器学习形成预测模型对服务前端进行调度、定价。空间上进行网格化划分,网格内部按时间对供给和需求预测,提高调度效率。演讲最后,他表示企业可将非核心部件、大规模营销活动、第三方合作、短时的计算密集型任务在云上部署(Iaas)。

  • 09:20【推荐系统分论坛】百度基础架构部高级架构师沈国龙发表题为《BML百度大规模机器学习云平台实践》的演讲。他提到大数据的处理流程包括六个模块:数据、手机、存储、变形、分析、业务场景。并且,他分享了百度大数据处理基础架构,主要讲解了大规模机器学习算法框架ELF(Essential Learning Framework),其特点总结为易用、高效。他总结了机器学习成功的要素:一、数据。包括数据收集和多套数据的打通,清晰、明确、“洁净”的数据源、Online & Offline数据的结合;二、系统。快速、低成本的实现,支持规模快速扩张的高效算法库,AB Test和模型迭代机制;三、评价标准。覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动、人工使用体验等指标,对整体系统的影响。

  • 09:15【网络与通讯大数据分论坛】中国移动福建公司网管中心副总经理杨慰民在主题演讲中表示,在“体验为王”的移动互联网时代,传统网络运维体系,已经很难适应发展形势需要。为此该企业以“构建面向客户感知的主动运维体系”为思路,提出五元五阶样本空间置换法,努力构建集中性能管理生态系统,并不断开发百花齐放的应用。

  • 09:10【推荐系统分论坛】北京明略软件系统有限公司联合创始人兼CTO冯是聪宣布推荐系统论坛开始。

  • 9:08【交通与旅游大数据分论坛】 北京市交通运行监测调度中心副主任张可演讲的主题是“北京市综合交通运行数据体系建设与应用”  。他开场介绍了北京市交通运行监测调度中心(TOCC)基本情况。接下来,张可谈到北京市面向综合交通运行分析的监测数据体系。通过对城市路网交通、轨道交通、出租汽车运行分析,自动生成多粒度综合交通分析报告。演讲结尾,他表示通过开放共享数据资源、工具环境,为专业机构和人员提供一体化支撑。

  • 09:052015中国大数据技术大会之交通与旅游大数据分论坛正式开始,本次论坛由CSDN副总编董世晓主持。

  • 09:05网络与通讯大数据分论坛在华为诺亚方舟实验室副总监张宝峰的主持下开始。

  • 09:03推荐系统分论坛在北京明略软件系统有限公司联合创始人兼CTO冯是聪的主持下开始。

  • 09:00【教育大数据分论坛】跟谁学大数据部副总裁罗斌分享了《大数据解码教育O2O》。“跟谁学”团队创业至今有一年半时间。他分享了大数据在营销层面的价值,如何通过合理的数据分析精准地找到并吸引潜在用户。罗斌他们分析了多个渠道的用户转化率。他们发现用户获取信息的渠道碎片化,很多用户在选择课程、老师的时候,用户更加信任熟人关系的推荐。互联网平台教师呈现高学历化和年轻化趋势,平台上生效老师中有42%是个体教师而非来自机构。在平台上,有26.2%的教师还会购买其他教师的课程,老师与学生的边界在互联网时代会有更大的改变。最后,他分享了教师平台上的好评GMV(交易额)最大化搜索模型,以及向教师披露平台机制和数据信息的价值。

  • 09:00BDTC2015中国大数据技术大会第三天议程开始了

新浪微博 (#BDTC 2015#)@CSDN云计算

大会花絮

签到台前人头攒动
参会者现场互换名片
央视记者在现场采访
BTV记者现场采访
大会合作伙伴墙
驻足在日程板前的参会者

相关资讯

大会日程

12月10日 全体大会
时间议题嘉宾
09:00-09:05大会及与会嘉宾介绍孙少陵   中国移动苏州研发中心总经理助理兼CTO
09:05-09:10CCF 大数据专家委员会秘书长致辞程学旗   
中科院计算所研究员,CCF 大数据专家委员会秘书长
09:10-09:15大会主席致辞张晓东   美国俄亥俄州立大学计算机科学与工程系主任, Robert M. C ritchfield讲席教授
09:15-09:352016 年大数据技术发展趋势解读潘柱廷   启明星辰公司副总裁,CCF 大数据专家委员会副秘书长
09:35-10:15互联网、数据和计算王   坚   阿里巴巴集团CTO
10:15-10:50网络与通讯大数据在旅游与征信领域的应用探讨范济安   中国联通集团公司信息化与电子商务事业部副总经理、总架构师
10:50-11:25未来的认知工作负载需要全新的IT 基础架构郭仁声   IBM 副总裁、大中华区硬件系统部总经理
11:25-12:00持续支撑业务创新的大数据平台及商业实践徐兴海   华为IT 产品线大数据解决方案规划总监
区   波   华为电信软件大数据首席技术规划
午餐
13:00-13:40多媒体大数据分析与搜索高   文   中国工程院院士
13:40-14:15Spark发展:回顾2015,展望2016辛   湜   Databricks公司联合创始人、Spark首席架构师
14:15-14:50大数据热的冷思考孙少陵   中国移动苏州研发中心总经理助理兼CTO
14:50-15:25大数据时代的企业业务系统向3.0转型焦烈焱   普元信息技术股份有限公司CTO
15:25-16:00从2014 到2016,大规模内存数据库演进之路刘海锋   京东云平台总架构师、系统技术部负责人
16:00-16:35现代数据仓库的技术演变和关键特性孙元浩   星环科技创始人兼CTO
16:35-17:10Randomized Algorithms for Big Data: Making the Impossible Possible金   榕   美国密歇根州立大学终身教授
17:10-17:45Kudu: Storage for Fast Analytics on Fast DataTodd Lipcon   Cloudera 公司研发工程师,Kudu 发明人
12月11日-12月12日 专题论坛
时间内容
12月11日(周五)

上午

 政策法规和标准化
 论坛主席:
 孙少陵
 数据库
 论坛主席:
 周傲英、钱岭
 金融大数据
 论坛主席:
 陈继东、王健宗
 数据市场及交易
 论坛主席:
 何鸿凌、齐红威
下午 大数据基础设施
 论坛主席:
 章文嵩、周浩杰
 深度学习
 论坛主席:
 山世光、余凯
 工业与制造业大数据
 论坛主席:
 王宏志、靳小龙
 医疗健康与生物大数据
 论坛主席:胡斌
华为大数据技术专场(需单独申请)

12月12日(周六)

上午

 网络与通讯大数据
 论坛主席:
 张宝峰、张云勇
 推荐系统
 论坛主席:
 冯是聪、卢亿雷
 交通与旅游大数据
 论坛主席:
 董世晓
 教育大数据
 论坛主席:
 林仕鼎、杨栋

下午

 大数据分析及生态系统
 论坛主席:
 张广艳
 大数据安全
 论坛主席:
 潘柱廷、谭晓生
 互联网大数据
 论坛主席:
 文继荣、刘江
 社会治理大数据
 论坛主席:
 罗圣美、曾大军
全天IBM Linux on Power算法马拉松挑战赛(需单独报名)