• 2017中国大数据技术大会(BDTC)在京盛大召开

    2017年12月7-9日,2017中国大数据技术大会(BDTC)在京盛大召开。本次大会由中国计算机学会主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司、CSDN协办,为期三天,以“大数据与智能”为主题,重点解析了大数据时代社会各行业的智能化进程和行业实践。[详细]

  • 除了精彩纷呈,海内外嘉宾云集的Keynote之外,本次大会还举办了数十场专题技术和行业论坛,涵盖了大数据分析与生态系统、数据库、大数据云服务、机器学习与深度学习、知识图谱、区块链、推荐系统、金融大数据、交通与旅游大数据、工业与制造业大数据、精准医疗大数据、大数据安全与政策法规等范围广泛的主题。特别值得强调的是,荣膺首次Top10大数据应用最佳案例评选活动奖项的作者也在本次会上发表了分享他们在各自行业的大数据最佳实践。

图文实录

  • 12月7日
  • 12月8日
  • 12月9日
  • 17:20【数据库论坛】华东师范大学数据科学与工程学院教授周烜带来了主题为《互联网时代的数据库扩展能力》的分享。他表示负载激增是数据库系统在互联网时代所面临的巨大挑战,Instagram发布当天6小时服务器满负荷;首日用户接近4万。 他通过发问的方式展开自己的论述,比如:数据库的扩展和上层应用的扩展是相互独立的吗?数据库可以具备普适扩展能力吗?即面对任意形态的数据和负载;数据库可以根据数据和负载的形态自动分裂自动扩展吗?他认为,自动调优(Self-Tuning)在数据库领域有超长的研究历史和极少的实用成果。 另外,他总结道:NoSQL:便于扩展,但表达能力弱、无ACID。SQL:表达能力和ACID,但不便于扩展。但是,NoSQL的使用方式更便于程序员整合数据库与应用的扩展能力。 对于未来数据库系统应该长什么样?他认为,系统设计的核心是取舍,任何系统都需要在功能、性能、易用性上做取舍。

  • 16:40【数据库论坛】滴滴出行数据库开发团队负责人黄欣分享的主题为《滴滴数据库实践》。 他表示,滴滴发展到今天5年,数据库真正发展是从2016年中开始的,滴滴比较年轻,发展步骤也比较快,原则就是简单高效加开源,另外,会做一些深入二次开发,希望通过这样的方式来实现弯道超车。 接着,黄欣整体分享了一下滴滴现有DB技术的架构和演进。同时,为了更好的解决滴滴的核心业务痛点,滴滴做了哪些事情?主要包括:优化了osc、实现了外置二级索引系统、演进了schemaless系统等。

  • 17:00【工业与制造业大数据论坛】清华大学软件学院院长王建民,发表了《工业大数据技术与实践》的主题演讲。王建民表示,工业大数据是工业数据的总称,包括信息化数据、物联网数据以及跨界数据,是工业互联网的核心要素。此次分享主要分析了工业大数据的主体来源,剖析企业信息化和工业大数据相互关系,阐述工业大数据“多模态、高通量、强关联”的数据特点、“强背景、碎片化、低质量”的数据分析挑战,以及“物理信息、产业链、跨界”多源数据融合并赋能先进制造业的应用特点,探讨工业大数据软件系统架构与实施方法,分享我国工业大数据典型应用案例。同时,大数据技术正在从消费互联网向产业互联网渗透,大数据系统软件面临着跨界数据融合、用户结构转变等应用挑战。王建民也表示,工业大数据价值创造的序幕刚刚开启,不仅在于对现有业务的优化,更在于支撑企业、行业乃至全社会的创新、转型和发展。工业互联网不断普及的过程,是工业大数据应用价值逐渐释放的过程、是智能制造不断发展的过程。当前,工业大数据仍处在高速发展的历史阶段,其概念内涵、技术方法、价值创造模式还在不断创新演化之中,需要我们各位的创新实践。

  • 16:50【区块链分论坛】人民保险信息技术工程师李赫作为论坛压轴讲师分享了《区块链原理及保险业应用思考》的应用类内容。首先,李赫对目前区块链知识进行一次较为体系化的讲解,使得初学者能迅速抓住区块链技术的核心思想与应用技巧,对区块链应用和智能合约有一个快速的、由浅入深的了解。随后,李赫提出了区块链应用的几点注意事项:(1)区块链和智能合约能实现的,现在有IT系统都能实现,区块链仅是去掉中介;(2)区块链实现的不是性能的提升,而是业务模式的改变,相反性能大幅度下降;(3)区块链只能实现对链内内生的信息信任,对外界引入的信息无法建立信任;(4)区块链应用不一定需要币。李赫演讲中谈到了区块链在互助保险的应用思考,在保险定价的应用思考,养殖业保险应用思考,并重点介绍了区块链全球应用全景图的多维度分类。最后,李赫对区块链未来技术进行了展望,他认为,公有链像英特网一样会成为未来区块链的主流平台,希望技术人员多关注:Casper、Sharding、去中心化的数据存储服务、跨链、链去中心化的消息传输协议等技术,迎接区块链大时代美好的未来。

  • 16:15【工业与制造业大数据论坛】北京航空航天大学云制造研究中心副主任、国家863云制造主题项目首席科学家助理任磊,发表了《新一代人工智能背景下的云制造与制造业大数据》的主题演讲,主要涵盖四个层面,新一代人工智能的提出背景;新一代人工智能发展规划;智能制造与云制造;制造业大数据。任磊表示,当前,正在发生重大变革的信息新环境和人类社会发展的新目标正催生人工智能技术与应用进入一个新的进化阶段。中国正值工业化与信息化发展高潮,“工业4.0”大背景下的智能制造成为产业界与学术界关注的热点。近年来我国“互联网+”行动计划、“中国制造2025”战略、国务院《新一代人工智能发展规划》、国务院《关于深化“互联网+先进制造业”发展工业互联网的指导意见》等战略规划中,均将云制造作为推动智能制造向前迈进的新模式、新手段、新业态。本次议题主要探讨新一代人工智能背景下的智能制造的发展趋势、云制造2.0的新动态、以及基于云制造的制造业大数据相关的新技术、平台、系统及应用案例。

  • 16:10【机器学习与深度学习论坛】最后一位登场的是工信部赛迪顾问人工智能产业研究中心、副总经理向阳,他带来了《人工智能产业趋势和投融资分析》,向阳表示,随着机器学习的 快速发展,人工智能产业在历经60年的起伏之后,如今已经在全球范围形成新一轮的抢位发展 态势,发达国家纷纷吹响探索大脑奥秘的号角。中国的人工智能产业在全球浪潮推动下,也在 快速发展。赛迪顾问针对人工智能产业的大浪潮,提出了人工智能产业概念界定,并对产业链 进行了深度剖析。对全球和中国人工智能市场规模和结构进行了判断,并详细梳理了全国各省 市在人工智能领域的利好政策和具体举措。结合产业发展态势和技术热点演进,分析了各个细 分领域的价值热点。

  • 16:00【数据库论坛】美团点评高级技术专家赵应钢带来的分享主题为《美团点评数据库智能运维探索与实践》。他的分享主要包括三个层面:1、数据库平台的演变;2、现状和面临的挑战;3、从自动化到智能化。 对于数据库平台的演变,主要经历了脚本化、工具化、产品化、自助化、自动化阶段。这其中,传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求。随着数据库规模急速扩大,各种NewSQL系统上线使用,运维跟不上业务发展的矛盾暴露的更加明显。具体来说,挑战首先来自RootCause定位难,其次主要是来自人才和发展困境。因此,突破困境的办法就是转型智能化。对于如何转型智能化,他也分享了一些实践。最后,他也强调,数据库平台的运维将长期处于自助化、自动化、智能化的交叠前进状态。

  • 16:10【区块链分论坛】中国人民大学教师秦波分享了《浅析超大规模可管控数字货币的挑战与机遇》的主题报告。 比特币和相关类币的蓬勃发展促使各国开始重视超大规模可管控数字货币的研发。秦波回顾了数字货币的发展历程,解释了为什么要发行超大规模可管控数字货币,以及其面临的问题与挑战。 秦波表示,数字货币的安全性由密码学技术保护,难以伪造篡改,总体解决方案,以及发展趋势与展望。公钥密码学包括:签名算法、加密算法、Hash算法,及秘钥管理。数字货币利用区块链算法公开透明的优势建立各节点间的信任。 虽然数字货币的热度很高,但其也面临着很多问题与挑战,主要集中在:规模、安全、隐私、监管等问题。秦波说,全网共识机制限制了交易吞吐率,数字货币必须解决规模和性能问题。数字货币存在算法、协议、实现、使用等安全风险,这些问题给数字货币及区块链技术带来了巨大挑战。数字货币自身的跨域流通能力和隐私保护能力,削弱了国家货币的监察能力和全局的掌控能力,成为助长犯罪的帮凶。 秦波认为,未来大规模数字货币,通过与智能合约融合,可以从原料采集、材料制作、成品运输、售后的产品全生命周期的服务与监管,改变未来生活方式。数字货币作为一种能够轻松跨越国家间界限,实现直接交易的货币形式,能给“一带一路”的推行提供贸易环境。

  • 15:25【工业与制造业大数据论坛】浪潮通用软件有限公司数字化企业创新中心总经理王腾江,发表了《浪潮工业互联网平台引领企业创新应用》的主题演讲。据王腾江介绍,工业互联网正在引发信息技术与制造技术加速融合创新,并驱动制造业的智能化发展。随着工业互联网逐步走向应用部署,工业互联网平台作为海量异构工业数据集成与工业应用创新的重要载体,正成为新一轮产业竞争的核心。要帮助企业实现数字化转型这个目标,需要一个创新平台来支撑,能够集成业务流程、实现分析与预测,既能够做连接,也能够提供智能化的创新应用服务。 工业互联网通过构建连接机器、物料、人、信息系统的基础网络,实现工业数据的全面感知、动态传输、实时分析,形成科学决策与智能控制,提高制造资源配置效率,正成为领军企业竞争的新赛道。

  • 15:20【机器学习与深度学习论坛】ThoughtWorks中国区智能服务业务总经理史凯和ThoughtWorks CIES团队首席咨询师杨博则带来了《Deeplearning.Scala-开源深度学习框架 思考与实践》的演讲,史凯表示,人工智能的开发以前更多的是学术界的研究,而对于程序员 来说,如何把学术的东西带到工程中去是一个挑战。史凯表示,最早的数字化转型是流程驱动 ,而现在是数据驱动。而企业的数据战略则决定了企业是否能够更好的构建自己的业务,企业 需要跨领域的数据,看似没有关联的数据来更好的构建自己的业务。而人工智能、机器学习在 其中将起到非常重要的左右。而未来更好的帮助开发人员开发自己的人工智能,机器学习应用 ,ThoughtWorks开发了深度学习框架DeepLearning.scala。而杨博则具体就这个深度学习框 架进行了详细的介绍,杨博对比了该框架和其他深度学习框架,并介绍了scala的架构以及其在 实践中的应用。

  • 15:20【区块链分论坛】杭州趣链科技有限公司创始人、副总经理邱炜伟进行了《自主可控联盟区块链——技术、系统及应用》的主题分享。

  • 首先,她介绍区块链技术的发展背景,总结区块链的技术特征、功能特征、组织形式以及区块链技术的核心优势,分析了当前联盟链技术的难点,并针对高性能、高可用、安全隐私、可编程等关键技术的突破点阐述了相关核心算法。

  • 针对趣链联盟链平台系统架构、部署架构以及运维监控平台,邱炜伟做了详细的介绍。平台可以使用Kubernetes来支持基于Docker的容器化部署(可选),底层基础设施支持包括微软Azure等主流云计算服务,也支持脱离云平台直接在物理机上直接部署和使用。其原生高性能智能合约引擎沙箱,支持多种语言和业务规则变化时的无缝升级,支持包括国密体系在内的多级加密机制,具有动态成员管理的特性。

  • 最后,邱炜伟介绍了数字资产类和数字存症两类应用案例,其中包括多个国内知名银行和证券交易所,为相关单位节约了大量的传统票据成本。

  • 15:20【数据库论坛】阿里巴巴高级技术专家黄贵分享的主题为《X-DB: 阿里巴巴新一代自研分布式关系型数据库》。对于什么是X-DB,他表示,X-DB是阿里巴巴自研高性能分布式数据库,其愿景是成为世界最快、成本最低的OLTP数据库。对于设计理念,他介绍道,主要关注用户使用效率,全面兼容MySQL生态,其次,关注软硬件Co-Desion,充分发挥硬件效率。 另外,X-DB核心指标包括全面兼容MySQL生态体系;10倍的MySQL事务处理性能,百万TPS;MySQL 1/10的存储成本;集高可用、数据强一致、分布式、数据生命周期管理能力于一体。 在今年的双11中,X-DB也得到应用。在数据库弹性调度方面,通过存储计算分离和容器化技术,让数据库也具备了弹性调度的能力,阿里是业界第一个让数据库具备弹性调度能力。值得一提的是,X-DB让数据库突破地域的限制,可以跨AZ、甚至跨Region部署,在提供高性能的同时保证数据的强一致性。X-DB是业界第一个使用该技术支持双11如此大规模并发访问的数据库。

  • 14:50【工业与制造业大数据论坛】三一集团副总裁、上海华兴数字科技有限公司总经理袁爱进,发表了《华兴工业大数据的应用与实践》的主题演讲,主要包括,三一装备与特点介绍;需求驱动变革;工业大数据平台构成;工业大数据创新应用等四个方面。据袁爱进介绍,随着物联网和信息物理系统时代的来临,越来越多的数据可以被收集和分析,工业大数据也成为行业创新和转型的重要驱动力。上海华兴数字科技有限公司作为三一集团旗下公司,在工业大数据领域进行了多年的探索和创新,为三一集团打造了一套在经营实践中发挥了重要作用的工业大数据平台,积累了丰富的应用案例。本次报告将重点从实务角度出发,介绍华兴工业大数据平台的主要架构、应用方式以及未来的发展方向。

  • 14:40 【数据库论坛】微信技术架构部后台开发中心总监许家滔的演讲主题为《PaxosStore : 微信高可用分布式数据库架构》。他表示,PaxosStore是一个在跨园区数据中心间同步复制,提供灵活的数据模式和访问接口并支持单表亿行,具备快速伸缩能力,低延迟低成本,强一致和高可用的分布式存储系统。 其主要特点:1、极致的高可用,多主服务,通过无租约的Paxos实现;2、同一容灾、扩展框架下,支持多种插件化存储引擎;3、通过业务场景适配不同的存储引擎,达到高性能;4、快速伸缩能力,基于反馈的自适应迁移系统。 目前PaxosStore在微信内部广泛部署、数千台机器;每天数万亿的读写量、峰值1亿+/秒;PB级的结构化数据、全球多个数据中心。 接着,他对PaxosStore设计的功能介绍、可用性、可扩展性、存储引擎都详细作了分享,最后给出了案例。

  • 14:50【区块链分论坛】中科院软件所互联网金融技术研究中心特聘专家陈胜,目前专注于研究区块链核心组件架构以及区块链与传统应用的结合,在区块链分论坛分享了《RepChain-轻量许可链的实现和应用实践》的主题演讲。

  • RepChain采用响应式编程实现的许可链,它的最终目标是为企业级的区块链应用场景提供自主可控的基础组件,具有标准化、模块化、轻量化和可视化的特征,目前完成的POC原型代码仅有6000行。论坛上,陈胜介绍RepChain的设计理念、系统组成、系统特点以及实践过程中遇到的一些问题。

  • RepChain以工信部白皮书的分层模型,针对目标场景(非公有链),去掉了激励层,增加了API层和监控层。CFRD共识算法,类似于超级账本的锯齿湖的PoET算法,即在出块候选人中乐透的方式随机抽取出唯一出块人。PoET依赖特定硬件,而CFRD利用全网一致的随机种子抽签,无须协商、不依赖硬件。

  • 最后,陈胜播放了两个演示视频:一个是启动一个由5个节点组网成的TestNet,在账户之间进行资产转移;另一个,利用RepChain提供的API,搭建的一个跨终端的图片版权存证应用原型。

  • 14:05 【工业与制造业大数据论坛】北京涛思数据科技有限公司创始人&CEO陶建辉,发表了《工业大数据的基础:时序数据库的现状与未来》的主题演讲。在工业大数据时代,数据采集后被源源不断的发往云端,由于数据量巨大,并且人力、设备的运维成本不断攀升,工业大数据面临四个方面的挑战:不是单台计算机能处理的,必须能有scale out的能力;实时性的要求很高;必须做到软件在线升级、硬件热插拔,保证7*24小时不间断工作;维护、升级、扩容必须简单。但现有流行的关系型数据库同样存在问题,如扩容、升级不容易;需要专业的DBA维护;单点障碍,支持高可靠成本太高等等。而涛思数据研发的Tbase能够解决传统关系型数据库以及NoSQL数据库在时序空间数据处理上性能价格比低下的问题,大幅降低运营成本;采用标准的SQL接口,并将集群系统复杂的配置、维护、升级、扩容等工作智能化,大幅降低对研发和运维人员的要求。采用TBase,可以将典型的数据监测分析平台的整体成本降至现有的1/5。同样的硬件资源,系统处理能力和容量能增加五倍以上。

  • 14:40 【机器学习与深度学习论坛】更美社区及基础架构 负责人薛鹏飞则分享了《AI识颜——机器学习在医美行业的落地》,他在演讲中主要叙述了更美APP基于医美专家标记的大量图片数 据,应用机器学习的方法,为用户提供鼻子,眉毛,眼睛等五官和脸型的分类识别功能。并基 于此提供实时的双眼皮整形模拟效果功能,为想变美的用户带来全新的体验,提前感知变美后 的效果,给产品日活,使用时长等关键数据指标带来的增长效果。薛鹏飞介绍了AI读脸功能的 整体构架,技术方案,概述机器学习实现过程和应用的开源机器学习框架。在开发此功能过程 中遇到的训练集生成问题,训练数据准确标记问题,应用机器学习过程中特征向量选取,模型 方案设计过程中遇到的问题以及对应解决方案的探讨和研究,并对机器学习在更美其它社区产 品中的应用和展望做了介绍。

  • 14:00 【机器学习与深度学习论坛】旷视科技(Face++) 数据平台总监张驰紧接着登场,他的主 题演讲是《AI + 大数据,为场景重新赋能》,张驰首先介绍了大数据的前世今生,张弛表示, 2000多年前,先秦依据星象观察预测天气变化; 800多年前,刘伯温遍读古书,上知天文,下 知地理,算无遗策; 如今的我们,数据无处不在,在方方面面融入进我们的生活,漫长的大数 据发展史,不变的是数据的本质和价值,变化的是我们对数据的理解与应用。 而AI使数据无处 不在,AI为数据赋能,AI使我们对数据的认识更深了,机器所见即是数据;而AI+大数据+场景 将会为各传统行业赋能,张驰以众多实例对此进行了验证。但在此过程中如何保证数据的准确 性、如何处理数据的关联融合、运营手段带来的机器学习噪声、AI与大数据融合仍然需要人力 标注等都是AI与数据赋能的挑战。张弛最后对大数据的未来进行了展望,他表示,如何用AI手 段完成数据的融合是一个较大的挑战,而如果能够有一天做到机器所见即是数据,将会让机器 学习有更进一步的发展。

  • 14:00【数据库论坛】甲骨文(中国) 软件系统有限公司 中国区云平台数据专家事业部总经理李辉《Oracle数据库——赋能全生态, 智构云体验》。 他表示,Oracle RTD 的核心优势有:复合决策机制,基于预测模型(自动)和业务规则(人为控制)的复合推荐机制;2、电商支持,预置可扩展的电商推荐模型;3、适应互联网架构集群方式部署,为互联网应用特点设计,适应互联网架构的异步调用方式,提供毫秒级响应;4、开放性,可以调用R脚本提供外部数据挖掘模型支持可以纳入SAS等第三方数据挖掘工具的运算结果;5、管理分析功能,内置营销活动管理和营销分析功能。 最后对于RTD 场景特征,他总结如下:分类问题,实时决策,”决策-反馈”闭环,每次决策多种选项(Choices)。

  • 14:10【区块链分论坛】区块链技术经过过去几年的实践,已经演化到了新的阶段。以超级账本为代表的分布式账本技术考虑了来自企业的复杂场景需求。超级账本项目核心开发者,目前担任超级账本全球技术委员会委员(亚洲仅一人)、Oracle 区块链首席架构师的杨保华,在论坛中分享了《Blockchain to Distributed Ledger Technology》(译:从区块链到分布式账本技术)的报告,剖析了从区块链到分布式账本的技术演化,并以超级账本项目为例介绍企业商业网络在设计架构和应用中的挑战和需求。 杨保华认为,人类账本历史的第四阶段,就是区块链到分布式账本的阶段,比特币、以太坊(性能大幅度提升)、超级账本(企业级区块链)。区块链用新的理念解决了记账问题,实现了分布式的账本平台,同时解决了不同场景的应用问题。 最后,杨保华针对区块链和分布式数据库做了比较,他认为,区块链作为一个优雅的技术结构,可以给新型数据库的创新提供一些理念。

  • 13:20【数据库论坛】星环科技创始人,董事长孙元浩带来了主题为《大数据时代分布式数据库技术的演变和发展》的分享。他表示大数据时代数据处理的需求和特点:1、增量式的、几乎无限的扩展性,2、要求系统总是在线运行,3、灵活可动态改变的数据模型。之后,他介绍,在大数据场景下,数据库实现技术经历的三次变革,包括从:并行关系数据库到,MPP数据库,同时,他以星环的Inceptor分布式分析型数据库为例,介绍了如何实现大规模数据的复杂运算和分布式事务,如何优化数据库并完整通过TPC-DS测试。最后,对于大数据和容器云的结合,他也介绍了其几大核心优势。

  • 13:30【区块链分论坛】在互联网技术发展,新型应用层出不穷的大背景下,借鉴区块链在数字加密货币应用中的成功经验,探索可信数据管理的理论、技术,并设计、实现系统,是学术界和工业界所共同面临的重要问题。钱卫宁从可信数据库的角度,重新审视当前区块链系统中的多项核心技术,并从应用探索出发讨论区块链系统所需要的新特性。钱卫宁演讲的议题是《区块链的五张面孔:一种可信数据库的观点》,首先它诠释了议题中的五张面孔是什么,包括:最有名的数据结构,防篡改,去中心,完整性、FinTech。钱卫宁认为,区块链落地的需要更高、更快、更强,更复杂的应用,且能解决链上、链下之间的互动关联问题、溯源问题。在传统关系数据库系统中可以通过标记传播的方式记录数据,在区块链上,由于没有数据库的“当前状态”,还需要构建索引功能,避免扫描整链。

  • 13:25【工业与制造业大数据论坛】北方工业大学数据工程研究院院长、流数据集成与分析技术北京市重点实验室主任韩燕波,发表了《物联大数据驱动的智能服务:以工业设备诊断和预警为例》的主题演讲。韩燕波表示,能有效地感知和利用来自传感和设备、体现物理世界和人类社会生产生活实际状态的物联大数据标识着ICT技术的一个制高点。在不久的将来,泛在互联的世界里会有无数个软件“机器人”为人们提供服务,为人类捕捉、过滤、分析和融合各类信息和事件,通过深度关联大数据为我们提供趋势分析和研判,持续优化地提供决策依据和生成方案,紧要关头还能为我们迅速采取行动。这些智能体及其互联不仅能有效桥接物理世界和信息空间,更能够加速ICT系统和应用模式的优化和变革。本报告结合设备运行监控实例,浅析当中的传感数据服务化、传感设备虚拟化和数据溯源(Zoom-out和Zoom-in)、数据驱动的事件关联和自主路由以及智能服务库系统等一些关键环节。最后,韩燕波坦言,第三波服务计算就要来了。

  • 13:20【区块链分论坛】12月9日下午的区块链分论坛上,中国科学院软件研究所协同创新中心研究员薛云志开场致辞,中国人民大学信息学院副教授陈晋川作为主持人介绍论坛的嘉宾及议题亮点。

  • 13:20 【工业与制造业大数据论坛】在山东大学教授、博导刘士军的主持下,工业与制造业大数据论坛正式开始,将有来自北方工业大学、清华大学、三一重工、浪潮、航空航天大学、北京涛思数据等学界和产业界的技术专家为大家带来大数据在工业和制造业方面的最佳实践。

  • 13:20 【机器学习与深度学习论坛】下午,论坛继续进行,阿里巴巴资深技术专家杨旭在下午 第一个出场演讲,演讲题目是《机器学习算法平台实践》,杨旭首先介绍了阿里巴巴机器学习 平台PAI,并简单的介绍了PAI的架构,并介绍了阿里云内部的一些实践。杨旭表示,近几年, 机器学习平台获得了飞速发展,积累了大量高效的机器学习算法组件,基于这些组件可以快速 实现业务流程,解决具体问题。丰富的算法功能可以在线使用,不需要购买硬件,不需要安装 配置各种环境;数据和计算资源一直处在“在线”状态,不必担心数据太大或计算资源不足的 问题。 机器学习算法平台降低了用户使用机器学习、深度学习的门槛,将各个算法作为组件, 即使不了解其后面的理论知识,杨旭随后例举了几个机器学习算法平台应用的实例,用户可以 根据这些实例尝试新方法。

  • 11:55【数据科学与大数据技术教育分论坛】现在共享经济发展火爆,在教育生态中有什么资源是可以共享的呢?与会嘉宾和主持人也针对这个问题各自发表了看法。

  • 高等教育出版社理工事业部副主任张龙对此表示,共建生态其实是从学生入校到进入产业的一个链条,需要把不同机构的力量嵌入进来来助力发展。

  • 中科院计算所科研处副处长、研究员,CCF大数据专家委员会教育工作组召集人王元卓则认为关于生态方面的分享,最重要的是平衡各种新出现的一些技术模式和老技术模式中间的差异。需要在产教融合共享的生态中弥补短版,掌握好定位、师资力量、办学方向,同时与行业和领域产生好的互动,才是真正的良性生态。

  • 对于这个话题,对外经济贸易大学信息学院教授、信息化处副处长曹淑艳表示,目前的大数据人才培养模式还在不断探索,并不知道何为成熟,所以业界与学校是需要在不断磨合过程中推出精品才行,至于共享还是下一步要做的事情。

  • 接下来主持人具体对大数据领域教师如何培养,教师应该怎样发挥作用展开了深刻的探讨。关于教师的培养,中国软件行业协会副理事长、计算机类专业教指委副主任委员、北京大学软件学院创始院长陈钟阐释了我国由于产业发展导致人才供应的结构性的失衡的现状,对于高层次人才培养,很大的问题在于整个产业的分工,岗位的细分等方面并没有做好功课,这一点需要得到重视。

  • 对外经济贸易大学信息学院教授、信息化处副处长曹淑艳则表明,教学方法和教学方法改革问题,立足点在于用怎样具体的方法引领课堂,使学生更好的学习,这个层面是时候需要更上一个新台阶了。教学方法和手段的改革,需要多元化的手段引领课堂教学的进步与发展。

  • 12:15【数据库论坛】互联网给IT系统及支撑其的数据库系统带来了巨大的挑战和全新的需求,包括:(1)应用场景、数据格式多样化,单一类型的数据库产品难以同时满足所有应用需求;(2)随着移动互联网的普及,终端设备规模急剧增加,应用负载和数据规模成数量级的增长,远远超出传统数据库的处理能力;(3)云计算推动IT资源管理走向集约化、按需服务的方式,数据库必须具备弹性伸缩、自调整的能力以适应云的管理方式。人大金仓总裁任永杰通过《互联网时代的数据库挑战与发展、金仓数据库实践》的报告,探讨了数据库系统如何应对这些新的需求和挑战,并绍人大金仓数据库在互联网时代的主要实践。

  • 11:40【数据科学与大数据技术教育分论坛】关于实现在大数据的领域下产教融合共享生态的难点,中科院计算所科研处副处长,研究员,CCF大数据专家委员会教育工作组召集人王元卓认为,一些不太灵活的传统机制如何适应产教融合的灵活发展方式是我们需要解决的关键问题之一。 他认为企业加入肯定会对大数据的培养和教育带来新鲜血液,带来应用的数据,带来产经应用,为了企业专家与教育教学的体系能够更好的融合起来,多方在平台中需要摒弃固有的想法和思维模式,共同走在正确的教育教学的方向上。

  • 中国软件行业协会副理事长、计算机类专业教指委副主任委员、北京大学软件学院创始院长陈钟则认为,关于产教融合的具体做法,其实可以更多参照相对成熟的国家。

  • 对外经济贸易大学信息学院教授、信息化处副处长曹淑艳也表达了自己的看法。从微观的角度,曹淑艳表示一定要找可靠的、能够长久可持续发展的企业,做好人才培养这存在一个双双匹配的过程。

  • 关于新工科联盟助力产教融合方面的实践,高等教育出版社理工事业部副主任张龙认为其中最大的矛盾在企业有自己的利益,参与教育有着鲜明企业的利益诉求,怎么把利润诉求与高校人才培养结合起来,是个需要探讨的问题,在这个过程中,企业参与教学改革仍然要以高校为主导。

  • 11:40【精准医疗大数据论坛】天河”生命科学方向负责人、国家超级计算长沙中心副主任、华大基因研究院“特聘教授”、湖南大学岳麓学者特聘教授彭绍亮,发表了《医疗健康大数据驱动下的人工智能医生》的主题演讲。近年来国家大力推行分级诊疗制度,移动医疗,远程医疗方兴未艾。同时存在,三甲医院就诊人数密集,分导诊能有效提高医院运行效率;现有的分导诊简单粗暴、准确度差,病人满意程度低等问题。而建立临床医疗诊断辅助决策平台的主要目的之一就是提高医疗的安全性和诊疗质量,减少医疗差错,增加病人的就诊体验。目前基于天河超级计算机研发了有三个技术,智能化无人值守体征采集一体机(目前覆盖16大项,128个小项)、基于大数据的分导诊人工智能机器人、临床医疗诊断辅助决策平台。三种技术都是基于天河超级计算机和国家超级计算长沙中心进行大数据管理分析和人工智能模型计算的。目前系统已经在国内多家三甲医院部署和使用,挂号准确率提升到99%,降低患者挂号时间约25%,降低分导诊中心工作量40%。误诊率下降20%以上,处方有效率提升30%以上,看病时间减少80%以上。

  • 11:20 【推荐系统论坛】甲骨文中国区云平台数据专家事业部总经理李辉带来的分享主题为《Oracle大数据推荐系统案例分析》。 他表示,甲骨文其实是一家技术公司,现在专注在智能数据和云计算,Oracle的体系非常开放。甲骨文创新-强大云战略及智能数据技术包括:Oracle自治数据库、自带许可证使用Oracle PaaS(大幅降低客户高质量云使用成本)、通用储值 (大幅度提高灵活性)、Cloud@Customer、全数据、智能分析展现。 对于通用存储,他解释道,所有Oracle的PaaS和IaaS服务,只需要一个SKU,当然也包括分析和大数据以及所有的前置请求对应的云服务。所有云服务都可以按小时的计量单位进行计费,以小时为单位协商一个价目表,以便减少服务费用。使用什么云服务可以在使用时进行配置,而不需要在订购时进行事先指定。

  • 11:15【精准医疗大数据论坛】中国科学院微生物研究所研究员、中国科学院武汉病毒研究所研究员、中国科学院大学存济医学院教授刘翟,发表了《病原基因组学与进化》的主题演讲。传染病一直以来都是人类健康的重要威胁,据WHO统计每年全球有约1500万人因传染病丧生。病毒作为重要的传染病病原,由于其变异速率快、遗传与传播模式独特,经常会造成较大规模的暴发与流行。近年来,国际上相继出现了(禽)流感病毒、埃博拉病毒、中东呼吸综合征冠状病毒、寨卡病毒暴发等事件,严重影响公共卫生和全球经济的发展。明晰传染病病原的进化与传播规律是制定科学有效的传染病防控策略的必要前提,具有重要的科学价值和现实意义。相较于传统的病原学研究方法,基因组学和生物信息学能够更加快速的对于病毒的进化规律进行解析,成为病原研究的重要热点之一。此次分享主要围绕病毒进化与传播规律,利用病毒基因组学和生物信息学作为主要手段,面向禽流感病毒起源、进化模型、遗传变异和传播动力学等科学问题展开。主要揭示人感染H7N9禽流感病毒的起源、进化与传播规律;指明我国人感染禽流感频发的根源;解析了我国H5N6禽流感病毒的进化规律。通过研究以H7N9和H5N6为代表的禽流感病毒在我国的进化规律,指出了活禽市场与活禽交易是我国禽流感大面积流行的最主要原因,为传染病的精准防控提供了重要依据。

  • 11:20【数据科学与大数据技术教育分论坛】主题演讲暂时告一段落后,论坛进入新的高潮,以大数据方向下产教融合共享生态为主题的高端对话环节继续为与会观众带来更多干货。 本次高端对话环节由国软教育研究院执行院长邱钦伦担任主持人,参与对话的嘉宾分别是中国软件行业协会副理事长、计算机类专业教指委副主任委员、北京大学软件学院创始院长陈钟,中科院计算所科研处副处长,研究员,CCF大数据专家委员会教育工作组召集人王元卓,对外经济贸易大学信息学院教授、信息化处副处长曹淑艳等。

  • 11:15【数据库论坛】近年来,区块链技术备受关注。特别是2017年,几乎每个行业都在积极地探索区块链技术,渴望从中挖掘出新的运营模式和商机。“分享经济”作为当今火热的商业模式能够借力区块链技术,达到“信任”和“共享”,进而更迅速的发展吗?微软亚洲研究院主管研究员区块链负责人,微软Coco区块链中国负责人闫莺通过《区块链与共享经济》从数据库的角度:区块链是什么样的数据库?区块链与共享经济、共享数据库的隐私保护三方面,和参会者进行了分享。 首先,闫莺介绍了区块链的概念,它是一个安全可信、共享、分布式的账本,具备分布式+可信+共享的数据库,常见场景有金融、政府、医疗、零售等。 如何最大化利用先进的数据库技术?通过以太坊的智能合约,不同的场景用不同设计方案。公有链、联盟链的技术各有优缺点,不同信任的假设,将会产生不同的实施方案。

  • 11:00【机器学习与深度学习论坛】UCloud 互联网事业部 数据产品研发总监王冬冬上午最后 一个登场,他带来的主题演讲是《“CBA”(Cloud,Bigdata,AI)探索和实践》,王冬冬介 绍说,UCloud于今年年初提出了“CBA”(Cloud,Bigdata,AI)三位一体发展战略,并发 布了UAI(人工智能)系列产品,包含超高性价比GPU、UAI-Service、UAI-Train和安全屋等 AI产品。王冬冬首先介绍了UCloud在云计算方面的1机8卡的GPU云主机,接着介绍了UCloud 在大数据方面的实践,讲解了企业安全使用数据的平台-安全屋。最后,王冬冬介绍了AI产品, UAI Train,并讲解了UCloud在相关领域的应用实践。

  • 11:10【数据科学与大数据技术教育分论坛】在大数据这个学科领域中,怎样能够提供给老师和学生提供一种比较方便的手段来去提升他们认知改变实践的能力。 实验宝盒项目联合创始人、国软教育研究院副院长张广军在《便携式实验宝盒助力大数据教学》的演讲中表示,目前我们的学生在学习的时候,难以形成一个循序渐进的学习路径。在学习内容不是很完善的前提下,资源开放的平台和资源又非常多,但这些来源于网络的各种各样的资源都比较偏重于理论,与实践结合的地方很少,导致学习者看完、学完、听完后没有办法把这些东西在实践的过程重加以复原。 此外,在大数据学习的过程中,实验环境所所涉及的技术体系架构都在开源框架上,而且迭代速度很快,不同的版本相互之间有很多需要协调的地方,所以实验缓建搭建的困难,很多学生由于环境困难就会半途而废,没有耐心继续学习下去。 这样从老师的角度来说,就没有很好的实验环境分发给学生,做实验中遇到问题,学生在学习中得不到很好的效果,为了解决一系列的问题就需要辅助一些工具来解决。现场实验宝盒项目联合创始人、国软教育研究院副院长张广军还进行了实验宝盒的现场演示,引起了大量关注。

  • 10:50 【推荐系统论坛】腾讯社交与效果广告部分析系统组主管孔庆峰带来的分享主题为《下一代无损精准合约广告引擎》。他表示合约广告是广告主与广告平台签订合约,在约定时间段内,保证展示量次数,按CPM计费的广告形式 随后,他介绍了合约广告投放流程及技术难点,包括:选择投放区间、选择投放定向、选择广告位、询量、选定下单、锁量、上传素材。技术难点主要有四个方面:库存预估、库存分配、频次控制、求解速度。对于PivotEngine架构 – 大规模OLAP引擎,他也重点作了介绍。

  • 10:40 【精准医疗大数据论坛】军事科学医学院研究员伯晓晨,发表了《基于深度学习的人类基因组智能解读》的主题演讲,其内容主要分为四个部分:后基因组时代的挑战;DNA复制时间域的识别;增强子的识别;RNA编辑位点的识别。伯晓晨表示,人类基因组计划的完成开启了后基因组时代,而后基因组时代的一个重要任务是对基因组的解读,特别是对占人类基因组97%的非编码区的解读。ENCODE等后基因组大数据计划的实施为我们提供了大量用于解读人类基因组奥秘的多组学数据,但同时也对海量多组学数据人工分析提出了挑战。在此背景下,我们尝试采用多种机器学习方法来实现人类基因组的自动注释。针对DNA复制时间域的识别、增强子的识别和RNA编辑位点的识别三这个重要的基因组注释问题,我们基于已经实验验证的结果建立了多个机器学习模型,实现了高精度的基因组解读。根据机器解读的结果,我们进行了全基因组的预测,并通过对预测结果的分析揭示了许多有趣的生物学现象。我们的结果表明,基因组信息学正在进入智能时代,未来我们完全可以依靠人工智能来解读人类基因组这部“天书”。

  • 10:20【机器学习与深度学习论坛】 百度数据众包服务资深产品经理程敏第三个登场,她为与会嘉宾讲解了《人工智能领域数据处理解决方案》,程敏在演讲中说,大数据背景下,人工智 能飞速发展,对数据处理的需求越发强烈,而数据为人工智能技术的实现和人工智能应用的落 地提供了基础的后台保障。那么,如何获取和加工数据,人工智能基础数据就变成了目前的两大难题。接着,程敏介绍了百度众包如何通过方案、产品、技术,将非结构化的数据处理成机器可识别的有价值的数据,满足数据服务“质”“量”“速度”要求。

  • 10:55【数据科学与大数据技术教育分论坛】高等教育出版社理工事业部副主任张龙在主题为《新工科联盟助力大数据人才培养》中阐述了自己对大数据人才培养的相关理解。张龙表示,我们应该更好理解在新工科背景下面做什么?例如像机器人这样一个专业。 工业化的背景下,我们高等教育随着工业化的进展形成了学科体系和专业体系;现在信息经济社会背景下,这个学科体系和专业体系是不是适合人才的培养,适合经济发展,显然是否定的。现在强调跨接交叉融合,从适应服务到支持引领。我们希望目前工科培养不仅为当下经济社会发展提供服务还要考虑到下一个五年,下一个十年,我们需要什么样的人,高校要提前布局,为这样的人才提供支撑。 提到现在发展势头强劲的在线教育,张龙认为这是一个很宏大的课题。不光是课程本身,包括服务模式,叫做在线教育支撑工具,包括学习欢迎、线上线下的融合,需要将力量整合起来,完成生态环境建设。

  • 10:10 【精准医疗大数据论坛】军事医学科学院微生物流行病研究所研究员、教授、博士生导师童贻刚,发表了《利用微生物基因组测序大数据挖掘噬菌体暗物质信息》的主题演讲。据童贻刚介绍,伴随着高通量测序技术的快速发展,产出海量的基因组测序数据,这些数据中蕴含的信息可以从不同的角度反复挖掘。近年来微生物基因组测序数据也像其他测序数据一样指数增长,大量测序原始数据中有价值的信息等待再次挖掘,这其中就包含细菌的病毒——噬菌体的基因组信息。随着细菌对抗生素耐药问题的日益严重,噬菌体及噬菌体治疗逐渐成为生物医学研究的热点课题。噬菌体作为细菌的病毒,广泛存在于自然界的各种生境之中,其种类和数量远远大于细菌。噬菌体除了作为抗生素的补充和替代品之外,其丰富的基因资源可以广泛用于各行各业,包括分子生物学研究、药物递送载体、表面呈现技术、三代测序技术、电化学、材料科学等等。噬菌体基因组序列包好噬菌体全部遗传信息,是了解噬菌体、研究和应用噬菌体的基础。对噬菌体进行基因组测序涉及噬菌体的培养、富集、核酸提取、建库上机、全基因组序列拼接、基因的注释、溶原性的判别、基因组物理图谱分析等等。本实验室近年来进行了大量的噬菌体基因组高通量测序和生物信息学研究,对上述的问题形成了一整套解决方法,积累了丰富的经验,独创一种非常实用的利用深度测序大数据确定噬菌体基因组末端特性的方法,发现了多种噬菌体基因组末端的特性;同时建立了预测功能性前噬菌体的方法,可以从细菌基因组测序原始数据及裂解性噬菌体基因组测序数据中发现隐藏的功能性前噬菌体的完整基因组序列。

  • 10:40【数据库论坛】蚂蚁金服高级研究员阳振坤分享了《互联网时代的关系数据库实践》的主题演讲。“做数据库是个很苦逼的事情,客户问,你们的数据库会不会错?不会错。怎么证明?没法证明,只能用了才能证明。”用户的信任度很差,除此之外,更换代价大、风险高、收益小,客户缺乏更换数据库的动力。 过去几十年,关系数据库系统得到了迅速发展,支撑了金融、政府、通信、交通以及商业企业等的运行,成为了当今信息社会举足轻重的关键信息基础设施。然而,传统关系数据库系统不仅成本非常高昂,还缺乏伸缩能力,在互联网时代,由于并发量成百上千倍地增加,这些缺陷得到了成百上千倍的放大。 分布式关系数据库OceanBase是蚂蚁金服对传统关系数据库的上述缺陷的创新尝试,不仅在蚂蚁金服的包括交易、支付、帐务和会员等在内的核心系统中全面取代了传统商业数据库,支撑了蚂蚁金服2017年的双11,创造了每秒25.6万笔支付以及每秒处理4200万条SQL的世界记录,还开始在外部商业银行使用。

  • 10:20【推荐系统论坛】微博广告技术专家彭冬带来的是主题为《微博广告生态体系及核心架构》的分享。他今天的分享主要包括三个层面,第一是微博广告概述、第二是微博广告核心架构,第三是微博广告的案例和应用实践分享。 根据微博 2017第三季度财报,微博月活用户3.76亿,日活用户1.65亿,移动端占比92%,财务增长80%。 谈及微博广告产品体系特征,他表示主要有四个方面,1、Feed广告,国内信息流广告鼻祖,2、基于社交,转发,评论,赞,3、基于传播,二次传播、三次传播,强弱连接传播,4、粉丝关系,以粉丝为中心的产品体系。 紧接着,他还重点分享了微博广告产品的架构全景图。

  • 09:50【精准医疗大数据论坛】中国科学院上海生命科学研究院系统 生物学重点实验室执行主任、研究员陈洛南,发表了《精准医疗的网络标志物》的主题演讲。据陈洛南介绍,相当多的证据表明,在复杂疾病发展过程中,恶化发展并不是持续的而是突发的。在这里,我们开发了一个无模型的方法来检测这种关键转变(或未发生疾病)的早期预警信号,即使只有少量的样本。具体而言,我们从理论上推导出基于动态网络生物标志物(DNB)的指数,其作为一般性的预警信号,表明在临界转变发生之前即将突然恶化。基于理论分析表明,预测从小样本突然转变是可以实现的,前提是每个样本都有大量的测量数据,例如高通量数据。我们使用三种疾病的基因表达数据来证明我们的方法的有效性。DNB与疾病的相关性也通过相关的实验数据(例如肝癌,肺损伤,流感,2型糖尿病)和功能分析来验证。DNB也可以用于分析非线性生物学过程,例如细胞分化过程。实际上可通过网络来标志物来诊断疾病,网络标志物是更稳定的形态,由此希望医学上所有生物所用分子标志物都用网络标志物代替,陈洛南认为网络标志物对精准医学更有帮忙。

  • 10:15【数据科学与大数据技术教育分论坛】接下来,对外经济贸易大学信息学院教授、信息化处副处长曹淑艳向与会观众分享了关于《“数据科学与大数据技术”专业课程体系与教学环节探讨》的相关内容。分享中,曹淑艳认为目前大数据产业发展的情况,规模已经基本形成,现在更需要需要探索、研究、归纳、提炼出大数据产业核心要素,并有待于形成业界的共识, 大数据相关理论和技术,侧重对数据本身的洞察和理解相对而言独立于原有的业务系统,专注什么?应该着眼于系统里边的海量的复杂的多元数据分析和处理能力。它更依赖大数据处理平台和技术,能够很好支撑物联网移动物联网以及AI人工智能的应用和发展。

  • 10:20【数据库论坛】在大数据背景下,各个行业用户应用场景呈现出以数据为中心、多场景融合的特点,传统数据库无法完全支撑,IT系统建设多采用异构混搭架构,难于建设和维护,这对数据库平台提出了更多的要求。针对这些行业痛点,东方国信首席架构师金正皓为大会带来了《面向行业大数据需求的数据库系统新特性》的主题分享,结合XCloud DB在多个行业中的应用案例,介绍融合场景下数据库系统的新特性。 随着大数据技术的发展与企业需求的复杂化,构建统一支撑的企业级一体化大数据平台正成为未来发展趋势。企业经营下沉的场景要求企业数据中心的服务能力全面提升,企业为了激发基层单元活力,将经营下沉,构建面向划小单元的统一运营体系、精准数据服务、移动信息化平台、简易快速的营销服务能力的IT服务支撑。海量数据物理集中,面临高额的建设成本和海量数据上传网络压力的情况下,跨域分析计算带来的新机遇。在云计算中,通过XCloud DB可开放数据计算能力供租户内私有数据集市使用,实现跨域的统一元数据管理,跨域统一任务调度,分布式事务管理,网络安全传输,数据管理,任务协同等工作。 最后,金正浩认为,东方国信将依托行业需求,和自身的数据库技术能力,助力企业大数据能力体系提升,为企业提供大数据快速有效的解决方案。

  • 9:40【推荐系统论坛】接下里,奇虎360 机器学习专家刘炳源就《360智能推荐引擎服务:Recommender System as a Service》展开探讨。 刘炳源的分享主要集中在360智能工程中心已经做的,包括正在持续改进的一个产品360智能推荐引擎服务。他们希望将一个推荐系统作为云端的服务,让用户可以直接对接它的业务系统。他表示,实际做推荐系统的过程中,发现推荐其实是一个系统的工程,并不是说一个算法,或者一些开源的工具可以解决推荐的系统。首先,它存在大量的系统和框架的问题,其次,推荐系统非常依赖一些资深的专家,当然,它还需要一定充足的开发的周期,最后,就是当你这个推荐算法真正落到产品中,发挥这个效果还是存在差距。 基于此,360智能推荐引擎Phoenix便开始研发,其初衷是希望推荐系统是一个通用且完备的推荐引擎,可以实现实时在线模型的产出,包括最后的推荐算法,以及推荐展示,这样业务方可以专注于实现业务逻辑,包括快速的将一些开源的算法和论文来放到Phoenix系统上进行试验。

  • 9:40 【机器学习与深度学习论坛】香港浸会大学计算机科学系副教授褚晓文第二个演讲,他带 来了题为《基于GPU的性能建模与分布式深度学习框架评价》的演讲,褚晓文表示深度学习框 架已广泛部署在计算能力强大但价格昂贵的GPU服务器和集群上,这是因为目前GPU的算力可 以满足深度学习对于计算的越来越高的要求,而计算是深度学习的关键。但GPU虽然计算能力 很强,但内存的延迟和带宽瓶颈大大拖慢了计算的效率。因此在设计计算框架时,通常采用多 线程、内存Hierarchy、HBM等方式。褚晓文介绍了一个分析性能的Roofline Model,并介绍 了如何通过算法提升计算框架性能的方法,然后,褚晓文介绍了如何选择深度学习的硬件和软 件平台以及如何优化这些深度学习的框架,并比较了目前最先进的几个分布式深度学习框架, 即Caffe、CNTK,MXNet、Torch和TensorFlow在不同的硬件平台,包括单GPU,多GPU和 GPU集群的表现。然后介绍了三个流行的卷积神经算法:即矩阵计算、基于傅立叶变换的算法 和Winograd-base Convolution。最后,褚晓文介绍了他们的深度学习计算框架性能评价研究 。并认为,在GPU的性能飞速发展的情况下,IO的优化、通讯时间的缩短对提升计算框架的性 能非常关键。

  • 9:10【推荐系统论坛】第一位上台分享的嘉宾是来自微软亚洲研究院社会计算组资深研究员谢幸,他给我们带来的主题是《结合跨平台异构数据的推荐系统》。 他的分享主要包括,第一是如何结合跨平台的用户数据,这些用户数据很多都是异构的,尤其是来自知识图谱或者来自其他类型的数据,所以一方面,要关注如何去做跨平台的用户链接,另一方面也要非常注意用户隐私。从方法来说,怎么结合深度学习,以及和知识图谱之间结合到推荐系统里面来,另外,关注点是如何使得推荐结果是可解释的,如何跟用户心理特征会结合,所以这里面会涉及到心理学、社会学、脑科学这些领域的结合。

  • 9:10 【精准医疗大数据论坛】作为首个分享讲师,上海交通大学生命学院生物信息与生物统计系以及微生物代谢国家重点实验室长聘教授魏冬青,带来了《超级计算与精准新药发现》的主题演讲。魏冬青表示,基因突变包括单核苷酸多态性(SNP)、核苷酸序列重复、插入以及缺失等,其可能会引起编码蛋白的氨基酸序列改变,导致蛋白结构变化而影响活性,也有一些位于调控区的基因突变可能引起功能蛋白表达量的差异。现已发现多种编码药物代谢酶、转运蛋白以及作用靶点蛋白(如受体)的基因存在着基因多态性,其中药物代谢酶基因多态性可能影响到药物吸收、分布、代谢和排泄的药动学过程,导致患者出现严重毒性反应或治疗无效。 我们开发了分子模拟与计算机辅助药物设计软件SAMM,构建细胞色素P450酶多态性基因型-表型相关性数据库。把支持向量机,神经网络,贝叶斯等非线性方法开发了统计预测模型以及基于web的软件工具并应用到药物构效关系,药物代谢以及毒理和基因表型相关性的研究中。 开发了SNPs及ADMET 在线预测平台, 并将其应用到各种典型体系,对个性化药物用药有一定的指导意义。

  • 9:40【数据科学与大数据技术教育分论坛】首位上台进行主题分享的是中科院计算所科研处副处长、研究员,CCF大数据专家委员会教育工作组召集人王元卓。在《大数据教学与人才培养》的演讲中,他表示我国大数据人才缺口很大,2016年全国大数据人才其实仅有40多万,截止到2017年的12月大数据和相关分析,人工智能岗位人才的需求量已经比2016年同比要增长6倍还要多,数据类的岗位已经成为所有阶段公司的一个标配,大数据人才培养迫在眉睫。 关于大数据相关专业的人才培养的具体做法,我们需要建立健全多层次、多类型的大数据人才培养体系,同时鼓励采取学校联合跨学科的,大力的,具有统计技术,计算机技术和经济管理多学科知识跨界的复合型人才,这种人才培养的方向很关键。

  • 9:20【数据库论坛】犹他大学计算机系副教授,目前担任ACM TODS和IEEE副编辑的李飞飞,分享了《Towards Building Interactive and Online Analytical Systems》(译《建立互动和在线分析系统》)的主题分享。 支持大数据交互查询和分析,是许多数据驱动应用程序的重要需求,但在大数据时代,基于IO优化的外部存储器模型由于高时延不再有效。新系统(如Spark,Impala)将更依赖于商用集群的内存计算来提供横向扩展的交互式数据分析。在大时空数据的背景下,李飞飞提出的Simba系统,提供了一个集群上的可扩展和高效的内存分析。Simba扩展了Spark SQL引擎,通过SQL和DataFrame API(例如,空间连接,knn连接,轨迹)支持丰富的查询和分析语义。通过设计一个有效的查询优化器,利用其索引支持和查询优化。

  • 9:05【推荐系统论坛】今天上午的推荐系统论坛由太原理工大学,教授,博导王莉教授主持。

  • 9:00【推荐系统论坛】备受关注的推荐系统论坛在大数据技术大会的第三天拉开帷幕,上午9时,本场主席,AdMaster技术副总裁兼总架构师卢亿雷上台致辞,他表示,推荐系统论坛已经连续至少举办三届,可见火爆程度之高,今天来的各位讲师也是该领域的顶级专家,希望大家都能有所收获。

  • 9:00【机器学习与深度学习论坛】BDTC大会进入第三天,机器与深度学习论坛今天登场, 旷视科技(Face++) 高级产品总监敖翔首先登场演讲,他的演讲题目是《解密手机人脸解锁》, 敖翔表示,在智能手机诞生至今的10年间,我们见证了 ”手机解锁“ 从密码、图形锁、指纹 到人脸的进化过程。而在这次演讲中,敖翔首先介绍了人脸识别的发展历程,人脸识别的过程 :找人脸-活体判断-人脸对比,然后探讨了有关 ”人脸解锁“ 的几个热点问题:人脸与多种生 物识别方式的对比分析;手机上人脸识别的技术原理和演变历史;手机人脸解锁如何解决安全 性问题,特别是在防“活体攻击”上的面临的挑战:换脸、翻拍、假脸等攻击;敖翔介绍了支 付级活体识别技术:3D识别、材质识别和红外识别,敖翔最后总结道,手机刷脸技术的成熟, 将极大推进人脸识别在线上线下各场景的普及。

  • 9:05【精准医疗大数据论坛】BDTC 2017中国大数据技术大会进入第三天,与会者热情不减。精准医疗大数据论坛在国家超级计算长沙中心副主任彭绍亮的主持下正式开始,将有来自上海交通大学生命学院生物信息与生物统计、军事医学科学院微生物流行病研究所、中国科学院上海生命科学研究院、军事科学医学院、中国科学院微生物研究所以及智超医疗的学界和企业界专家带来非常精彩的医疗大数据干货分享。

  • 9:00【数据库论坛】华东师范大学副校长、数据科学与工程学院院长、教授、博士生导师周傲英作为数据库论坛主席,为整个论坛做了精彩的开篇综述。他从专业的角度阐述了什么是数据库,数据库的教训是什么,数据库基本理念是什么,互联网如何改变数据库的,为什么做这个论坛,实践给我们带来了什么启示,区块链在其中起到了什么作用,现时代数据库面临着哪些发展的机遇。

  • 9:05【数据科学与大数据技术教育分论坛】BDTC大会开幕第三天,以“产教融合——大数据驱动教育变革”为主题的数据科学与大数据技术教育分论坛正式开始。本论坛由中国软件行业协会副理事长、计算机类专业教指委副主任委员、北京大学软件学院创始院长陈钟主持,首先由主持人致欢迎词。陈钟表示在大数据火热发展的今天,针对数据科学和大数据技术教育展开一个深入的讨论是非常必要的。从不同的方向、不同领域观察怎样能够很更好完成数据科学的大数据技术的教育是一个亟待解决的问题。本次论坛安排了相关专家的主题分享与专业研讨,接下来中科院计算所科研处副处长、研究员,CCF大数据专家委员会教育工作组召集人王元卓、对外经济贸易大学信息学院教授、信息化处副处长曹淑艳、高等教育出版社理工事业部副主任张龙、CSDN创始人、极客帮基金创始合伙人蒋涛等会依次分享相关内容。

新浪微博 (#BDTC#)@CSDN云计算

12月7日 全体大会

美国犹他大学计算机学院副教授、2017中国大数据技术大会程序主席 李飞飞
中国计算机学会秘书长 杜子德
  华中科技大学教授、长江学者 特聘教授 金海
CCF大数据专家委员会副秘书长、北京永信至诚科技股份有限公司高级副总裁 潘柱廷 PPT
中国科学院院士、中国科学院信息技术科学部副主任、西安交通大学教授 徐宗本
2017 TOP 10大数据应用最佳实践案例获奖企业代表合影
ACM Fellow、美国芝加哥大学计算机系教授兼主任 Michael Franklin PPT
Panel环节,探讨大数据是否还是人工智能的基础? PPT
澳大利亚昆士兰大学教授 周晓方 PPT
微软亚洲研究院副院长、首席研究员 刘铁岩 PPT
华东师范大学数据科学与工程学院教授、博士生导师 钱卫宁 PPT
滴滴出行高级副总裁 章文嵩
中国科学院计算技术研究所副所长 陈熙霖 PPT
Panel环节,主持人与嘉宾合影留念
ACM Fellow、新加坡国立大学计算机科学系教授、VLDB基金会主席 Beng Chin Ooi
百度数据众包服务首席产品架构师 沈健 PPT
ACM Fellow、加拿大大数据科学研究中心主席、Simon Fraser大学计算机科学学院教授 Jian Pei PPT
普元信息CTO 焦烈焱
 科大讯飞大数据研究院执行院长 谭昶 PPT
  国家超级计算长沙中心副主任 彭绍亮
中国移动苏州研发中心大数据产品部副总经理 齐骥

12月8日 专题论坛

大数据分析与生态系统论坛

金融大数据论坛

大数据云服务论坛

知识图谱论坛

大数据安全与政策法规论坛

交通与旅游大数据论坛

金融级分布式架构专场

TOP 10大数据应用最佳案例实践

12月9日 专题论坛

机器学习与深度学习论坛

数据库论坛

华东师范大学副校长、数据科学与工程学院院长 周傲英
  美国犹他大学计算机系副教授 李飞飞 PPT
东方国信首席架构师 金正皓
蚂蚁金服高级研究员 阳振坤
微软亚洲研究院主管研究员区块链负责人 闫莺
人大金仓总裁 任永杰
星环科技创始人、董事长 孙元浩
 甲骨文(中国) 软件系统有限公司中国区云平台数据专家事业部总经理 李辉
微信技术架构部后台开发中心总监 许家滔
阿里巴巴高级技术专家 黄贵
美团点评高级技术专家 赵应钢
滴滴出行数据库开发团队负责人 黄欣
华东师范大学数据科学与工程学院教授 周烜

推荐系统论坛

区块链论坛

精准医疗大数据论坛

工业与制造业大数据论坛

数据科学与大数据技术教育分论坛

大会亮点

大会展区

SequoiaDB巨杉数据库
百度数据众包平台
北京东方国信
星环科技
中兴通讯股份有限公司
北京明略软件系统有限公司

大会日程