• BDTC 2016中国大数据技术大会圆满落幕

    2016年12月8日,作为大数据领域规模最大、最具影响力的IT盛会,2016中国大数据技术大会(Big Data Technology Conference 2016,BDTC 2016)在北京新云南皇冠假日酒店盛大开幕。本次大会历时三天,以更加国际化的视野,邀请众多国内外大数据专家齐聚一堂,从政策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,与往届相比,本届大会更关注行业应用最佳实践,突出应用和数据的深度融合,并首次将人工智能、高性能计算等热点话题引入大会,作为大数据产业界、科技界与政府部门密切合作的重要平台,本届大会吸引了数千名大数据技术从业者与技术专家到场参会。

图文实录

  • 12月8日
  • 12月9日
  • 12月10日
  • 17:30【大数据分析与生态系统论坛】Apache HAWQ创始人,乐我科技CEO常雷在演讲中首先介绍了传统企业数据平台面临的问题与挑战:1.意识到数据的重要性,但是还在艰难的摸索充分利用数据的方法;2.实现分析型应用的周期过长:1年或者更久;3.传统解决方案非常昂贵,性能及可扩展性不能满足需求,发布周期很长;4.开始尝试一些新技术,安装了Hadoop系统,但是管理和开发应用很复杂;5.服务响应很慢,往往几个月才能解决一个碰到的Bug;6.与新平台新技术的结合(Docker/PaaS云平台)。
      随后,常雷回顾了数据平台的演进路线的三个阶段:最早的“传统BI分析”时代,往往采用小型机或一体机的专有硬件平台,面向传统BI分析,系统缺乏弹性,资源固定,不易调整,很难支持突发的应用需求或密集复杂的计算需求,成本居高不下;到了“大数据&BI分析分析”阶段,大量采用工业标准的X86服务器;面向大数据和传统BI分析可以支持密集、复杂的计算需求,但需要一定时间,开始有效控制成本;到了(云平台大数据& BI分析)阶段,基于以Kubenates为代表的PaaS云平台;根据工作负载弹性伸缩,灵活配置,按需分配资源,可以快速支持突发的应用需求或密集、复杂的计算需求,如:沙盘演练、机器学习、大视频处理等,总拥有成本最低。
      最后,常雷介绍了HAWQ-DB,可兼容ANSI-SQL标准的高性能原生Hadoop MPP++分析型数据库。原生支持PaaS云平台,提供对Hadoop上PB级数据的高性能交互式查询能力,提供对主要BI工具的描述性分析支持,支持预测型分析的机器学习库。 [详情]

  • 17:20【推荐系统论坛】阿里巴巴算法专家郑重带来了《阿里云推荐引擎》主题分享。郑重先生表示,一般说到大数据,我们会说到三个字:存、通、用。在现场,郑重先生首先介绍了推荐的历史、搜索引擎、在线广告系统、以及推荐系统。针对概念抽象的过程,郑重先生介绍了数据抽象和规范:对用户、物品、行为进行抽象,遵循格式规范以及埋点规范。并从业务、场景、算法流程三个方面对产品概念的抽象进行解读。最后,郑重先生向与会者介绍了阿里云推荐引擎的架构,并就一些常见问题提出行业解决方案。 [详情]

  • 17:10【大数据分析与生态系统论坛】云账户联合创始人兼CTO邹永强分享了主题为《金融SaaS实战:云账户钱包SDK的技术挑战与解决》演讲。据邹永强介绍,云账户钱包SDK提供红包SDK和结算SaaS,解决五大挑战:1.为保障金融产品的可靠性与一致性,通过状态定义和事务处理;2.为提升并发性能,采用了请求分区、轻重分离、削峰填谷的架构设计,以及Golang实现;3.安全层面,提供网络安全、金融安全、业务安全,并形成红包和结算的独特风控机制;4.对数据处理和运营,借助日志收集系统,完成统计、流水和对账,提供日志搜索;5.对SDK产品解决集成、升级、机型兼容、调试等挑战,并集成至五大IM SDK以简化集成。 [详情]

  • 16:5016:50【推荐系统论坛】百度高级研发工程师秦铎浩致力于百度内部机器学习平台大规模机器学习算法的研发,其分享了《百度大规模推荐系统实践》的演讲。秦铎浩首先介绍了百度机器学习开放平台历程,百度内部有非常多的系统都在使用BML的推荐算法,为业务效果带来了非常大的提升。在推荐系统的构建过程中,针对海量数据的推荐系统的训练是非常困难的。秦铎浩介绍了常用的推荐算法使用以及背景, 涉及的核心技术难点与解决方法,以及下一代推荐系统的未来发展趋势。 [详情]

  • 16:40【高性能计算与大数据的融合论坛】国家超级计算天津中心主任助理、应用研发部部长孟祥飞分享的主题为《应用驱动的超级计算与大数据融合平台建设》。
      他首先介绍了天河一号的三大技术创新:CPU+GPU异构融合体系结构、64位多核多线程自主飞腾1000 CPU、自主高速互连通信技术。随后,他分享了“天河一号”系统的使用情况,他表示目前稳定运行服务,到2015年使用率已经超过90%,进入饱和运行状态,并发运行的作业数达到1200余个,服务国家重大重点科研项目超过1000个。支撑完成包括Nature、Science等研究、知识产权成果超过1500项。
      对于大数据和超级计算、云计算融合,他表示对于规划,他强调首先需要通过云计算虚拟与集成技术实现大数据的采集与应用服务,其次,通过高性能计算解决计算密集需求,并配合数据挖掘算法实现大数据的分析处理,另外,需要通过层次式动态可扩展存储系统实现海量数据的高效存储。 [详情]

  • 16:40【大数据安全与隐私保护论坛】观数科技总裁、CEO李科发表了《大数据基础组建的安全解决方案》主题演讲。Hadoop 生态圈和Spark 生态圈是两大大数据基础框架生态,但都存在不安全的地方。不过无论是Hadoop还是Spark都可以使用DAF ACL来进行防护,DAF ACL里包含用户、文件、数据、OP,运行自主研发的一套系统。除此之外,李科表示kafka、Strom、Solr、Hive等平台也都存在安全漏洞,但这些平台DAF尚未涉及。目前Big DAF在性能、兼容性、安全性和易用性方面有技术难点。 [详情]

  • 16:30【大数据分析与生态系统论坛】DataTorrent高级工程师,Apache Apex PMC 华思远分享了《下一代实时数据处理引擎——Apache Apex项目介绍及应用》演讲。华思远表示,Apache Apex是一个用Java开发的开源流数据处理平台,Apex从一开始就关注海量处理能力、高吞吐、低延时、高可用性,它的设计和架构也使其可以同时适用于实时数据处理和批处理。如今已经被部署在很多大公司的关键数据处理应用上。此外,华思远介绍了如何用Apex的一些高级的Partition特性来实现高扩展性,如何按需分配资源,如何实现容错,如何保证数据只处理一次等。最后他还展示了Apex在具体生产环境中的一些应用,Apex现在正在开发的特性以及将来的路线图。 [详情]

  • 16:10【高性能计算与大数据的融合论坛】商汤集团研发执行总监林倞发表《深度学习的基础架构:从算法创新到生产力的助推器》主题演讲。本次议题林倞主要针对神经网络深度学习的系统,及需要怎么样的基础架构来快速实现算法放到产品级的研发上去。目前主要从事算法到产品研发的工作,如人脸识别技术,当下大家经常用到的美颜功能就是林倞团队提供的技术,包括新浪微博、小米手机相册等等。人脸属性特征分析,活体检测,一般图像识别,这都是基于移动互联网技术,如大规模搜索等。而今年在做的是视频结构化分析,针对视频内容快速解析,对人车物还是场景进行快速识别,进行结构化理解存储到数据库中,这样使得数据能够快速地检索快速查询以及比对,避免海量数据视频数据尤其是视频数据无法利用的困境。 [详情]

  • 16:10【大数据安全与隐私保护论坛】北京数字观星科技有限公司CTO孙荣华发表了《大数据平台应用实践&安全运营》主题演讲。大数据平台与传统数据库一样存在安全隐患,比如Mysql CVE-2012-2122利用认证漏洞绕过密码登陆,Oracle CVE-2006-2081利用内置函数(DBMS_EXPORT_EXTENSION)进行提权,获取DBA权限,再利用UDF执行系统命令等。这主要是因为大数据技术更新很快,造成安全关注度不够。大数据平台的安全运营需要整合多维数据,企业多维度安全数据包括威胁数据,开放服务数据,漏洞数据,日志数据等等。看清企业资产,多维度全面监控,快速响应用数据说话是企业安全运营中需要注意的几点。 [详情]

  • 16:00【推荐系统论坛】 Admaster架构师刘喆带来了《基于图算法的跨设备受众识别》主题分享。刘喆针对当前一人多机,且没有账号体系的问题,给出了AdMaster的解决方案:每次取15天的访问数据;同一天,同一IP,找出cookie和device,做笛卡尔乘积、形成对(pair);为每一“对”生成特征向量;根据已知数据,对特征向量训练,生成模型;把模型应用到新的“对”,根据可信度,取可信的“对”;用这些“对”生成森林,每棵树指代一个人。 [详情]

  • 16:00【大数据分析与生态系统论坛】中兴飞流信息科技有限公司CTO郑龙分享了主题为《Yita:基于数据流的大数据计算引擎》演讲。他首先谈到了基于数据流的Yita系统和传统控制流大数据系统的差异,在编程模型、处理模式、并行模式上都有大幅差异和更新。据郑龙介绍,Yita大数据处理平台流性能要优于Storm,批处理性能优于Spark,兼容Hadoop生态系统,既可作为加速模块,亦可独立支撑业务。适用的业务场景包括了视频分析、用户关联分析、推荐系统、智能运维根因分析等多个领域。对于即将发布的Yita V1.1版,郑龙透露将包含机器学习算法库等多项功能。 [详情]

  • 15:40【推荐系统论坛】360商业化产品事业部数据架构高级工程师朱广彬,带来了《360聚效广告大数据平台实践》主题演讲。计算广告是一门以计算驱动广告的学科,相对于传统广告而言,计算广告能够做到千人千面,可以针对不同用户的需求向其发送特定的广告,以提升用户转化率。朱广彬介绍360聚效广告大数据处理平台在实践过程中的演进与实践经验,包括在应对数据量从几十亿到近200亿的快速增长过程中数据平台的应对措施,以及如何提高实时性和投放准确性的算法实践。 [详情]

  • 15:30【高性能计算与大数据的融合论坛】数学工程与先进计算国家重点实验室研究员斯雪明带来的分享主题是《SKA科学数据处理中方联盟研究进展》。
      他首先介绍了SKA的背景, Square Kilometer Array是综合孔径射电望远镜,作为超大型国际科研合作项目,建成后,人类探索宇宙的能力将得到根本性的提高。SDP(Science Data Processor)科学数据处理是SKA的关键环节。他随后重点介绍了SKA的架构和计算类型以及COTS 工作进展做了详细的介绍。 [详情]

  • 15:30【大数据安全与隐私保护论坛】明朝万达首席科学家喻波发表了《构建可信、可管、可控的大数据安全运行环境——大数据视野下的数据安全防护体系探索》主题演讲。大数据面临的挑战包括:数据量大,安全管理成本上升;数据管理类型多,安全防护难度增加;处理速度块,要求安全手段效率要求高。数据全生命周期的安全防护体系要求可信,可管和可控。可信是指用户可控,应用可控和节点可信。可管是指访问行为,数据使用,数据加密,存储行为,数据使用的可管。可控则包括可知(采集大数据环境运行过程的各类信息),可视(直观展示大数据环境的运行状态及安全风险),可控(通过各类型配置与安全手段联动,实现及时的管控)。 [详情]

  • 15:30【大数据分析与生态系统论坛】百度基础架构部分布式计算架构师黄鑫分享了主题为《百度大数据离 线计算平台发展历程》的精彩演讲。他重点介绍了百度统一分布式计算API-Bigflow,不仅采用了分布式可嵌套数据集(NDD)模型,相比于业界同类系统抽象程度更高,而且对接了多种计算引擎,包括批量引擎、迭代引擎、流式引擎,方便用户切换执行引擎。此外,由于完成了许多优化策略,使得Bigflow可以高效运行。目前通过在线上大规模验证,Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标。此外,黄鑫还介绍了百度离线计算引擎DCE,DCE基于分布式计算,支持各种实际业务需求所定制的交互方式,比如各类数据的优化,比老的Shuffle效率高很多。 [详情]

  • 15:00【高性能计算与大数据的融合论坛】PerfXLab澎峰科技联合创始人张先轶发表《ARM嵌入式系统的DNN性能优化》主题演讲。张先轶介绍,目前主要从事三个方面的工作,首先是深度学习,包括服务器+嵌入式终端,框架:PerfNet(基于mxnet)和性能库:PerfDNN;其次是PerfCV,基于CV类功能(cvt_color,resize);最后是对OpenBLAS的介绍。张先轶首先为我们介绍了什么是BLAS,即Basic Linear Algebra Subprograms,基本线性代数子程序,包括BLAS3级:矩阵-矩阵,BLAS2级:矩阵-向量,BLAS1级:向量-向量。OpenBLAS几乎支持所有主流的CPU处理器和常见的操作系统,兼容性很高。BLAS性能优化流派支持自动调优和手工核心汇编。 [详情]

  • 15:00【推荐系统】中国科学技术大学计算机学院副院长陈恩红,分享了《领域知识驱动的个性化推荐方法》。随着大数据向金融、教育等诸多领域的拓展,用户行为与认知、情境等新兴要素相互耦合,传统推荐技术已逐渐难以有效应对。陈恩红从基于认知的教学个性化推荐、情景感知的移动用户推荐、金融领域带风险约束的推荐、结合社交因素的用户推荐,这四个维度介绍了介绍其在领域知识驱动的个性化推荐方法问题上的相关工作和实践。陈恩红总结,面对不同领域独特的应用场景,泛化的模型结果难以满足用户的需求,通过结合各行业独特的领域知识,构建适用于不同领域下的推荐系统。 [详情]

  • 14:50【大数据分析与生态系统论坛】中国移动苏州研发中心高级研发工程师陶捷首先介绍了苏研的研究方向,聚焦大数据的技术研究及产品研发,基于开源Hadoop软件面向公司内外提供DaaS、PaaS和SaaS服务,提供统一的运营管理平台。他的演讲分为三部分:1.Slider on YARN;2.Jenkins in Docker on YARN;3.未来规划和展望。陶捷认为,Slider有几个方面的优势,首选是支持新应用成本低,提供资源管理和隔离,可实现应用的自动恢复,支持同一集群内多应用实例。但仍有不少缺陷,例如客户端单一,仅提供了Shell CLI;服务发现机制不够友好;应用的监控、日志管理功能、应用配置管理薄弱;应用访问本地数据问题等。
      关于YARN上运行Docker,陶捷比较了三种不同方案的差异。方案一:DistributedShell,分发Shell脚本到各个节点,Shell脚本启动和维护Docker实例。这种方案逻辑简单,但对Docker的管理弱,缺乏监控、日志等功能。
      方案二,DockerContainerExecutor:通过DockerContainerExecutor启动MapReduce任务,MR任务运行在Docker中,并负责与外界交互逻辑。这种方案具有一定Docker管理能力,主要支持MR计算框架。
      方案三,Docker on Slider:由Slider负责管理Docker,这种方案适合长时服务,但只能支持已有应用。 [详情]

  • 14:50【大数据安全与隐私保护论坛】北京三未信安科技发展有限公司技术总监鹿淑煜发表了《大数据安全中的云密码技术实践》主题演讲。鹿淑煜表示:密码技术是保护数据安全的核心手段。传统的云密码技术有局限性,而且云中的新场景具有新特点,因此需要使用云密码技术而不能使用传统密码。常见的密钥管理模型有三种:AWS KMS,PKCS#11、EKM和KMIP。 大数据平台的密钥管理拥有以下几个特点:统一的密钥管理策略;系统范围内的密钥联动;密钥的版本维护(更新及恢复);统一进行审计;密钥管理的权责分离;可随时获取的密钥服务。 [详情]

  • 14:20【大数据安全与隐私保护论坛】北京安天信息技术有限责任公司研发副总裁王小丰发表了《安天使用态势感知技术保护大数据安全的实践分享》主题演讲。态势感知的本质是态势觉察,态势理解,态势应用/预测的组合,态势感知的关键技术有三点。第一,要素采集和分析输出的深度。从需求分析的视角,看待检测&提取时的深度需求。第二,风险研判&分析。主要有两种流程:数据—情报—风险—响应或者追踪—追溯—响应。第三,业务化的态势呈现。最后王小丰分享了在全域感知,融合防御,内外部综合态势感知等方面的一些实践。 [详情]

  • 14:10【大数据分析与生态系统论坛】Facebook工程经理金昀分享了主题为《Facebook计算和存储分离的分布式计算平台》演讲。据金昀介绍,Facebook的数据仓库建立在以Hadoop为核心的基础架构上,大量采用开源软件开发的应用系统,离线计算通过HDFS来处理,很多流式计算技术和Kafka非常接近。从业务场景方面看,实时计算要求越来越高,近两年来Facebook花了很大精力去提高和实现流式计算能力。但从目前来看,大部分比例计算还是用于Hive,主要聚焦在Hadoop和HDFS的实现。在谈到计算存储的分离时,金昀重点介绍了Warm Storage存储系统,它是Facebook开发用来替换HDFS的分布式存储系统。 [详情]

  • 14:10【高性能计算与大数据的融合论坛】清华大学教授陈文光带来的分享主题为《Gemini:基于图计算的高性能大数据分析系统》。
      他表示spark在数据模型层面的局限性主要是每次细粒度的数据更新,由于spark基于粗粒度RDD只读的数据对象模型,需要RDD变换,即有大量数据的复制,导致处理效率不高。实现层面的局限性主要是Spark基于Scala语言,运行在JVM上;内存表示冗余,占用内存大;内存分配与回收开销大。
      而图计算,作为折衷的大数据分析平台,可以解决上述挑战。他重点介绍了分布式图计算系统Gemini。1.在高效性的基础上支持扩展性,避免没有必要的“分布式”副作用,优化图的划分与计算。2.设计理念的变化:以计算性能为中心的分布式系统,分布式系统有快速的通信网络,计算可以与通信重叠;效率优化,自适应push-pull转换,层次化的分块划分;扩展性优化,局部性感知的分块,基于分块的任务窃取。 [详情]

  • 14:00【推荐系统论坛】 武汉飔拓董事长、首席技术官李成华先生带来了《深度学习在自然语言处理中的应用》主题演讲。在现场,李成华先生深入浅出地为大家详细讲解了什么是自然语言、NLP的应用、自然语言处理的层次、语义与语用、内容层的信息处理等知识点。并就“机器人能够理解人的语言吗”这个问题,阐述了理解自然语言的准则、自动分词、分词歧义、词义消歧等内容。接着,李成华先生为大家讲解了深度学习的发展历程以及几种常见模型,并讲解了一个word2vec的实战案例。 [详情]

  • 13:40【大数据安全与隐私保护论坛】360企业安全集团战略研究主任鲍旭华发表了《大数据安全保护》主题演讲。世界各地的信息泄露事件层出不穷,那么为什么会出现数据安全威胁呢?鲍旭华表示这是因为大数据版图的分化,巨大的利益诱惑以及复杂的生态体系。大数据安全体系狭义上可以分为大数据生命周期安全和大数据信息系统安全。广义上又可以分为信息隐私,数据安全,信任机制和系统防护,每一部分都需要相应的保护机制。最后鲍旭华通过数据源可信验证以及大流量数据安全传输密码技术等几个案例讲述了大数据安全防护的方法。 [详情]

  • 13:33【高性能计算与大数据的融合论坛】华中科技大学教授金海发表《大数据时代的新型计算机系统结构》主题演讲。金海以双十一的交易额引入,指明大数据不只是数量大,而且增长速度快、处理时效高、安全性要求高等等。因此,本次分享金海主要分为两个方面做讲解,即内存计算及其国际动态和内存计算方面的实践。金海表示,基于DRAM的内存计算模式面临四方面挑战:DRAM介质易失性,DRAM介质存储密度低,DRAM功耗高和内存子系统成本高。基于DRAM以上问题,非易失存储技术逐渐兴起,并且新型存储介质的性能不断逼近传统DRAM。
      新型存储级内存(SCM)为内存计算带来曙光,它具备以下优点:可按字节寻址、持久存储,断电数据不丢失、比NAND Flash读写快1000倍,读延迟接近DRAM,写延迟高1倍、耐久性比NAND Flash高1000倍,但存在写寿命上限、存储密度比NAND flash高1000倍,比DRAM高一个数量级、静态功耗接近“零”。混合内存架构给软硬件生态系统带来巨大冲击,首先是体系结构,其次是操作系统,再次是数据组织,最后则是编程模型。
      最后,金海也为我们做了总结,即内存计算是大数据时代解决大数据处理时效性的有效手段。值得重点研究的关键机理包括三个方面:首先,面向大数据处理的异构层次内存的协同组织模式研究;其次,基于内存计算的大数据低能耗处理环境研究;最后,基于内存计算的大数据高效并行处理机制研究。 [详情]

  • 13:30【推荐系统】一点资讯大数据技术总监田超,分享了《一点资讯大规模实时点击反馈平台设计与实践》的主题演讲。实时获取和发现海量用户精准兴趣是一点资讯兴趣引擎的核心能力之一,田超介绍一点资讯兴趣引擎背后的技术,一点资讯大规模实时点击反馈平台——Neo的设计与实践,以及设计过程中面临的问题和挑战。该平台作为基础设施,是支撑包括实时用户画像、实时数据分析、大规模在线学习、实时广告统计等业务的基础平台。田超列举了设计过程中面的五大问题:对近似的pipeline统一、实时计算与离线计算如何统一、数据的变化如何追踪与Debug、线上高性能存储引擎、如何监控与维护,并详细给出了一点资讯的解决方案。 [详情]

  • 13:30【高性能计算与大数据的融合论坛】下午高性能计算与大数据的融合论坛正式开始,来自中国科学院计算技术研究所研究员张云泉主持本场论坛。 [详情]

  • 13:20【大数据安全与隐私保护论坛】大数据安全与隐私保护论坛在炼石网络创始人、CEO白小勇的主持下正式开始。白小勇老师讲述了自己的创业经历以及对大数据安全的思考,并对今天的所有演讲嘉宾进行了介绍并表示欢迎。 [详情]

  • 12:00【工业与制造业大数据】宝信软件大数据事业部副总经理李一名,分享了《工业大数据的落地选择与分析实践》的主题演讲。李一名认为,现在工业大数据的概念被过度泛化,对大多数制造企业而言,除了关注战略方面的考量外,要想达到一点带面的实际应用效果。大数据需要附着于业务、专注于核心和盈利领域、自动化决策未来,才能进入良性循环。李一名通过亲历的工业大数据应用成功和失败的实践案例,提出工业大数据在制造企业落地的实施建议和演进路径。通过定位不同制造企业、不同业务领域当前所处的阶段,也将有利于制造企业制定符合自身特定的工业大数据应用策略。 [详情]

  • 11:50【大数据分析与生态系统论坛】PayPal数据科学家张彭善在《分布式机器学习算法在PayPal风险控制部门的实践》主题演讲分享了PayPal在欺诈领域所做的技术实践,主要包括三大部分:机器学习的应用场景,通过机器学习构建管道并应用到实际交易中及系统优化经验。首先是机器学习模型,它在反欺诈中扮演着越来越重要的角色,已经超过50%的欺诈都是通过模型抓到的。构建这样的模型最关键点是如何构建数据仓库,及如何构建特征工程。构建特征工程时,PayPal基于Sensitivity Analysis开发了特征选择流程。 [详情]

  • 11:50【交通与旅游大数据论坛】携程大数据平台总监张翼发表了《携程Spark算法平台及其应用》主题演讲。张翼首先介绍了携程Spark平台的的四大功能模块,分别为模型训练,模块定制,训练结果导出以及线上服务的开发支持。技术选型方面,选择Docker和Zeppelin的原因是:Mesos提供了方便的资源管理的功能,同时也能提供简便的应用管理的功能,而Zeppelin提供了一个Spark交互执行的引擎。接着张翼进行了技术经验分享,包括Python代码模块的加入,Spark资源的释放以及XGBoost模块加入过程中的一些问题。最后张翼讲述了携程算法平台未来的发展方向。 [详情]

  • 11:40【网络与通讯大数据论坛】华为电信软件大数据产品部首席数据科学家张旭发表《电信时空数据在客户洞察中应用》主题演讲。本次议题分为四个方面:全时空数据助力360°客户洞察,群分析Look-alike关键技术,时空观察关键技术以及最后的demo演示及成功案例的介绍。客户洞察如何支撑数字化运营?张旭表示从末端来看,数字化运营所有以客户为视角的业务需求、场景的商业目标均可划分为两大方向:提升客户体验及提高企业收入。两个方向上应采取不同的洞察思路客户洞察分两个层面:个体洞察:服务细化到每个客户个体(个体粒度);群体洞察:仅关注具体某特定群体(群体粒度)。两个层面的洞察对应不同思路的建模。
      Look-alike在电信领域应用广泛,它通过一种有效的方式为”物”找“人”(targeting),在各领域都有广泛应用前景。全时空洞察应用整体视图,是接入用户全时空行为数据,建模和分析全时空行为特征,支撑全时空应用。而关键技术包括高精度定位算法、时空轨迹标签与轨迹预测、基于时空轨迹的用户分群、时空栅格化和时空模式挖掘。时空应用可实现人群轨迹可视化、MR定位系统、位置分群、位置营销、基于受限玻尔兹曼机(RBM)的出国人群预测以及时空行为模式挖掘即国际漫游套餐推广等。 [详情]

  • 11:40【工业与制造业大数据论坛】兮易控股首席产品总监颜强带来了《工业(大)数据的实战应用场景(制造篇)》主题演讲。演讲主要围绕智能、智能制造、与工业数据展开。演讲过程中,颜强先生向与会者分享了自己对“三体智能模型”的理解。在颜强先生参与编写的《三体智能革命》一书中,三体,即物理实体、意识人体、与数字虚体,他们互相咬合交互,组合智能系统。进一步,颜强先生介绍了智能系统的五个特征,以及人造智能从初级智能,到恒定智能,再到开放智能的发展进程。在工业大数据方面,颜强向与会者具体介绍了四个工业大数据的应用场景。 [详情]

  • 11:20【交通与旅游大数据论坛】北京市交通运行监测调度中心副主任、研究员张可发表了《综合交通运行感知体系构建与监测大数据统筹应用》主题演讲。运行监测体系包括三大路网、四大市内交通方式、三大城际交通方式,以及交通枢纽、静态交通等共计19个监测领域。运行监测指标体系的构建需要遵从完备性,有效性以及可用性。将交通流状态参数集和基础设施参数集进行提取和整合,得到交通运行状态特征,再进行抽象和聚合,最终得到交通运行状态特征指标体系。互联网+时代融合众包信息资源的交通大数据应用机制将应用于精准感知出行链,跨领域信息挖掘和知识提取,最后张可针对每种应用进行了实际的案例分析。 [详情]

  • 11:10【网络与通讯大数据论坛】中国信息通信研究院移动互联网与大数据部副主任魏凯的演讲主题为《电信大数据创新与合规性》,他的分享主要从两个方面展开,包括电信大数据资源具有独特价值、电信大数据应用的合规性要点。
      对于电信大数据的应用场景,他表示,目前内部大数据应用场景包括客户挽留、客户迁移、精确营销、客户服务提升等,而外部大数据应用场景设计应该考虑现有基础、实现难度、发展前景等因素。
      他举例表示,1.交通与人口迁移应用,重点利用位置数据,提供交通拥堵实施监控、人流实施监控等辅助管理服务;2.征信与金融风控应用,综合分析、挖掘电信和金融双方数据,及时把握客户行为并进行信用评估;3.统计数据分析报告应用,在严格执行数据保护的前提下,充分挖掘数据资产价值,以数据报告的方式,向第三方提供源数据供应服务;4.城市规划与商圈分析应用,抓取、分析、挖掘内部及各类互联网监控数据,掌握目标地区及周边用户特征,准确、高效地实现预期利益最大化的商业选址及服务内容决策;5.智慧旅游景区分析应用,通过景区客流信息实时监控分析以及对游客客源的分析统计,加强景区服务和管控,为旅游信息化建设及市场推广提供有效的数据支撑。 [详情]

  • 11:00【大数据分析与生态系统论坛】滴滴出行大数据部BI系统组负责人艾毅在主题演讲《业务实时监控系统架构及实践》中首先分析了滴滴实时监控系统演变历程。目前该系统采用Kafka+Druid+Samza技术架构,优势有可实时分析海量数据(秒级),实现了OLAP系统交互式查询。具有高可用性、易扩展性、高性能、支持有状态的实时计算。
      接下来,艾毅分享了该技术选型背后的原因。Kafka是一个高性能、高可用、易扩展的分布式日志系统,可很好地对整个数据处理流程进行解耦,这对实时监控系统架构很关键。Druid是针对时间序列数据提供低延时的数据写入以及快速交互式查询的的分布式OLAP数据库,其数据存储方式有,(1)为OLAP查询优化过的列式存储结构Segment;(2)Segment中存储聚合计算后的统计结果;(3)主要根据时间对Segment文件进行分片存储。此外,还介绍了Druid的数据处理流程。Druid支持近似统计算法、支持地理查询。至于Samza,它是一个分布式的实时计算框架,支持低延时的、有状态的实时计算。接下来,就运行机制、高可用性、数据处理流程、常见计算类型对Samza做了详细介绍。 [详情]

  • 10:25【网络与通讯大数据论坛】亚信数据橘云产品线大数据工程师杨光明子发表《面向电信领域的海量实时数据处理技术与实践》主题演讲。本次议题分为四个方面,首先介绍下电信领域的应用场景,其次是实时处理平台的基本架构,再次是平台的性能,最后是平台的演进。杨光明子表示,电信领域实时数据处理的场景包括每天净增用户16.6万,每秒无线上网流量33G,每天话单数据10T以及每日信令数据100T。而应用的场景也由简单实时营销到实时位置运营变化,再到复杂实时营销和内容业务处理转变。实时处理平台的基本架构包括业务输出、标签附件和数据接入。平台性能主要介绍了平行扩展、平台的速度及HA性能表现。而未来的演进方向主要分为三种:更多元化的场景、更快的速度以及更健壮的架构。 [详情]

  • 10:40【交通与旅游大数据论坛】滴滴出行智能交通云资深总监杨毅发表了《滴滴交通大数据实战》主题演讲。滴滴拥有海量且持续增长的交通大数据,相比传统交通大数据的挑战包括Volume 规模,Velocity 实时和Veracity 精准。滴滴基于交通大数据的应用包括供需预测,智能拼车,实时路况以及交通指数及运行报告。未来滴滴大数据将补充大数据4V中的Variety,进行滴滴自有数据的深度挖掘,同时引入第三方数据优化自身应用,贡献数据,多方融合,最终提供更好的交通出行服务。最后杨毅通过互联网+智能信号灯举例,详解了智能交通云的应用。 [详情]

  • 10:30【大数据分析与生态系统论坛】北京邮电大学副教授熊永平在主题演讲《DI——基于SPARK的交互式数据探索与建模系统》中表示DI大数据探索分析系统主要针对普通的数据分析人员,几乎不需要编程开发分布式程序,可提供直观易用的图形化系统界面。目前还处于不断完美过程中。
      它基于Spark,其交互式数据探索框架的核心技术要点有,每个工程运行在一个单独的Spark环境,Spark环境资源由YARN分配调度;DI和Spark常驻内存,通过消息队列交互;利用RDD保存探索过程中的各种中间表。
      它提供了数据转换功能、文本分析、数据探索功能。标准Spark并没提供文本分析功能,该功能利用文档预处理、自然语言处理、主题检测等功能分析文本数据,便于数据分析人员处理非结构化文本数据,使用到的典性算子有特征词提取、新词识别、词语语义距离分析Word2Vec。 [详情]

  • 10:20【工业与制造业大数据论坛】兮易控股董事长陈广乾先生为我们带来《大数据如何帮助企业降本增收》主题演讲。陈总早年毕业于北大历史系,后任海尔CIO,后来由于身体原因回到北大,接着出任好孩子CEO,在接近60岁的时候出来创业。陈总既是学者、又是专家、又是企业的CEO、CIO。陈总介绍到,大数据帮助企业降本增收可分为两个方面:1. 用户洞察>精准营销>产品爆款研发>精准客服 ;2. 消费者行为轨迹分析>购物中心场景分析>商业地产转型。
      接着,陈总从业务模型与数据模型、反映经营损失的数据断点分析、需求预测模型、商机金额漏斗(掌握机型结构需求,针对获取策略,拉升毛利空间 )等方面,结合自身在好孩子及海尔的四个实际项目,向与会者详细阐述了大数据在企业业务的各个环节的具体应用。陈总表示,简单分析模型只完成了企业大部分的一部分,在实际落地的过程中,还有很多“人”的问题需要考虑。 [详情]

  • 10:00【交通与旅游大数据论坛】易到技术VP尹佐宁发表了《易到大数据的过去、现在和将来》主题演讲。尹佐宁首先介绍了易到大数据的一些发展情况,易到大数据此前人数较少,主要的用途是adhoc的query,而一年之后的如今,大数据方向有了数据仓库组,离线平台组,实时计算组和模型算法组,并扩充了开发人员和机器资源。易到大数据将来的目标是更快地获取、处理数据以及充分挖掘数据的价值。技术方面,易到大数据准备在将来使用Presto引擎,它比Hive在interactive queries上性能有巨大的提升,对SQL更好的支持,同时可以在多个不同类型数据源之间做Join。接着尹佐宁分享了大数据建设中的一些问题解决方式。 [详情]

  • 10:00【大数据分析与生态系统论坛】跬智科技首席技术官李扬在《Apache Kylin的新Streaming OLAP实现》主题演讲中分享了Apache Kylin V1.5、V1.6两个版本对Streaming的诸多尝试。   流数据如何分段,时间蹉的方式行不通 ,V1.5版本中,采用模糊的二分查找,使用时间近似寻找;同时针对小碎片,按一定的时间间隔,自动合并成大的Segment。V1.5最大成就是,通过流式构建,解决了数据延时问题,同时也也存在一些缺陷,如构建不能自动伸缩、近似二分查找会丢失数据、构建任务难以监控、错误恢复困难、整体运维成本高等。   基于V1.5版本的经验与教训,V1.6版本重构了Streaming,将Kafka作为标准的数据源,解决了V1.5版本的伸缩性问题。针对数据遗漏,V1.6版本改为按offset切分,彼此间不能有重合,Segment之间允许有时间值重合,确保了数据一致性和查询准确性。此外,还进行了其他改进,如自动寻找开始和结束的offset;支持嵌套式JSON消息,支持自定义时间格式;允许多Segment并行构建/合并等。 [详情]

  • 10:00【工业与制造业大数据】昆仑数据CEO兼北京工业大数据创新中心主任陆薇,分享了《工业大数据助力中国智造》的主题报告。大数据是新工业革命的重要技术要素。陆薇首先介绍国家制造业创新中心计划及北京工业大数据创新中心的具体使命,分享中心对于工业大数据独特技术挑战的认识和针对性的研发工作。同时,还将分享大数据在新能源、电子制造等行业的典型大数据应用案例,并通过实际案例总结工业企业应用大数据的最佳实践路线。陆薇表示,机器大数据将继消费大数据之后成为数据的下一个主战场。 [详情]

  • 9:40【网络与通讯大数据论坛】浙江移动大数据中心主任汤劲松分享的主题为《运营商大数据价值探索之路》,他表示浙江移动目前用户规模超过6000万,基本覆盖浙江常住人口的80%。在数据积累和处理能力方面每日产生超过30TB的通信网络和业务,数据质量高、数据种类丰富。
      浙江移动大数据平台当前包括Hadoop、MPP(大规模并行处理)、实时流处理三大资源池以及数据交换平台,共计700个节点,融合了O、B、M三域数据,为大数据应用提供有力的PaaS能力支撑。2016年底前将扩容至1400节点的规模,容量超过10PB,并提供人工智能、机器学习、外部数据采集、自然语言识别等能力。
      他介绍到,基于数据与技术的组合,通过应用,浙江移动大数据平台实现价值的对内对外变现。挖掘电信运营商数据在营销、位置、统计分析等方面的能力,在保障信息安全与价值的前提进行产品创新,服务于政府、金融、商企和公众等各方面客户。 [详情]

  • 9:15【交通与旅游大数据论坛】北京工业大学城市交通学院院长、教授陈艳艳发表了《基于大数据的个性化出行服务与公共资源协同分配》主题演讲。人口增加导致交通压力增大,大数据时代破解出行难的机遇涵括人车路环境及活动的泛在化全过程感知的交通大数据发展。交通大数据的发展趋势呈现出了信息采集,数据分析,决策支持,信息发布,社会关心五个方面。公共资源协同分配下的个性化交通出行服务包括定制(预约式)公交或合乘服务;长距离轨道出行多模式接驳服务;门到门的个性化绿色多模式出行信息服务;考虑个体与系统协同的动态信息服务;出行链及活动链一体化融合及全程服务;大数据驱动的交通协同决策。 [详情]

  • 9:10【大数据分析与生态系统论坛】华为大数据设计部部长、Apache Carbondata PMC Committer李昆在主题演讲《CarbonData——面向交互式分析的索引文件格式》在演讲中对比了当前几大存储主流技术的优劣。首先是NoSQL,其速度快,只能通过Key访问,一键一值,适合实时应用对接,不适合分析型应用。第二是并行数据库(Parallel Database),它采用细粒度控制并行计算,适合中小规模数据分析(数据集市),但缺点是扩展能力有上限、查询内容错能力弱,不适合海量数据分析(企业级数仓)。另一个是Search Engine,适合多条件过滤及文本分析,但无法完成复杂计算,且数据膨胀较大 ,需要专用语法,难以迁移。最后为SQL on Hadoop,它适合海量数据计算,不足是仍然使用为批处理设计的存储,可用场景有限。
      数据存储解决方案,可谓百花齐放,但大多只能针对一个场景,解决一部分问题。数据架构师该如何选择,要么做出妥协,只满足部分应用,要么复制多份数据,满足所有应用。为了应对这一选择苦恼,CarbonData应运而生。它更易用,一份存储覆盖更多场景,且具有更高的分析性能,面向用户提供交互式分析。已于2016年6月全票通过正式进入Apache孵化器。 [详情]

  • 9:07【网络与通讯大数据论坛】北邮模式识别实验室副主任高升发表《用户移动性分析与算法研究》主题演讲。本次分享高升主要从两个方面来诠释主题,即移动轨迹特征建模与人群移动模式挖掘。高升表示,北邮数据科学中心的愿景是连接人、网、物大数据,在这样的愿景下构建了网络基础设施到存储,到数据处理及挖掘,一直最后可视化的呈现。在此基础上搭建了大数据分析平台,用于分析用户行为和利用计算机算法和数据挖掘应用。 高升还表示基于深度表示学习的方法对用户移动轨迹进行建模,可以获取用户停留点的语义特征表示,有助于发现用户的隐含移动模式、识别区域功能。基于循环神经网络的用户移动轨迹预测模型,将对应于位置索引序列的停留点特征表示作为输入,可以实现用户的位置预测及意图识别。 [详情]

  • 9:05【工业与制造业大数据论坛】中航信息中心首席顾问宁振波先生为我们带来《中国新工业革命》主题演讲。宁先生表示,新工业革命就是由以爱迪生试错法为中心的旧工业到以网络化、智能化为中心的新工业的转变。工业大数据可以总结为五个字:云(云计算)、大(大数据)、移(移动互联网)、物(物联网)、智(智能制造)。将这五个字综合为一个体系解决,才能解决工业问题。智能是人类的本职,而人造系统的核心是制造业,因此考虑到智能的时候,人类首先想到的是制造智能。宁先生说:“我认为,智能计算就是IBM今年四月份提出的沃森。”对于“智”字,宁先生有自己的解读,曾经,“智”就是懂天文、知地理,今天的智就是懂Cyber。宁先生向我们介绍了现代Cyber的五个含义,即控制、通讯、协同、众创、虚拟。 [详情]

  • 9:00【交通与旅游大数据论坛】交通与旅游大数据论坛在滴滴高级副总裁兼工程技术委员会主席,CCF大数据专家委员会委员章文嵩博士的主持下正式开始。章博士对自己的个人开源项目及从业经历做简要介绍,分享了自己对于出行大数据的见解后,对今天的所有演讲嘉宾进行了介绍并表示欢迎。 [详情]

  • 9:00【网络与通讯大数据论坛】大数据大会第三天精彩继续上演,上午9时整,网络与通讯大数据论坛在华为大数据产品部部长穆鸿的主持下准时开始。 [详情]

  • 9:00【大数据分析与生态系统论坛】在中国科学院计算技术研究所副研究员查礼的支持下正式开始。他介绍了本次论坛的议题组成,包括开源社区的某些项目进展,如华为CarbonData,Apache Kylin;包括开源技术应用案例,如流失计算、资源管理等等在实际业务当中的应用;此外还有自研平台技术成果分享。 [详情]

  • 9:00BDTC 2016中国大数据技术大会第三天,将迎来七大论坛:网络与通讯大数据论坛、工业与制造业大数据论坛、交通与旅游大数据论坛、大数据分析与生态系统论坛、高性能计算与大数据的融合论坛、大数据安全与隐私保护论坛和推荐系统论坛。

新浪微博 (#BDTC#)@CSDN云计算

相关资讯

12月9日 专题论坛

大数据政策法规和标准化论坛

数据库论坛

金融大数据论坛

精准医疗和生物医药大数据论坛

人工智能论坛

大数据云服务论坛

12月10日 专题论坛

网络与通讯大数据论坛

工业与制造业大数据论坛

交通与旅游大数据论坛

大数据分析与生态系统论坛

高性能计算与大数据的融合论坛

大数据安全与隐私保护论坛

推荐系统论坛

大会亮点

焦烈焱:数据治理的实践及趋势解读

  • 普元信息CTO 焦烈焱

    数据治理需要很多的技术和工具提供支持,才能更好地发挥数据价值。传统的数据治理更多专注于结构化等数据,然而现在企业会面临越来越多的非结构化数据。该怎么去治理?这是未来数据治理需要直面的很大难题。

张敬亮:金融行业传统小数据处理模式的升级优化

  • 中科天玑大数据产品事业部经理 张敬亮

    从最早的关系型数据库,到数仓、Hadoop体系都是以处理结构化数据为主,但成本极高。目前对全链速的处理能力已跟不上时代要求,传统程序的兼容和标准接口的兼容性上存在一定差距。中科天玑就是解决这两大问题:一是功能、性能、规模、可扩展性;一是接口、标准、兼容性,中间做了一个MPV数仓,也能够很好适应目前大数据在银行金融领域的转型和探索。

宋怀明:大数据的落地和融合

  • 曙光信息产业(北京)有限公司大数据总工程师 宋怀明

    经过多年的发展,从技术逐步到应用上,我们把大数据的发展分成三个阶段:数据落地、计算落地、应用落地。而在应用落地这个阶段,主要有四个方向:数据融合、计算优化(性能优化)、化繁为简以及带来的一些新的应用或商业模式。

鹿淑煜:云安全的实践和趋势解读

  • 三未信安技术总监 鹿淑煜

    大数据行业中对安全的认知还有很多不足,但是国家对十三五的一些规划一定程度上会带来改观,明确了大数据平台及安全性的要求。在未来,现有的安全技术会很快速地融入云、融入大数据这个平台。整个产业和生态链的合作也是一个必然的趋势。[详细]

孙元浩:大数据新进展及新趋势

  • 星环科技董事长&CTO 孙元浩

    随着数据量不断变大,出现了处理效率低下和非结构化数据处理不了等问题。特别是数据搜集起来后,想挖掘数据的价值,想利用机器学习来做,但过去的数据库技术缺乏这种手段,所以现在在数据仓库技术本身发生了一些衍变。如今发展到现在也看到了四个定论,即分布式计算已逐步成为主流计算方式、交互式分析技术日益成熟、融合事件驱动和批处理引擎等。[详细]

姚军:聚焦智能投顾在国内市场的落地应用

  • 微众银行大数据中心负责人 姚军

    投顾是很长的价值贡献链条,美国崛起的所谓智能投顾代表只是解决了链条上的一个环节。国内市场与其相比,市场条件、监管条件、实施效果、市场接受度都不同。因此要重新梳理投顾链条,找到关键痛点,并且和金融机构、信息的第三方平台等共同营造市场氛围。

曹欢欢:人工智能时代的媒体技术革命

  • 今日头条首席算法架构师 曹欢欢

    算法与门户、社交网络&社交媒体等相比,在分发效率上可以做到比较极致。因为它分发的目的是去预测用户对内容是否感兴趣,通过不断收集用户行为数据反馈去学习。之前无论是门户还是社交网络,最终的分发均由人来完成的,在这个层面来讲算法更具优势。

金昀:计算和存储分离的分布式计算平台

  • Facebook工程经理 金昀

    MapReduce从设计之初,它的核心设计点就是计算和存储要紧耦合。但这一点假设给Facebook这样大规模的应用带来了很大的挑战。当存储和计算紧耦合时,很难对两种资源进行分开调度和伸缩性扩展。网络的快速发展,远远超过硬盘的发展速度,所以我们可以借助MapReduce计算,通过网络使用远程的存储资源,而不再依赖于本地的存储来实现计算和存储的解耦。

郑龙:Yita,基于数据流的大数据计算引擎

  • 中兴飞流信息科技有限公司CTO 郑龙

    传统控制流模型在大数据处理中受限于同步机制以及内存计算的影响,导致在大数据处理过程中,对于海量实时和智能的需求无法有效的满足,而数据流模型的出现,则改变了这种局面,其在并行计算方面的特点,成为大数据处理的更理想模型,而Yita就是基于此模型的大数据计算引擎。[详细]

大会展区

星环科技
普元
Atlassian
CSDN
ikbc
中科天玑
Mellanox
北京好雨
博文视点
广州巨杉
华章科技
中兴飞流

大会花絮

大会主办方及合作媒体
主会参会人员爆满
主会引导牌
参会者查看大会议程
参会者了解展商信息
参会者认证听讲并拍照
参会者与展商交流
排队签到
参会者现场提问
演讲嘉宾接受BTV采访
参会者与嘉宾积极互动

大会日程