CCDM 2018 产业界高峰论坛

数据挖掘产业界高峰论坛

时间 8月5日下午

地点:济南市南郊宾馆

发起人:郑宇,京东集团副总裁、京东金融首席数据科学家

叶杰平,滴滴出行副总裁

报告题目:AI在出行领域的机遇和挑战

报告摘要滴滴出行是中国最大的共享出行平台,为超过5亿用户提供出行服务。每天滴滴出行平台产生超过100TB的数据,处理超过400亿条路径规划请求以及超过150亿条定位请求。在这个讲座里,我将分享滴滴出行如何利用大数据和AI的技术来分析出行数据,并为亿级用户提供高效的出行服务。

报告人简介叶杰平博士是滴滴AI Lab负责人,滴滴出行副总裁。叶博士也是美国密歇根大学终身教授。他的专业方向为大数据、机器学习、数据挖掘、及其在出行和生物医药领域的应用。他是多个国际顶级AI会议的资深委员会会员、区域主席和委员会副主席,包括NIPS、ICML、KDD、IJCAI、ICDM和SDM等。他也是多个顶级AI期刊的副主编,包括DMKD, IEEE TKDE和IEEE TPAMI等。他于2010年获得美国国家自然科学基金会生涯奖。他的研究成果被选为顶级AI会议KDD和ICML的最佳论文。

 


 

苏中,IBM 中国研究院研究总监

报告题目Challenges in AI for Business

报告摘要待添加

报告人简介苏中是IBM中国研究院的研究总监,大数据及认知计算研究方向首席科学家。在2002年获得清华大学计算机系博士学位后加入IBM。在中国研究院先后参与了文本分析、企业搜索、元数据管理、数据集成、社会化计算及信息可视化等方面的研究。他所领导的多项技术研发被IBM软件产品采用,并在国际以及国内的多次技术评估中得到第一名,也因此数次获得IBM全球研究技术成就奖,在2008,2010, 2014以及2016年度获得IBM全球研究杰出技术成就奖。苏中在2007年被评为IBM发明大师,担任研究院专利评审委员会主席。迄今为止已经在国际顶级会议及期刊发表学术论文60余篇,50余项发明专利及专利申请。他目前兼任南开大学兼职教授,上海交通大学APEX实验室客座教授,IBM大中华区技术专家委员会主席,中国中文信息学会理事,CCF人工智能与模式识别专委会委员。
 


 

张钧波,京东金融城市计算事业部总监

报告题目城市计算:用大数据和AI打造新型智能城市

报告摘要:城市计算是计算机科学以城市为背景,跟城市规划、交通、能源、环境和经济等学科融合的新兴领域,通过不断获取、整合和挖掘城市中不同领域的大数据来解决城市痛点,是当今城市通向新型智慧城市的途径。本报告将展现京东城市的愿景,介绍城市计算平台的架构和某些城市的智慧城市顶层设计方案,讲解针对于时空数据的深度学习算法和多源数据融合技术,并分享基于人工智能的空气质量预测,管网水质预测,人群流量预测等案例,以及基于大数据和人工智能技术的信用城市体系建设。相关技术不仅发表在KDD等顶尖国际会议和期刊上,也在实际场景中落地。更多信息可参看城市计算主页:http://icity.jd.com

报告人简介张钧波,博士,京东金融城市计算事业部总监,掌管整个事业部的AI平台、算法模型和技术研发。在加入京东之前,张钧波博士曾任微软亚洲研究院研究员,联想香港大数据研发中心研究员,在香港中文大学、华为香港诺亚方舟实验室、美国乔治亚州立大学、比利时核研究中心等访问工作多年,具备丰富的人工智能和时空数据挖掘经验。在Artificial Intelligence,IEEE TKDE等国际期刊和软件学报等国内期刊及KDD,AAAI,IJCAI等国际会议上发表论文40余篇,其中最佳论文3篇,在科学出版社专著1部,研究成果获得广泛的关注。曾获得中国人工智能学会优秀博士论文提名奖,ACM分会优秀博士论文奖。 

  


  

史树明,腾讯AI Lab自然语言处理中心负责人

报告题目理解语言,促进沟通:腾讯人工智能实验室的自然语言处理研究

报告摘要待添加

报告人简介史树明博士现在是腾讯人工智能实验室(AI Lab)自然语言处理中心负责人,主要研究方向为语义理解和智能人机交互。他在ACL、EMNLP、AAAI、IJCAI 、WWW、SIGIR、TACL等一流国际会议和期刊上发表科研论文40多篇,曾多次担任ACL、EMNLP、WWW、AAAI等会议的程序委员会委员以及TOIS、TKDE等期刊 的审稿人。除学术研究外,他在搜索、知识图谱、自然语言理解、对话机器人等方面有丰富的系统开发和工程落地经验。他毕业于清华大学计算机科学 与技术系,加入腾讯之前曾任职于微软亚洲研究院(主管研究员)和阿里巴巴集团(资深算法专家)。

  


 
杨红霞,阿里巴巴 资深算法专家

报告题目:Extremely Large Scale Graphical Model in Practice

报告摘要:Extremely large scale graphical model has been playing an increasingly important role in big data companies. In particular,  graph inference combined with deep learning has achieved successful phased results in many of Alibaba's business scenarios. The data of the Alibaba ecosystem is extremely rich and varied, covering everything from shopping, travel, entertainment, and payment. We are working on the development of a new generation of graph learning platform that can efficiently perform inference analysis on billions of nodes and billions of edges. In this talk, I will share two related works that have been accepted by IJCAI and KDD 2018 respectively:
  1. Network representation learning (RL) aims to transform the nodes in a network into low-dimensional vector spaces while preserving the inherent properties of the network. Though network RL has been intensively studied, most existing works focus on either network structure or node attribute information. In this paper, we propose a novel framework, named ANRL, to incorporate both the network structure and node attribute information in a principled way. Specifically, we propose a neighbor enhancement autoencoder to model the node attribute information, which reconstructs its target neighbors instead of itself. To capture the network structure, attribute-aware skip-gram model is designed based on the attribute encoder to formulate the correlations between each node and its direct or indirect neighbors. We conduct extensive experiments on six real-world networks, including two social networks, two citation networks and two user behavior networks. The results empirically show that ANRL can achieve relatively significant gains in node classification and link prediction tasks.
  2. The e-commerce era is witnessing a rapid increase of mobile Internet users. Major e-commerce companies nowadays see billions of mobile accesses every day. Hidden in these records are valuable user behavioral characteristics such as their shopping preferences and browsing patterns. And, to extract these knowledge from the huge dataset, we need to first link records to the corresponding mobile devices. This Mobile Access Records Resolution (MARR) problem is confronted with two major challenges: (1) device identifiers and other attributes in access records might be missing or unreliable; (2) the dataset contains billions of access records from millions of devices. To the best of our knowledge, as a novel challenge industrial problem of mobile Internet, no existing method has been developed to resolve entities using mobile device identifiers in such a massive scale. To address these issues, we propose a SParse Identifier-linkage Graph (SPI-Graph) accompanied with the abundant mobile device pro ling data to accurately match mobile access records to devices. Furthermore, two versions (unsupervised and semi-supervised) of Parallel Graph-based Record Resolution (PGRR) algorithm are developed to effectively exploit the advantages of the large-scale server clusters comprising of more than 1,000 computing nodes. We empirically show superior performances of PGRR algorithms in a very challenging and sparse real data set containing 5.28 million nodes and 31.06 million edges.

报告人简介:Dr. Hongxia Yang is working as the Senior Staff Data Scientist and Director in Alibaba Group. Her interests span the areas of Bayesian statistics, time series analysis, spatial-temporal modeling, survival analysis, machine learning, data mining and their applications to problems in business analytics and big data. Current on-going projects in her team include huge dynamic multi-level heterogenous graphical model for user profiling system, large-scale distributed knowledge graph and its efficient inference for data enabling platform and general ensemble prediction framework for various revenue and costs forecasting, among several others.  She used to work as the Principal Data Scientist at Yahoo! Inc and Research Staff Member at IBM T.J. Watson Research Center respectively and got her PhD degree in Statistics from Duke University in 2010. She has published over 30 top conference and journal papers and held 9 filed/to be filed US patents and is serving as the associate editor for Applied Stochastic Models in Business and Industry. She has been been elected as an Elected Member of the International Statistical Institute (ISI) in 2017.

 


  

周寻,爱奇艺 技术总监

报告题目大数据智能技术如何赋能泛娱乐生态

报告摘要:爱奇艺拥有一个为数亿用户提供泛娱乐服务的互联网产品矩阵,这些产品每天都会产生海量的数据,我们会利用这些数据为公司的决策和运营提供全方位的支撑,把数据驱动的力量融入到业务发展的各个方面。本次报告的主要内容有:爱奇艺数据系统的技术架构和一些数据驱动的创新应用,如何构建以用户为中心的个性化产品和数据分析平台以服务于泛娱乐生态,以及在数据团队建设方面的经验分享等。

报告人简介周寻,2013年加入爱奇艺,现担任技术总监,主要负责用户画像平台,个性化推荐,数据仓库,商业分析等方向的数据产品研发和技术团队管理工作。 

 


   

夏粉,智铀科技 创始人

报告题目大规模机器学习与AutoML

报告摘要:简要介绍机器学习的问题规模、核心技术、分类及重要算法,分享第四代机器学习的理论及应用实践,介绍AutoML的研究现状、技术挑战及未来展望。

报告人简介夏粉博士,毕业于中科院自动化所,师从机器学习泰斗王珏老师。前百度资深科学家,协助百度研究院大数据实验室主任张潼(现腾讯AI Lab主任),组建50多人团队,管理超过20人的大规模机器学习团队,数次荣获百度技术最高创新奖。曾在机器学习顶级会议ICML、NIPS等发表多篇论文。

在百度期间夏粉带领团队推出了全球领先的超大规模离散稀疏架构自动化机器学习平台(Pulsar),覆盖公司9 0 %以上业务线,包括百度最核心的商业变现系统凤巢、金融、糯米等。在公司内部机器学习平台中用户数排名第一,覆盖了日均流量4.5 亿,日均收入过亿,累积CTR 提升超过50%。

此外,夏粉曾作为百度网盟CTR团队技术负责人,独立设计了一套容纳万亿特征数据的、模型分钟级别更新的、自动高效深度学习的点击率预估系统,其中超过5项创新超越谷歌公开发表的技术和算法。

在百度期间,曾以开放云首席人工智能专家的身份,与多个传统行业探讨智能升级、AI+的方案之后,了解到传统行业缺乏技术、AI人才匮乏、升级成本高等挑战后,夏粉博士决定潜心打造自动化机器学习产品,最大限度降低人工智能的使用门槛,帮助更多的传统行业拥抱人工智能,于2017年6月创立智铀科技,并兼任公司首席科学家,2018年初完成Pre-A轮融资,估值4亿。