SPARK + AI SUMMIT 2020 中文精华版线上峰会,十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。
除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。
黄凯Intel 大数据团队软件工程师。负责开发基于 Apache Spark 的数据分析和 AI 平台,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是大数据和 AI 开源项目 Analytics Zoo 和 BigDL 的核心贡献者之一。
随着近几年AI的快速发展,把新兴的人工智能技术基于大量生产数据去实际落地的场景和需求也越来越多。Ray是由UC Berkeley RISELab开源的一个能快速和方便构建新兴人工智能应用的框架。但我们发现在生产环境中,直接把Ray的程序部署运行在大数据的集群上并不是一件容易的事,常用的做法会需要两个不同的集群去分别运行大数据的应用和人工智能的应用,这样会增加许多数据传输以及集群维护的开销。而利用我们开发的 RayOnSpark 功能,用户能直接在现有的 Apache Hadoop/YARN 集群上运行各种新兴的AI应用,包括分布式神经网络训练、可扩展的 AutoML 用于时序预测以及分布式的强化学习等等。本次分享主要为大家介绍开发 RayOnSpark的初衷、实现细节和实际的应用案例。
黄晟盛Intel 大数据和 AI 方向的资深软件架构师,在大数据领域工作超过10年,在AI领域工作超过5年。她是 Apache Spark 的committer 和 PMC member,也是 Big Data + AI 开源项目Analytics-Zoo 和 BigDL 的重要贡献者。目前,她在 Intel AnalyticsZoo 团队主要带领自然语言处理,时序分析和强化学习相关的新功能开发和解决方案构建。
时序预测在现实中有着很广泛的应用,如通讯网络质量分析、数据中心日志分析、高价值设备维护等。虽然传统方法在时序预测中仍然占据主导地位,机器学习和深度学习正成为新的趋势。然而构建机器/深度学习应用是一个费力且需要大量专业知识的过程,为了给我们的用户提供更易用的时序预测工具,我们基于Ray构建了一个分布式AutoML的框架用于自动化时序预测模型的训练。在这个演讲中我们将分享我们的工作以及真实的应用案例和经验总结。
李呈祥花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。
Spark 3.0提供了很多新的性能优化,例如dynamic partition pruning和enhanced pushdown,每个优化可能会对某一类型的SQL有较好的效果。由于新特性数量众多,用户很难一一深入理解,本次议题主要使用示例介绍这些特性,并解释其背后的原理以及如何使用提高查询性能。
章剑锋花名简锋,开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。
过去一年,YipitData 开始将将自己所有的data pipeline迁移到Databricks的spark平台。现在Databricks平台已经帮助YipitData的40多位数据分析师来做数据收集,管理ETL workfow。YipitData的数据分析师可以在无需数据工程师的帮助下自己独立的管理端到端的data pipeline,包括管理1700多个database,51000张table。这次的演讲会主要讲述YipitData基于Databricks的底层数据架构以及数据分析师如何用PySpark来管理自己的workflow。在YipitData,我们逐步改进抽象我们的data pipeline使得我们的数据分析师可以更加简单安全的做数据转换,存储和清洗。此外这次演讲还会讲述我们如何将Airflow整合到Databricks中,使得分析师可以构建健壮的ETL workflow。系统管理员和工程师可以学习到如何利用Databricks平台和Airfow来发现潜在的优化点和创造业务价值。
王道远花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。
长期以来,Spark社区一直在持续优化 Spark SQL,希望能生成更高质量的执行计划。基于代价模型的优化收集数据的各种统计信息来优化执行计划,比如选择更合适的join算法,或是调整join顺序。但是,统计信息可能不是始终保持最新,错误的统计信息有可能导致选取较差的执行计划。Spark 3.0新引入的自适应查询执行优化,会在运行时根据执行过程中收集到的统计信息,重新优化调整执行计划。本议题会介绍自适应查询执行的整体框架,以及自适应查询针对以往实际使用Spark过程中遇到的一些常见问题的解法。我们会用一些查询的例子来展示自适应查询背后的原理。最后,我们会分享使用自适应查询执行功能在TPC-DS上测出来的性能提升。
邱鑫邱鑫,英特尔高级软件工程师。BigDL 和Analytics Zoo 的核心贡献者。
本次直播将培训Spark天池大赛的选手使用英特尔Analytics-Zoo 平台
推荐阅读
Spark中文峰会议题(一)|Apache Spark 3.0简介:回顾过去的十年,并展望未来
钉钉群同步直播,欢迎钉钉扫码加入Apache Spark中国技术交流社区!
对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
Apache Spark技术交流社区公众号,微信扫一扫关注