介绍json

    技术2024-05-22  77

    为演示大数据,分析和云系统,本教程介绍了预测云计算(PCC),该算法自2012年以来已部署到职业高尔夫和网球比赛中。这是详细介绍PCC系统的一系列教程中的第一篇目的是为开发人员概述最佳做法。 第1部分重点介绍IBM WebSphere Liberty Profile Servlet上的Web应用程序编码和设计以及基于RESTful的预测引擎的软件设计。

    本教程介绍了预测云计算(PCC)如何预测和预测锦标赛的受欢迎程度,以根据需要自动分配共享计算资源。

    问题陈述

    数字内容的快速增长和可访问性正在推动Internet的发展,并且对企业云计算资源的需求也不断增长。 大量Web流量的模式是动态且不确定的,但是始终在线或持续可用的云服务必须始终满足需求。 最佳的运营效率可在流量涌入时分配更多的云资源,并在空闲时分配资源。 PCC项目利用分析,大数据和云的组合来有效地管理职业高尔夫和网球比赛期间的计算资源。

    2014年,PCC支持了图1所示的八项主要活动中的六项,其中包括在四个国家/地区的80个活动竞赛日,六个网站和六个移动网站。 云需求转化为1.5+十亿的页面浏览量,191+百万的访问量,60+百万的唯一访问者/设备以及7.5+百万的实时评分更新。 IBM赞助的2015年高尔夫和网球锦标赛赛季始于1月的澳大利亚网球公开赛,并于10月的中国网球公开赛结束。 日新月异的进度要求敏捷开发和持续部署。

    图1.活动基础架构(EI)支持八项主要锦标赛和娱乐活动的时间表

    总体架构与设计

    在PCC内部,通过对描述性分析的检查提供的事后见识可以产生清晰的见解,而从预测和预测模型中得出的远见可实现主动识别。 通过分析将知识精炼为体育信息,云数据和社交流等大容量大数据组件。 每组数据要么静止不动,要么运动中,或者通过需要特定大数据架构的分析管道推送。 云计算可在需要支持大数据和分析时按需提供计算资源。

    实时Web服务器访问日志通过Python收集脚本流式传输到PCC中。 解析访问日志并将其放入JavaScript Object Notation(JSON)。 每个JSON消息都发送到一个交换,该交换转发到与路由键匹配的适当队列。 然后,IBM®InfoSphere®Streams使用队列中的日志消息,并将每个消息聚合为分钟的时间段。 IBM InfoSphere Streams还订阅了Twitter的PowerTrack。 处理推文以表达对特定玩家的社交情绪。 流日志和推文都发送到RESTful Web服务,以进行分析并存储到IBMDB2®中。 游戏信息由Web应用程序使用,并保存到DB2中以备将来处理。

    图2描述了存储在IBM InfoSphereBigInsights®Hadoop分布式文件系统(HDFS)中的高容量静态数据。 Web访问日志存储在HDFS内,并与Web搜寻器数据相关联,以搜寻网页上的播放器。 结果,根据在网站上提及玩家的频率以及特定网页的访问量来确定玩家的受欢迎程度。 BigInsights作业由Oozie管理,该作业的输出存储在关系数据库DB2中。

    图2显示了使用大数据的几种分析类型。 在“ Analytics”下,这组预处理器接受按分钟划分的实时交通信息(步骤1)。 附加前几天的历史流量数据,并与实时流量数据进行时移。 预处理器创建季节性曲线并估算所有缺失值。 时间序列合奏应用了五种不同技术的互补预测器来预测未来的服务器需求(步骤2)。

    接下来,后处理器会过滤所有数字错误或重复值,对预测进行时移,删除异常预测,并平滑同类群组半衰期加权周期性预测曲线。

    在第3步,运行分布式链式离散事件模拟器以模拟未来的高尔夫或网球比赛。 分布式特征提取系统在UIMA-AS上运行,并将算法应用于模拟的游戏状态,推文,日志流量和已发布的体育数据(步骤4)。 步骤5描述了向前链接模拟游戏状态以运行其他模拟以进行特征提取的过程。 生成的特征向量用于训练或应用多元线性回归模型(步骤6)。 在步骤7中,通过预测模型检测到流量或峰值的大幅增加,以生成事件预测。 剩余的后处理器会根据Powell优化,黄土插值和黄土外推的平均数学误差来调整预测(步骤8)。 在步骤9,通过滑动抛物线加权调整器将周期性预测和事件预测合并在一起。所得的复合预测将调整云中Web服务器的数量(步骤10)。

    图2. PCC系统使用分析来解释大数据以自动调整云

    图3描绘了跨多个联网区域的整体组件图。 红色区域是Internet用户通过Web加速层访问PCC的切入点。 全局服务器负载平衡器(GSLB)利用全局域名服务(DNS)来平衡三站点连续可用性云体系结构之间的流量。 GSLB检测并响应故障,以提供PCC的连续性,弹性和可访问性。

    黄色区域提供了一个Web层,用于平衡特定站点内的流量。 IBM HTTP Server(IHS)为Web访问容器提供服务,这些容器又将流量转发到应用程序层。 此外,Python脚本捕获Web访问日志并充当将数据导入HDFS和RabbitMQ的生产者。

    在绿色区域中,应用程序容器提供消费服务。 IBM WebSphere Liberty Profile(WLP)提供了以Java™1.7编写的复杂Web应用程序ARchive(WAR)应用程序,该应用程序提供了预测和云供应的见解。 数据库服务器运行DB2 10.5.5的多个实例,UIMA-AS Java虚拟机(JVM),WLP和BigInsights(BI)可以访问这些实例。 IBM InfoSphere Streams通过网络流从绿色区域上的RabbitMQ和Twitter GNIP消耗数据。

    红色,黄色和绿色区域中的每个区域都经过防火墙保护,以防止未经授权的进入。 事件的基础架构可在任意数量的私有云上​​运行,图3描绘了由SoftLayer或内部事件基础架构管理的至少三个连续可用性。

    图3. PCC系统使用分析来解释大数据以自动调整云

    高连续性

    云计算是指可以通过Internet获得的按需且始终在线的计算资源。 通常,定义了两种类型的云服务级别协议:高可用性(HA)和连续可用性(CA)。 高可用性通常在计划的时间内提供99.99%或类似可用性的云服务。 持续可用性不会以99.999%的服务提供计划外或计划内的中断,高可用性和连续操作。 该服务可以透明地承受组件故障和灾难,同时保持一致性。

    该赛事的基础设施为IBM赞助的八项体育和娱乐赛事提供了连续的可用性。 为了维护CA,PCC不能预留过多的资源,这会增加服务中断的可能性。 主动云资源管理必须维护准确的预测。 在所有活动日中,PCC均显示出令人印象深刻的平均绝对百分率(MAP)误差,约为10%。 高MAP减轻了CA要求,并提供了保障措施,以确保资源永远不会低于预定阈值。

    媒体参考

    在每次IBM赞助的活动中,我们都会在技术展示中突出显示PCC,其中PCC发起了有关IBM大数据和分析功能的更深入的对话。 邀请部分媒体撰写有关PCC的文章。 《计算机世界》 , 《万物D》 , 《福布斯》 ,《 信息周刊》 ,《 Power ITPro》 ,《 ZDNet》等都发表了有关我们工作的文章。 表1总结了一些可以在Internet上公开获得的媒体赞誉。

    表1. PCC获得了媒体的广泛赞誉
    发布日期 发行人 文章名称和链接 2013/04/05 电脑世界 大数据在现实世界中的10种有趣用途 2013/04/11 万物D IBM如何将大师带给高尔夫球迷 2013/04/12 电源ITPro IBM如何与大师合作提供沉浸式数字体验 2014/04/11 福布斯 IBM掌握大师:与众不同的赞助 2014年8月30日 信息周 美国网球公开赛:七项技术力量比赛,比赛,比赛 2015/04/09 ZDNet IBM的预测云如何使Masters的网站几乎无法崩溃

    IEEE和INFORMS的成就

    电气和电子工程师协会(IEEE)出版了高质量的同行评审文章,并发表了几本领先的科学期刊和杂志。 IEEE计算智能协会赞助了一本名为《 计算智能杂志》 (CIM)的杂志 。 尽管接受率不到10%,CIM还是接受了我们于2015年发布的名为“大数据的预测云计算:职业高尔夫和网球预测”的教程。该教程提出了一种以经验为导向,以指标为导向的方法来评估设计和功效我们的算法

    同时,运营研究与管理科学研究所(INFORMS)接受了我们的PCC参加著名的Franz Edelman竞赛。 自1952年以来,Franz Edelman竞赛选择了全球最具影响力的高级分析和运筹研究项目,以争夺Franz Edelman奖。 2015年,我们与英格拉姆(Ingram Micro),LMI /国防后勤局,沙特阿拉伯市政和农村事务部,先正达(Syngenta)和美国陆军/ Sandia国家实验室竞争。 我们的PCC工作获得了该奖项的亚军,并为IBM赢得了Franz Edelman奖杯,并将其放入Edelman学院。 PCC团队的每位成员终生都是弗朗兹·爱德曼奖得主,并获得了爱德曼奖章和证书。 4月13日,我们为PCC工作辩护; 可以录制有关该防御的视频。 2016年初,INFORM的旗舰期刊将发表有关PCC的文章,标题为“ IBM预测体育比赛的云计算需求”,其中详细介绍了业务问题和影响。

    技术影响

    PCC的技术影响以及预测分析和企业云市场也在不断发展。 PCC可提高运营效率,分析产品以及与潜在客户敞开大门的能力。 如视频中所示,PCC对于全球经济中的许多部门都具有运输和价值。

    仅在2013年,我们就通过四个IBM会议向超过17,000人进行了演讲,包括Pulse,Edge,Enterprise和Information on Demand。 2014年,我们是会议的主题演讲,该会议包括50位北卡罗莱纳州C级女性高管,在纽约的IBM技术领导力交流会上有特色,并在南卡罗来纳州的查尔斯顿举行的IBM全球金融峰会上作了演讲。 在过去的两年中,我们参与了25多次与PCC相关的商业活动。

    在整个PCC项目中,我们不仅发表了科学和商业文章,而且为IBM的知识产权做出了重大贡献。 在高级分析,云计算,机器学习,预测,网络,模拟,社交网络和超参数领域,已申请了16项实用专利。 这些专利为IBM在PCC领域内继续创新开辟了道路。

    从运营角度来看,PCC在每次活动中节省了51%的计算时间,即每天节省134小时。 结果,在80个比赛日中,PCC节省了446.7个计算日。 然后可以将计算周期分配给需要更高负载的其他客户。

    IBM云

    PCC的多个组件可以在IBMCloud®上运行,IBMCloud®是一种基于Cloud Foundry的云平台即服务,该平台在SoftLayer基础结构上运行。 请参阅IBM Cloud目录以获取Cloud服务列表。 图4描述了可用于支持PCC的云服务。

    图4. IBM Cloud提供了几种云服务,这些服务在整个PCC中支持Web应用程序,编程环境,消息传递,数据存储和分析

    IBM Cloud中的Java的Liberty服务和IBM Liberty服务提供了用于IBMWebSphere®Liberty Profile的容器,这些容器为PCC BigEngine应用程序提供服务。 Python社区使Python环境可以运行PCC访问日志收集。 Monitoring and Analytics服务增加了Graphite的使用,将在以后的教程中进行讨论。 CloudAMQP服务支持RabbitMQ。 诸如Cloud and Time Series Database上的DB2之类的几种数据库服务可以为PCC DB2数据库和Graphite时间序列数据存储提供容器。 基于Hadoop的IBM InfoSphere BigInsights在名为BigInsights for Apache Hadoop的云服务上运行。 云服务Insights for Twitter提供了来自Twitter推文的其他见解,而PCC中的多元线性预测模型可以由Predictive Modeling Cloud服务部署。

    结论

    在本教程中,我们展示了在重大体育赛事中如何使用预测性云计算来平衡基于混合云的资源上的动态工作负载,从而为全球体育迷提供实时信息。 我们描述了用于将描述性分析应用于静止和运动中的大容量大数据组件的架构,以洞悉未来的基础架构需求。 我们还解释了PCC如何通过增强IBM在全球混合云基础架构中的实时资源分配来提供连续可用性。

    在本系列的第2部分中,我们将描述IBM如何使用WebSphere Liberty Profile和我们的BigEngine应用程序来提供基于社会洞察力,预测模型和时间序列预测的体育比赛模拟。 我们还将提供IBM使用Git,Urban Code Deploy和Java工具(例如Maven和Jenkins)的详细示例,以预测接收大量同时请求的Web应用程序的近期计算需求。


    翻译自: https://www.ibm.com/developerworks/analytics/library/ba-bluemix-predictive-cloud-computing-intro-trs/index.html

    Processed: 0.019, SQL: 9