云中的大数据

    技术2024-06-13  89

    本文重点介绍使用大数据的应用程序,并解释大数据分析背后的基本概念,以及如何将其与商业智能(BI)应用程序和并行技术(如计算机视觉(CV)和机器学习方法)结合在一起,该技术将在第3部分中介绍。 “ 云扩展 ”系列。

    大数据分析与视频分析的区别在于,与使用的数据挖掘或MapReduce方法相比,所处理数据类型的广泛性以及提供的交互式分析和搜索工具,它们可能比Google BigQuery更复杂,但运行时间更长,例如,它使用列式搜索来压缩和加快交互式搜索大量非结构化数据的速度。 实际上,在“ Google BigQuery的深入了解”(请参阅参考资料 )中,Google解释说,BigQuery可以在数十秒内对约350亿行和20 TB的巨大日志表进行正则表达式文本匹配。 该工具的MapReduce功能需要花费更长的时间才能运行,但确实可以简化数据。

    拥有Google帐户的任何人都可以使用BigQuery。 或者,为了更快地了解典型的大数据搜索,请下载我的图片并将其上传到Google图片 。 您应该获得与我的图像相同的所有页面(来自IBM,科罗拉多大学博尔德分校等),包括至少一个误报。 我主要使用此示例来确保我下载的图像具有适当的照片信用和授予的重用权限。 与我在这里探索的其他示例一起,该示例给出了大数据精神的概念,在非结构化数据堆中找到了一个切入点-实际上,更像是数百万个堆。

    定义大数据

    大数据的广义定义是捕获,管理和分析超出典型结构化数据的数据,关系数据库管理系统可以查询这些数据,通常是非结构化文件,数字视频,图像,传感器数据,日志文件,甚至是未包含在具有不同可搜索字段的记录中的任何数据。 从某种意义上说,非结构化数据是有趣的数据,但是除非将其与结构化数据相关联,否则很难将其合成为BI或从中得出结论。

    大数据还拥有新的来源,例如机器生成(例如,日志文件或传感器网络),移动设备(视频,照片和文本消息)以及机器对机器,其中物联网出于维护目的报告状态规划车辆或飞机的机队或常规遥测监控。 解决这一问题的一种方法是根据音量的特性。 IBM估计现在每天创建2.5亿(2,500,,000,000,000,000,000,000)字节的数据(请参阅参考资料 )。 第二, 速度 ,即由于网络带宽而导致数据速率不断增加的速度 -与千兆位速率相比,今天通常以千兆位速率(gigE,10G,40G,100G)。 第三, 种类繁多 ,现在包括更多非结构化数据类型,例如数字视频流,传感器数据以及日志文件。 最后,数据的准确性 ,或者当需要对以如此高的速率收集的大量数据做出关键决策时,可以信任多少数据。 仅仅知道数据实际上没有被欺骗,未被破坏或来自预期的来源是很困难的,例如,可能来自数千个安全摄像机之一,每个安全摄像机每小时产生数千帧视频。 因此,让我们概述大数据,应用程序和系统的一些关键方面,以更好地理解它们。

    大数据来自哪里?

    大数据的出现主要是由于移动设备的发展,现在包括数字视频,摄影,音频以及高级电子邮件和文本功能。 用户收集的数据数量是十年前从未见过的。 同样,诸如Google Translate之类的新应用程序提供了大数据服务器功能,即对在移动设备中说出或输入的短语进行自然语言翻译。 IBM在《 2013年全球技术展望》中首先将大数据视为由移动技术支持的(请参阅参考资料 ),并通过数量 , 种类 , 速度和准确性来表征大数据。 数据自然没有关系数据库记录结构化,但可以与此类数据相关。 本文详细介绍了构成大数据的内容。

    理解《大数据》的最好方法就是回顾其历史,就像《福布斯》杂志所做的那样(请参阅参考资料 )。 当然,被认为是大数据的规模已经增加到目前每天超过2.5艾字节的速度。 有趣的是,大多数数据永远都不会被人类审查(每个美国人口普查时钟只有70亿人,我们每个人每天都必须审查300MB以上的信息)。 面对这一挑战,使用大量数据的唯一逻辑方法是机器对机器的自动化或大数据的智能查询。 此外,如果将这么多的数据保留很长时间,那么有人会怎么知道其中一些数据是否已损坏? 我们当然可以存储数据摘要(例如MD5,这是一种校验和的形式)并使用独立磁盘的冗余阵列(RAID-镜像,XOR奇偶校验或擦除代码来检测和恢复损坏的数据),但人们越来越担心某些数据可能会遭受无声破坏(请参阅参考资料 )。

    数据策展人互联网档案馆(Internet Archive)对此问题进行了调查。 总体而言,大数据的准确性是一个挑战,但是擦除代码和先进的数据摘要方法显示出了希望。 诸如XOR RAID或简单镜像之类的传统方法已被RAID取代,这些方法仅在存储设备发生故障时仅提供单一故障保护以防止数据丢失,并且无法处理由软件错误,数据中心操作员错误或随时间的介质故障引起的细微损坏情况。 -6和更高级的擦除代码。 大数据的数据持久性概念变得非常重要,这是我使用与Intel和Amplidata一起使用的数学模型研究的一个主题。 有了这么多的数据,人们根本无法对它进行准确性检查,并且直到将来最终查询或访问丢失的数据时,才会注意到丢失的数据。

    大数据系统设计

    大规模数据保护的体系结构应包括针对网络罪犯或通过网络战防止数据丢失,无声破坏,恶意软件和恶意修改数据的保护。 数据是一项资产,并且越来越多地被政府和企业用来做出关键决策,但是,如果数据的准确性未知,那么数据的价值就会下降,甚至可能丢失,甚至更糟:决策错误。 本主题超出了本文的讨论范围,但是显然有必要防止数据丢失和未检测到的修改或损坏。

    更好地理解大数据的一种方法就是简单地仔细查看一些具有足够数据(通常为PB)以及查询工具(通常为TB)以供应用程序使用的云站点。 我们大多数人每天都使用Google查询,但Google还提供BigQuery,该查询使用更复杂的列式存储和搜索(例如,将在下面详细讨论)。 其他知名的例子是Facebook(社交网络),Wikipedia(一般知识捕获),Internet存档(数字数据管理者),DigitalGlobe(地理信息系统[GIS]),Microsoft®Virtual Earth(GIS),Google Earth(GIS) ),以及众多新的大数据服务提供商。

    公司拥有内部大数据以及私有云系统上的数据。 许多大数据系统对于用户查询都是只读的(从机器生成的源中捕获),但是如果它们允许使用密码短语更新数据库或非结构化数据,则可能包括强身份验证,要求用户通过手机短信确认代码,使用图形化挑战来验证人类数据输入,并可能在将来更多地使用生物特征认证。

    大数据应用

    对于视频分析和视频分析,杀手级应用每天都在被考虑,由于计算需求或实施成本,可能要几年才能实现。 不过,这是有趣的应用程序列表:

    使用Google趋势进行的股票市场情绪分析已显示出与历史指数的下降和上升具有良好的相关性,这也许并不奇怪,但作为大数据应用的意义却很有趣。 文章“使用Google趋势量化金融市场中的交易行为”(请参阅参考资料 )提供了证据,证明使用情绪分析来对股票进行多头和空头买卖决策可以胜过简单的买卖策略和指数基金投资。 无疑,这项研究需要更多的分析,但却是令人信服的。 但是,一个有趣的考虑是,随着这些基于机器的交易系统与现有的编程交易一起联机,将会发生什么。 Google的Picasa照片排序是一个有用的工具,允许用户使用CV技术结合机器学习来排序,查询和自动识别面部。 这是感受大数据服务和应用程序价值的好方法。 很明显,大数据分析将需要高级分析,例如简历和机器视觉等方法。 推荐系统,例如Pandora(音乐),Netflix(电影)和Amazon(书籍和产品),使用客户数据和多个代理,称为协作过滤。 这项大数据服务一直是机器学习和数据挖掘中非常先进的研究主题。 显然,提出良好建议的能力可以提高销售量和客户满意度。 当此文本数据与从传统客户交易记录中收集的BI相关联时, 客户群分析可以基于社交网络数据(例如,Facebook和Twitter)为您的客户提供情感分析。 情感分析使企业可以了解客户对他们的产品的看法,对产品或竞争对手的兴趣,喜欢和不喜欢的事物等。 机器生成的数据来自传感器网络等来源(例如,嵌入大型系统(如城市交通,交通信号灯和一般基础设施)中的传感器); 机器对机器数据,其中一台机器(通常是在现场)的传感器或日志数据被另一台机器摄取; 和日志文件,IT部门最常使用它们来调试问题和通过异常管理系统(忽略它们,除非它们需要人为注意才能恢复和继续运行)。 通过合并客户的偏好,物流和以前的历史记录,旅行预订系统正在得到改进,以为计划旅行这一艰巨的任务提供有用的建议。 用于娱乐的社交网络正在取代广播电视和电影饮水机讨论的社交方面,在该社交网络中,按需数字媒体现在允许任何人在任何地方,任何时间,大多数地点观看内容,但仍通过社交网络分享体验。 尽管这使内容消费更加令人愉悦,但它使内容创建者,脚本作者和艺术家能够真正比以往更好地了解其受众。 医疗诊断通常包括基于规则的专家决策支持系统(DSSes),但随着大数据的出现,有证据表明这些系统可能来自研究并成为主流医疗助手。 例如,新的DSS可以帮助对有自杀风险的患者进行客观的心理评估,在研究中显示出了希望(请参阅参考资料 )。 证明这些系统的一部分是将它们与历史数据进行比较:这些系统不会代替人工决策,但有望在用作支持工具时加以改进。

    这绝不是大数据应用的一个详尽的清单,但你可以找到更多的探索相关主题 。 列式查询,非结构化数据的分析,MapReduce以及大数据的可视化和推理的应用才刚刚开始。

    公共安全大数据

    将大数据分析与公共信息(或托管人自愿提供的私有,自愿提供的信息)集成在一起,可以快速搜索大量视频,语音,传感器数据和电子邮件文本,从而提高公共灾难恢复安全性,从而防止恐怖威胁,并了解公众的关注。 与单向广播的紧急警报系统相比,几乎可以将其视为反馈。 当然,如果大数据和视频/语音/电子邮件分析成为隐私侵害,则存在担忧和潜在的不利方面。 这样的系统要求负责任地使用,完全公开和审核在公共场所和网络中收集的数据。

    大数据应用程序隐私注意事项

    如果公司,政府和组织认真地收集,分析和使用大数据,则对公众的价值将显而易见。 如果滥用大数据分析功能,将失去公众信任,并失去价值。 用户的情感必须是自愿的,其价值的大部分来自于了解人们对与之互动,在哪里或在阅读的内容的感受。 如果开发了一种能读懂思想的传感器,那么我们可能确实存在道德困境。 目前,应在谨慎使用隐私,保持用户信任和信心的情况下使用摄像机,录音或电子邮件数据挖掘。

    作为一个很好的例子,在撰写本文期间,美国国家安全局电话元数据数据库的问题引起了人们的极大关注,该问题可在受到国家威胁的情况下进行数据挖掘(请参阅参考资料 )。 显然,许多细节将在法庭案件中解决,但是在大数据系统设计中的仔细考虑无疑将避免诉讼的麻烦。

    示例:使用R脚本

    InfoSphere Streams中的R项目工具包

    InfoSphere Streams是一个高级计算平台,当用户开发的应用程序从数千个实时源获取信息时,它就可以快速地摄取,分析和关联信息,从而处理非常高的数据吞吐率:每秒多达数百万个事件或消息。 3.1版包含一个R-project工具包,使您可以应用复杂的数据挖掘算法来检测数据流中感兴趣的模式。 了解更多并尝试一下。 。

    视觉分析是用于描述大数据可视化的术语(不要与视频分析相混淆,而是分析图像序列以了解其包含的内容)。 从历史上看,可视化一直是高性能计算中最常见的一种做法,但是随着来自移动设备,社交网络,机器对机器系统以及传感器网络生成的数据的非结构化数据的增长,对高级可视化的需求正在增长大数据。 历史上经常使用的简单饼图,帕累托原理, XY图和条形图可能不足以理解大数据。

    为了探索这一点,我用C和R脚本语言(一种大数据分析工具)实现了Lorenz方程。 使用C和Microsoft®Excel®来理解这些复杂方程式是有限的,主要是因为建模和分析未集成,并且电子表格通常不提供复杂的多维可视化。 使用C和Excel,我能够生成模拟大气对流的Lorenz方程的二维散点图,如图1所示。也许可以使用Excel更好地可视化此数据,但是没有明显的方法。探索两个以上的维度。

    图1. Lorenz模型的二维电子表格图

    使用R进行视觉分析

    使用R,您可以导入大量分析和可视化程序包,并将其与这种直观的脚本语言一起使用。 例如,为了更好地可视化Lorenz方程,我导入了scatterplot3d包,如图2所示,与简单的电子表格相比,它可以更好地查看固有的3-D Lorenz方程。 您也可以使用科学的可视化工具(例如MATLAB或GNU图)进行这种基于模型的分析,但是R还包括各种非常适合本质上不科学的数据集多维分析的软件包。 (例如BI可视化),您可以在参考资料中找到许多示例。 洛伦兹(Lorenz)示例是R的幂的简单介绍。

    图2.将可视化包导入到R for Windows

    与MATLAB为工程师和科学家提供用于模型和数据探索的交互式科学和工程分析环境非常相似,R为业务分析师和所有类型的大数据分析提供了相同的环境(参见图3和清单1)。 使用R和BigQuery之类的工具进行大数据的交互式探索是将大数据分析与更面向批处理的分析和数据挖掘区分开来的,后者通常使用MapReduce执行。 无论哪种方式,目标都是利用大数据量形成新模型并支持决策。

    图3. Lorenz方程的R 3-D图
    清单1. Lorenz方程图的样本R脚本
    library(scatterplot3d) library(gdata) getwd() [1] "C:/Users/ssiewert/Documents" mydata = read.csv("lorenz.csv") scatterplot3d(mydata, highlight.3d=TRUE, col.axis="blue", col.grid="lightblue", main="Lorenz Equations", pch=20)

    为了帮助您了解和探索可视化效果, 可以下载 C和Excel以及R的Lorenz示例。 要探索更多内容,可以使用R可视化从Google BigQuery返回的数据。

    大数据的未来

    本文对大数据的价值提出了质疑,尤其是在无法确认数据准确性的情况下,这一点受到了质疑,并提出了改进准确性的建议以及处理数据量,种类和速度的概念。数据。 迄今为止的经验表明,横向扩展,使用高级数据持久性方法,将高速率网络并入群集以及横向扩展算法(如MapReduce和列搜索)都显示出有效处理大数据的希望。 但是,由于数据量,速度和数据量的增加,甚至没有考虑的问题(如静默数据损坏)已成为新的问题,而以前,磁盘驱动器和网络的误码率远低于字节数时,这些问题就不再那么重要了。通过它们或存储在它们上。 因此,当今的大数据架构师不仅必须保护数据的准确性和价值,还必须变得更加聪明,因为如今它大大超过了人们每天对其进行审查的能力,因此设计服务使其变得可访问和有用。


    翻译自: https://www.ibm.com/developerworks/analytics/library/bd-bigdatacloud/index.html

    相关资源:阿里云大数据专业认证(ACP级)-样题-0209
    Processed: 0.028, SQL: 9