读书笔记之大数据交互

技术2022-07-12 98

1、结构化查询语言（Structured Query Language）：一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统，同时.sql也是数据库脚本文件的扩展名。SQL不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，具有不同底层结构的不同数据库系统可以使用相同的SQL作为数据输入和管理的接口。 SQL可以细分为以下六个部分：

数据查询语言DQL——语句也称为“数据检索语句”，用于从表中获得数据，确定数据怎样在应用程序给出。常用保留字为SELECT、WHERE、ODERY BY、GROUP BY、HAVING；数据操作语言DML——语句包括INSERT、UPDATE、DELETE，分别用于添加、修改、删除表中的行；数据控制语言DCL——语句通过GRANT或REVOKE获得许可，确定单个用户和用户组对数据库对象的访问；数据定义语言DDL——包括CREATE和DROP，负责在数据库中创建或删除表及视图，为表加入索引等操作；事务处理语言TPL——能确保被DML语句影响的表的所有行得到及时的更新，包括BEGIN TRANSACTION、COMMIT和ROLLBACK。指针控制语言CCL——语句主要用于对一个或多个表进行单独操作，比如DECLARE CURSOR、FETCH INTO、UPDATE WHERE CURRENT。

2、互联网信息的特点： ①面向显示与面向数据：从信息交换角度看，目前互联网上的信息大多以HTML文档形式存在，用户与服务器之间进行信息传递主要依赖超文本传输协议HTTP，HTML文档中的信息是面向显示的，用规范的HTML标记tag定义文档的元数据或定义文档的文本应如何显示。XML是互联网上信息交换的新标准，支持用户自定义文档标记，用有序的、嵌套的元素组织有一定结构的数据，是面向数据的，程序可读解这些标记并依据标记的语义处理数据。 ②半结构化与非结构化：互联网中数据嵌在HTML文档的文本中，数据的部分组织信息嵌在标记中，从文档标记的角度看，HTML显示超链接文档；从数据角度看，HTML文档所蕴含的数据是半结构化的。 ③不同形式数据源的数据：除了保存在HTML文档中的信息外，互联网上还有大量信息存储在文本文档、传统的关系或对象数据库中，这些不同形式的数据在互联网上需要通过集成并用HTML文档显示，以实现共享和交换。 ④静态和动态：互联网站点上的信息是随时间动态变化的，信息内容的变化（增删改）需要及时反映到互联网页面，另一方面，站点的页面组织结构可能发生的改变（页面的增加、删除和修改）也要及时反映到站点页面的目录层次结构中。 ⑤界面友好：Web站点的信息主要面向一般的非计算机专业用户进行浏览查询，因此对界面的友好性和易用性提出了更高的要求，用户获取信息的渠道越来越多，方式越来越灵活，所以提供给用户的服务应适用于多种形式的用户界面。

3、数据库与信息检索技术的比较： ①最重要的区别是数据库的数据结构性更强，比信息检索的数据包含更多语义，信息检索技术更适合于处理无结构数据，使用近似方法（近似的查询条件说明、近似匹配、近似结果）为用户的浏览需求查找相关信息，数据库则是管理结构数据的最好途径。 ②另一个区别以类属为依据，数据库类属关系中的类由组成一个类的所有必要和充分的处理属性定义；在信息检索中，类的一个个体将只拥有该类所有个体的所有属性的一部分，类属没有充分或必要属性。 ③数据库使用简单演绎推理，而信息检索技术经常使用归纳推理，关系只由确定或者不确定的程度表达，通常用贝叶斯定理进行推导。因此推理的可信度是个变量，这个区别导致数据库被描述为确定性的，而信息检索技术是概率性的。

4、搜索引擎：指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理之后，显示给用户，为用户提供搜索服务的系统。搜索引擎具有以下几种类别：

全文索引——全文搜索引擎从互联网提取各个网站的信息，建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回最终结果，国外代表是谷歌，国内则有著名的百度搜索。根据搜索引擎的不同可以分为两类：一类拥有自己的检索程序，俗称爬虫程序或机器人程序，能够自建网页数据库，搜索结果直接从自身的数据库中调用；另一类则是租用其他搜索引擎的数据库，并按照自定的格式排列搜索结果。目录索引——虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按照目录分类的网站链接列表，用户可以按照分类目录找到所需要的信息，不依靠关键字进行查询，最具代表性的有雅虎、新浪分类目录搜索。元搜索引擎——接受用户查询请求后，同时在多个搜索引擎上搜索并将结果返回给用户。

5、Web搜索引擎的原理：首先用爬虫进行全网搜索，自动抓取网页，然后将抓取到的网页进行索引，同时记录与检索有关的属性，中文搜索引擎还需要首先对中文进行分词；最后接受用户查询请求，检索索引文件并按照各种参数进行复杂计算，产生结果并返回给用户。

6、Web搜索引擎的组成： ①搜索器：在互联网中漫游、发现、搜集信息； ②索引器：理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档及生成文档库的索引表； ③检索器：根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果进行排序，并能按照用户的查询需求合理反馈信息； ④用户接口：接纳用户查询、显示查询结果、提供个性化查询项。

7、Web搜索引擎的工作模式： ①利用网络爬虫获取网络资源：这是一种半自动化的资源（尚未对资源进行分析和理解，不能成为信息而仅是资源）获取方式，半自动化指的是搜索器需要人工指定起始网络资源URL，然后获取该URL所指向的网络资源，并分析该资源所指向的其他资源，从而获取资源。 ②利用索引器从搜索器获取的资源中抽取信息，并建立利于检索的索引表。Web上的信息一般表现为网页，对每个网页应生成一个摘要，此摘要将显示在查询结果的页面中，告诉查询用户各网页的内容摘要；模型化的信息将存放到临时数据库中，由于Web数据的数据量极为庞大，为了提高检索效率，需要按照一定的规则（不同的搜索引擎在建立索引时会考虑不同的选项）建立索引。 ③检索及用户交互：在信息索引库的基础上，接受用户的查询请求，并到索引库检索相关内容，返回给用户，这部分主要内容包括用户查询理解、结果排序。

8、搜索引擎的评价指标：

响应时间——从用户提交查询请求到搜索引擎给出查询结果的时间间隔，响应时间必须在用户可以接受的范围内；查全率——查询结果集的信息完备度；查准率——查询结果集中符合用户要求的数目与结果总数之比；用户满意度——除了搜索引擎本身的服务质量之外，还和用户群体、网络环境有关。

9、网页抓取算法： ①深度优先算法：在Web收集页面信息时，使用一个或一组预定义的URL地址开始，然后根据页面内容中的超链接深度抓取页面，直至搜索结束，没有新的URL为止。 ②广度优先算法：在Web收集页面信息时，使用一个或一组预定义URL地址开始，然后根据页面内容中的超链接广度抓取页面，抓取下一层的URL要先将本层的URL全部抓取，直到搜索结束时返回。 ③基于内容算法：根据关键字、主题文档的相似度和链接文本（包含对URL链接的解释说明和内容摘要）估计链接值，并确定相应搜索策略的算法。 ④基于HITS的算法：在抓取Web页面时，采用Authority/Hub抓取策略，Authority表示该页面引用其他页面的次数（页面入度值），Hub表示其他页面引用该页面的次数（页面出度值）。 ⑤PageRank：根据网站外部链接和内部链接的数量和质量来衡量网站的价值，每个页面的链接都是对该页面的一次投票，被链接得越多意味着被其他网页投票阅读。

10、切分数据的方法： ①随机方法：将所有数据随机分布到不同的结点，不支持更新操作； ②哈希方法：根据某个列或者某些列（分布键）的哈希值将数据分布到不同结点； ③区间方法：将所有数据按照不同区间分布到不同结点，区间到节点的映射信息需要保存下来。

11、匹配可基于属性值、等级属性值或属性剖面（余弦相似性），如果有一个以上的要匹配的输入要素，则需要将这些要素的属性取平均值来创建符合目标要素，以用于匹配过程。

属性值——匹配参数选择ATTRIBUTE_VALUES，工具首先标准化所有感兴趣属性，对于每个候选要素，将从目标要素中减去标准化值，求得平方差，然后再将每个平方差相加，相加总和即为该候选要素的相似性指数，所有候选要素经处理后，按照指数从小到大的顺序对候选要素进行分级；等级属性值——匹配参数选择RANKED_ATTRIBUTE_VALUES，工具首先为目标要素和所有候选要素对感兴趣属性进行分级排序，然后将每个候选要素对目标要素相关的每个属性平方差求和；属性剖面——匹配参数选择ATTRIBUTE_PROFILES，工具先将所有感兴趣属性标准化，然后用余弦相似性方法比较每个候选要素的标准化属性矢量与所匹配目标要素的标准化属性矢量，余弦相似性指数范围为1.0（完全相似）—— -1.0（完全不相似）。

12、数据可视化：为人们提供了从阅读局部信息到纵观全局信息、从表面到本质和从内容到结构的有力工具，演化过程是从文本到树和图，再到多媒体，以便最大限度地利用人们的多通道和分布式认知功能以及形象思维功能。数据可视化致力于通过交互可视化界面进行分析、推理和决策，人们可以利用可视化分析技术和工具，从海量、动态、不确定甚至包含相互冲突的数据中整合信息，获取对复杂情景的更深层的理解。

13、准备可视化的数据分类： ①系列对象，之间相互关联：要展示数据之间的相互关系，实质是一个网络图，可以通过一些技巧把简单网络图变成更好的形式。 ②层级数据：数据之间可以分成几个层级关系，即层级图，使用散点的大小或者颜色等属性来表示数据的大小，标签云也属于此类，可以通过每个标签的大小颜色等来表示数据的大小。 ③多维数据：将超过人类理解能力的多维数据转化为人类能够直观理解的可视化结果，传统可视化方法有平行坐标、散点图矩阵、维度降维法。 ④将时间和空间可视化：通过时间维度来查看指标值的变化情况，一般通过增加时间轴的形式，即常见的趋势图，当图表存在地域信息并且需要突出表现的时候，可用地图将空间可视化，地图作为背景呈现所有信息点。 ⑤让图表动起来：数据图形化完成后可以变成动态化和可操作性的图表，用户在操控过程中能更好地感知数据的变化过程，提升体验。 ⑥多种可视化方法结合：越来越多的可视化系统通过结合不同的科学和数据可视化方法，提供一致的多视角和连贯的交互手段，使可视化系统能够提供日益复杂的数据所需的分析能力。

14、数据可视化分析的类型：原始数据分析、营销数据分析、业务场景数据分析、地理位置数据分析、用户画像。

15、个性化精准推荐：

订阅推荐——订阅选项十分丰富，或关联社交账户，或通过搜索关注话题，或根据以往阅读文章推论，或根据关注对象；商品推荐——根据浏览过的商品推荐，根据购买过同一商品的客户所购买的其他用品进行推荐，成功率较高；社交图谱&兴趣图谱——把所有与用户相关的连在一起，社交图谱分析已经广泛用在反欺诈、影响力分析、舆情监控、市场细分、参与优化、体验优化等方面。

16、决策分析： ①销售决策：比如当用户登录购物网站时，会把这名消费者在网站上的行为和以前其他登陆过该网站的消费者行为做对比，做出分析和预测，然后给出一份实时的建议； ②旅行决策：通过抓取海量数据，分析提取关键字、建立评价体系，让用户不用看长篇攻略就能够掌握核心信息，快速做出旅行决策。

17、知识图谱：本质上是语义网络，把所有不同种类的信息连接在一起得到的一个关系网络，是一种基于图的数据结构，由结点和边组成，在知识图谱中，每个结点表示现实世界中存在的“实体”，每条边为实体间的关系。知识图谱的存储方式主要有两种：RDF存储格式和图数据库。

18、知识图谱的应用： ①反欺诈：基于大数据的反欺诈重点是如何把不同来源的数据整合在一起，并构建反欺诈引擎，从而有效地识别欺诈案件。知识图谱提供非常便捷的方式来添加新的数据源，并且本身就是用来表示关系的，这种直观的方法可以更有效地分析复杂关系中存在的特定的潜在风险。反欺诈的核心是人，首先需要把与借款人相关的所有数据源打通，并构建包含多数据源的知识图谱，从而整合成为一台机器可以理解的结构化知识。 ②不一致性验证：涉及知识的推理（“链接预测”），也就是从已有的关系图谱推导出新的关系或链接。 ③异常分析：可以简单理解成从给定数据中找出异常点，这些异常点可能会关联到欺诈，大多数异常分析的计算量比较大，可以选择做离线计算，在应用框架中可以把异常分析分为静态分析（给定一个图形结构和某个时间点，从中去发现一些异常点）和动态分析（分析结构所时间变化的趋势，涉及时序分析技术和图相似性计算技术）两大类。

19、知识图谱在实际应用中的挑战：

数据的噪声——数据中存在着很多噪声，第一，目前积累的数据本身有错误，这部分数据需要纠正（常用方法是做离线的不一致性验证）；第二，数据的冗余，采用自然语言处理的“消岐分析”技术，从海量的数据中找出存在歧义的名字并将它们合并成一个名字。非结构化数据的处理能力——很多数据目前都是未处理过的非结构化数据，比如文本、图片、音频、视频等，从这些非结构化数据中提取有价值的信息是一件非常有挑战性的任务，对机器学习、数据挖掘、自然语言处理能力的要求进一步提高。知识推理——推理能力是人类智能的重要特征，使得我们可以从已有知识中发现隐含的知识，当信息量较多时，关键是怎么把这些信息有效地与推理算法相结合，常用的推理算法包括基于逻辑的推理和基于分布式表示方法的推理。

20、生态闭环——构建有效的自反馈系统使其能够实时地反馈给模型，并是得模型不断地自优化从而提升准确率。

Processed: 0.061, SQL: 9