总结了自然语言处理的概念、发展历史、研究方法、基础研究的四个层次、应用领域、预测与展望。
自然语言处理(Natural Lan-guage Processing,NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科。
四个阶段:
1956 年以前的萌芽期 1936 年 A.M.Turing 发明了“图灵机”后来 Kleene 又在这种模型之上提出了有限自动机和正则表达式。 1957-1970 年是快速发展期 1956 年,Chomsky 提出了上下文无关语法快速发展期,上下文无关语法的提出使得该领域的研究分为了基于规则的符号派和基于概率的随机派 1971-1993 年是低谷发展期 70 年代的语音识别算法研制成功,隐马尔科夫模型(Hidden Markov Model,HMM)提出并得到了广泛应用[1] 1994 年到如今是复苏融合期 首先是概率方法的大规模应用;其次是计算机的速度和存储量的大幅度提高,促使该领域的物质基础得到了改善;最后是网络技术的发展带来的强大推动力。中文信息处理主要是对字、词、段落或篇章进行处理。
基于规则的方法 前者是人工根据语言相关的规则对文本进行处理; 基于统计的方法 后者则是通过大规模的数据库分析数据,从而实现对自然语言的处理。获取预料
对语料进行预处理
语料清理分词词性标注去停用词特征化(向量化)
把分词后的字和词表示成计算机可计算的类型向量),这样有助于较好的表达不同词之间的相似关系。模型训练
有监督、半监督和无监督学习模型
训练模型时可能会出现过拟合和欠拟合的状况
过拟合
学习到了噪声的数据特征解决过拟合的方法主要有增加正则化项从而增大数据的训练量欠拟合
是不能较好的拟合数据解决欠拟合则要减少正则化项,增加其他特征项处理数据对效果进行评价
评测指标有准确率(Precision)、召回率 (Recall)、F 值 (F-Measure)等准确率(Precision) 准确率是衡量检索系统的查准率 召回率 (Recall) 召回率是衡量检索系统的查全率 F 值 (F-Measure) 综合准确率和召回率用于反映整体的指标,当 F 值较高时则说明试验方法有效 不太理解准确率和召回率句法分析的主要任务是为了确定句子中各组成成分之间的关系,也就是其句法结构,技术实现上主要分为修辞结构分析和依存关系分析,功能上可分为完全句法分析和局部句法分析。
修辞结构分析
依存关系分析
依存句法也称从属关系语法。一个依存关系可分为核心词和依存词[6]核心词是一个句子的根节点,一个句子只有一个,它负责支配句子中的其他词,核心词一般与依存词之间存在着一定的关系,如主谓关系、动宾关系和并列关系等。完全句法分析
完全句法分析是要通过一套完整的分析过程获得一个句子的句法树Chomsky 形式文法是极为重要的理论,根据重写规则分为 4 级[5] 0 型文法(无约束文法)1 型文法(上下文有关文法)2 型文法(上下文无关文法)3 型文法(正则文法)这 4 种文法统称为短语结构语法局部句法分析
局部分析也叫浅层分析,仅获得局部成分的语法。浅层句法分析可分为两个子任务 识别和分析语块分析语块之间的依附关系对于不同的语言单位,语义分析有着不同的意义。
在词的层面上,语义分析指词义消歧;在句的层面上指语义角色标注;在篇章的层面上指共指消解[7]。语义分析是目前 NLP研究的重点方向。
语用分析主要是把文本中的描述和现实相对应,形成动态的表意结构。 语用分析有四大要素:发话者、受话者、话语内容和语境。
前两者指语言的发出者和接受者;话语内容指发话者用语言符号表达的具体内容;语境指言语行为发生时所处的环境,主要有上下文语境、现场语境、交际语境和背景知识语境。有两方面的任务[8]
存储海量信息根据用户需求快速查找相关信息是根据一套分类规则对文本进行自动分类的过程
是一种通过判断文本情感极性去表征文档的技术
是通过计算机将一种语言翻译到其他语言
是采用互联网、大数据和机器学习等技术来研究社会问题,并寻找出一种合适的方法去解决问题。
信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究[9] 。 信息抽取的主要方法… 信息抽取的主要工作…
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标
使语言的简短保留重要信息[16]自动文摘的分类… 自动文摘生成方法…
理解语言不能光靠逻辑,还要有强大的知识库,需要有这些支撑才能更好的处理数据并对文本进行进一步的理解和分析
注:本篇博客为文献学习笔记 参考文献:自然语言处理发展及应用综述_赵京胜