NLP 关键词提取常用方法

技术2024-10-02 89

特征词提取常见算法

----------无监督----------

1.TF-IDF

重要性=每个单词的词频TF * 逆文档频率IDF。思想：如果单词或短语在一篇文章中出现频率更高（TF值高）而在其他文章中出现少（DF值低，IDF值高），则认为该词或短语可以很好地代表文章，并可以用于分类。

2.TextRank

基于PageRank，该算法认为，如果在Page B中有指向Page A的链接，则Page B会投票给Page A，为了计算Page A的PageRank值，我们需要知道哪些page会投票给Page A。同时，PageRank值也会被投票page的质量影响。当一些高质量的页面投票给Page A，A的PR值就会上升，反之下降。候选词的重要性根据它和其他候选词的关系来确定。将文本划分为几个组成单元（单词，短语，句子），并通过组成单元之间的相邻关系（共现关系）构建图模型。节点的入口节点集代表其投票支持者的数量。选民越多，权重越高，被投票节点的权重就越高。

可以结合位置加权等

3.基于LDA的关键词提取

LDA的训练，可以的得到一篇文章的主题分布p(z|di)，和文章中词的主题分布p(z|wi)，可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大，而该文章中某个词对于该主题z也拥有更大的概率，那么该词就会有非常大的概率成为关键词。在gensim里，使用的方法是：候选的关键词与抽取的主题计算相似度并进行排序，得到最终的关键词。

-------------------------

4.Word2vec

候选词对应的词向量，对词向量进行聚类，距离聚类中心点最近的向量为关键词。

5.基于语义的关键词提取（SKE）

得分由三部分组成：1、居间度密度Vd；2、词性pos(名词、动词……), 位置loc(标题，段首，段尾），词长；3、TF-IDF值；对1、2、3加权得到最后的词语关键度得分。居间度密度为这篇论文提出的特征。

6.TPR

LDA + TextRank TPR的思想是每个主题单独运行各自的带偏好的TextRank，每个主题的TextRank都会偏好与主题有较大相关度的词，这个偏好就是设置随机跳转的概率来得到的。

资料补充： https://zhuanlan.zhihu.com/p/61666342

论文1：融合主题词嵌入和网络结构分析的主题关键词提取方法主要方法：利用LDA主题模型进行初步提取，利用Word2Vec训练词向量，利用词向量相似度传播构建关键词网络，利用网络结构分析方法对主题词进行二次提取。

论文2：基于改进TF-PDF算法的地震微博热门主题词提取研究主要方法：分词——>依据权值对候选主题词进行排序（主题特征项的权值由发布微博的博主影响力以及微博的关注度确定）——>获得地震信息的热门主题词传统的TF-PDF算法侧重于计算微博信息中的热点词语，仅是对词语出现频率进行分析，对于发布微博的博主、每条微博的转发数等未加以考虑。即该方法添加了微博影响力的计算。

论文3：基于TFPDF的热点关键短语提取在TFPDF的基础上，添加了位置权值（在标题的词语权值更大），通过计算脉冲值过滤列表中的噪声（一些词汇长期在新闻报道中频繁出现且分布不会发生变化）

论文4：基于LDA耦合空间模型的作文跑题检测方法 LDA主题词提取

论文5：Automatic Keyword Extraction Using TextRank 结合了基于TextRank的启发式方法和嵌入式单词表示法，此外，还考虑了提取关键词的句子的重要性。句子重要度分数最初是根据句子级别的TextRank算法得出。单词级加权TextRank模型中的初始边缘权重将通过其相应的句子分数进一步调整。在该图中，所提出的算法包括：A）句子分数计算； B）关键字分数计算。第一阶段在句子级别应用TextRank算法，得出每个句子的重要性得分。在第二阶段中，在单词级别上实现了TextRank算法的一种变体，并将其与嵌入式单词表示形式相结合。在计算第二个短语中的单词分数时，会考虑第一个短语的句子分数。最后，将与最高分相关的单词作为提取的关键字进行检索。

论文6：Automatic query-based keyword and keyphrase extraction 基于用户查询——通过应用文档相似度度量，用向量空间模型算出每个文档和查询之间的相似度得分，选k个得分最高的k个文档——用RAKE提取每个文档的关键词和关键短语——重新计算分数（会结合文档分数）

论文7：Keyword Extraction Method for Complex Nodes Based on TextRank Algorithm 结合TextRank和TF-IDF 步骤：文本预处理——过滤候选词——提取关键词分别从新闻标题和文本提取。

论文8：Research on News Keyword Extraction Technology Based on TF-IDF and TextRank

-----------------待补充-----------------

Processed: 0.020, SQL: 9