秋招面试题(NLP)总结4. NLP基础任务

技术2026-01-09 33

一. 分词算法

分词算法有哪些维特比算法推导解释隐马尔可夫模型，和CRF条件随机场的区别新词发现怎么做解释条件随机场CRF模型说一下，优化目标是什么，怎么训练的？CRF和HMM的区别HMM做了哪些独立性假设HMM的训练方法CRF的预测方法，维特比算法的过程BILSTM+CRF的训练目标？状态转移矩阵是joint learn的吗？维度是多少？其中CRF的作用维特比算法的时间复杂度CRF和HMM的区别，从有向无向图的角度呢？从其他角度呢？在词向量中很稀疏和出现未登录词，如何处理隐马尔科夫模型如何运用在分词中MEMM算法的计算公式与推导过程

二. 文本匹配

ESIM的模型了解吗讲一下DSSM（CNN-DSSM,LSTM-DSSM,负样本）文本匹配常用算法文本相似度常用算法能想到哪些衡量两个向量之间距离的方法衡量两个字符串之间距离的方法？

三. 文本分类

文本分类除了CNN和RNN还知道哪些方法讲一下Textcnn的运算过程文本分类中的多义词问题可以怎么解决？文本分类预处理过程？如何生成词向量？如何抽取特征？去除停用词？（分词-去停用词-文本向量化）CNN和RNN各自在处理文本方面的特点，什么时候用。实际应用场景中，如何进行文本分类，如何辨别广告文本、色情文本等实际应用场景中，如何利用强化学习做商品推荐数据增强有哪些方法细粒度的任务如何解决？深度学习不平衡分类算法

四. 序列标注

BILSTM + CRF模型的原理依存语法分析如何实现

五. 命名实体识别

给定两个命名实体识别任务，一个任务数据量足够，另外一个数据量很少，可以怎么做命名实体的应用场景，泛化能力怎么样tag提取怎么做的，讲一下LDA，讲一下隐狄利克雷分布，里面有个辛普森采样了解吗命名实体识别模型介绍？评价标准 ROC？命名实体识别模型的参数量？

六. 文本生成

GAN在文本生成中如何应用Seq2seq和GAN在文本生成中有什么本质的区别如何解决GAN中生成器与判别器训练不平衡的问题如何解决GAN中文本离散的问题

七. 文本摘要

摘要抽取怎么做的，目前主流的方法有哪些摘要抽取可读性问题怎么回事？

八. 对话系统

你了解对话系统么，知道对话系统目前的主流方法么假设让你马上设计一个对话系统，你会怎么做了解推荐系统么，如果公司需要马上设计一个商品推荐系统，你会怎么做淘宝搜索时的自动补全该怎么做，用什么模型或者算法 (模糊匹配算法，前缀匹配)

九. 机器阅读理解与常识问答

Bert后的机器阅读理解方法主流的说几种，为什么这些方法有效果知识蒸馏怎么做，在你设计的领域中，有用知识蒸馏的方法吗你做过常识推理的任务，目前主流的方法有哪些呢，如果选一种让你改进，你会怎么改

十. 测试指标

BLEUROUGEMicro 与 Macro 指标的区别

十一. 自回归模型

哪些模型用了自回归模型auto-regression非自回归的模型如何一次性生成整个句子 (机器翻译的最新论文)

十二. 推荐系统

推荐里面的低秩矩阵分解具体是怎么做的？线性代数里面的矩阵分解你知道吗？具体是怎么做的？搜索引擎的拼写纠正怎么做的？(楼主说了朴素贝叶斯和词袋模型)讲一下Easy-Ensemble和SMOTE算法graph embedding常用方法,讲了deepwalk,node2vec了解工业界如何做召回么介绍了一些经典的推荐系统算法。协同过滤（基于用户，基于内容），矩阵分解及其后续改进（PMF）介绍一些基于深度学习的推荐算法BPR（贝叶斯个性化排序）系列，CDL（基于MF架构引入自编码器提取item特征），CML（度量学习范畴），NCF，RRN（基于RNN建模用户历史偏好），基于强化学习的推荐算法等。BPR（贝叶斯个性化排序）的理解一堆恶意文本 case，怎么检测去除（一些网页上的广告评论），传统方法、AI 方法知识图谱与推荐相结合，给个方案假如一些商品之间存在联系或者互斥，怎么利用这些先验信息？采用什么框架？

十三. 搜索引擎

加快搜索速度方法。lucene搜索关键字搜索如何实现。深度优先和广度优先的本质区别。

Processed: 0.014, SQL: 10