秋招面试题(NLP)总结5. 预训练模型

技术2026-01-07 12

零. 词向量

词向量 onehot的缺点 word2vec，glove，elmo，bert区别如何判断两个词相似Fasttext原理，相对于word2vec有什么优势word2vec的训练过程，word2vec是有监督的还是无监督的？讲了word2vec，层级softmax和负采样这些Word2vec的训练方式，那种更好，CBOW模型和skipgram模型，霍夫曼树，负采样等等LDA的词表示和word2vec的词表示有什么区别，word2vec 负采样如何做到的你了解哪些词向量生成方式，每一种是怎样做的，Word2vec，tf-idf，n_gram，Glove，Fasttext Fasttext 原理，为什么用skipgram不用cbow，负采样怎么做到，公式是什么？ Fasttext原理，cbow和skipgram的区别，分层softmax和負采样，負采样的采样原理，为什么要这样采样，Fasttext哈希规则，怎么把语义相近的词哈希到一个桶里。 Fasttext怎么做分类的，词向量用什么训练的，维度多大 Fasttext和word2vec的区别Fasttext的过程，FastText n-gram 内存不足怎么办？jieba怎么用的，gensim和hanlp涉及的算法（double-trie），考察常用的分词算法Glove的推导过程因果词向量的应用场景什么情况下需要将连续特征离散化--- One-hot稀疏词向量用skip-gram还是cbow训练好，请说出理由

一. ELMo

BERT 和 ELMO 的区别

二. Bert

BERT细节介绍，与GPT、ElMo比较。Bert, XLNet, Roberta, AlBert的区别bert mask，cls等比较详细的分类损失函数都有哪些word2vec和bert区别，然后损失函数（负采样，哈夫曼softmax）Bert的两种输出为什么人工智能在图像里应用落地更好，在nlp不行。谈谈你的看法Bert掩码如何实现BERT为什么只用Transformer的Encoder而不用Decoder微软 UniLM 主要为解决什么问题提出的？三个子模型分别是什么？谈一谈模型压缩的相关知识三大角度：蒸馏，剪枝，量化。剪枝与正则化的联系结构化剪枝和非结构化剪枝介绍预训练语言模型 ELMo，BERT，Transforler-XL，XLNET，ERNIE，RoBERTa，ALBERT，ELECTRA。。。笔者从BERT的mask LM以及QA任务出发讲解了BERT后续各大预训练的改进能否描述下Bert的分词方法，如何实现WordPiece

Processed: 0.014, SQL: 9