秋招面试题(NLP)总结3. 深度学习基础模型

    技术2025-12-27  13

    一. RNN

    LSTM如何解决梯度消失和梯度爆炸LSTM长短期记忆如何实现LSTM的结构与公式推导LSTM相比于传统RNN解决了什么问题?怎么解决的?RNN 为何引出LSTM,其优缺点,解决的问题时?BiLSTM的网络结构LSTM如何调参LSTM和GRU区别关于LSTM、GRU、RNN的区别,梯度下降的过程,如何改善梯度下降的缺点。LSTM解决梯度爆炸或者梯度消失的数学逻辑RNN的参数量计算,非常细节,给定输入输出,计算参数量手写LSTM并实现反向传播LSTM中存在Normalization么,请说明理由LSTM的改进点有哪些?画出LSTM网络的结构图,并说出里面涉及到的每一个公式

    二. CNN

    CNN模型结构是怎样的,公式推导是怎样的pooling作用 反向传播的时候怎么传递pooling的导数CNN 介绍 反向传播 如何做的,参数共享指的是?CNN有哪些层?卷积层作用?池化层作用CNN中的平移不变性CNN用在文本里和用在图像里有什么区别,用在文本里时卷积核的宽度代表什么CNN和LSTM都可以用于分类,两者用于分类有什么区别?CNN的卷积计算与参数计算详细推导过程CNN 模型中池化层的作用,Max Pooling 是如何反向传递梯度的CNN和传统的全连接神经网络有什么区别?Convolution、 pooling、 Normalization是卷积神经网络中十分重要的三个步骤,分别简述Convolution、 pooling和Normalization在卷积神经网络中的作用。输入为L*L,卷积核为k*k,还有步长s和padding p,求输出尺寸?求操作的FLOPs?

    三. Attention机制

    attention的结构,Encoder-Decoder的结构,attention怎么工作?attention机制 self-attention还有multi-headb-attention和L-attention的不同Transformer的结构图,讲一下原理,为什么self-attention可以替代seq2seq机器翻译的Attention机制,里面的q,k,v分别代表什么transformer中句子的encoder表示是什么;怎么加入词序信息的Attention模型和CNN 的区别?Transformer结构,input_mask如何作用到后面self-attention计算过程。Transformer中的三种mask的区别讲transformer如何并行化运算,self-attention和普通seq2seq的attention区别前馈神经网络有没有隐藏层如何理解Transformer中的位置信息,后续有什么改进Transformer embedding部分为什么用+不用concat注意力机制介绍的原理与数学推导self-attention和attention的区别local attention和global attention的区别对Transformer的改进模型你了解多少,为什么改进后会有效果Transformer 用的 Layer Normalize 还是 Batch Normalize?有什么区别point-wise,pair-wise, list-wise的优缺点,对这些loss的常用设计形式了解吗

    四. 搜索算法

    beam/greedy search 原理beam search的优化,除以长度平均每个词的概率,diverse beam_search啥的beam-search,如何在做生成任务的时候,生成多个结果并且保证结果的多样性

    五. 图神经网络

    推导GCN和GAT的计算公式,说说GAT与Transformer有什么区别GAT和Attention的联系和区别GCN,GraphSAGE,GAT等模型的联系和区别,GCN,GAT,GraphSAGE哪一个更适合于大规模图?为什么?为什么GCN难以训练,GCN有什么问题介绍你所了解的GCN的变体如何从标准的谱图卷积过渡到现在的典型GCN:谱图卷积——切比雪夫多项式近似频域卷积核——取一阶近似并对切比雪夫系数进行化简GraphSAGE的基本原理,GraphSAGE中的聚合方式,GraphSAGE与GCN的的区别,要从Transductive和Inductive的角度去解释GraphSAGE和GCN的本质区别。Deepwalk,Node2vec的原理以及区别?传统图嵌入算法:Deepwalk,Node2vec的原理以及区别?在大规模图上使用Deepwalk,Node2vec会出现什么问题?异质信息网络中的异质信息是什么,如何构建异质信息网络如何从异质信息网络中提取user,item的Embedding Deepwalk,Node2vec等Graph Embedding方法Node2vec中分别以BFS和DFS的方式游走会对最终的推荐结果产生什么影响?使用metapath(元路径)的好处

    六. 强化学习算法

    Q-Learning和DQN的区别?和Policy Learning的区别呢

    七. GAN

    介绍一下什么是GAN?GAN的损失函数形式是什么样的?GAN是怎么训练的?对抗学习有了解吗?
    Processed: 0.011, SQL: 9