秋招面试题(NLP)总结2. 机器学习

技术2025-12-31 10

机器学习算法常考的点主要包括：朴素贝叶斯，SVM，LR，CRF，HMM，XGBOOST，LGB，线性回归，决策树，KNN，k-mean，GBDT，PCA，LAD，ADABOOST，特征工程，评价指标，正则化，生成/判别/概率模型之类的等。

零. 数学基础

最小二乘法的推导公式，最小二乘究竟是什么，和极大似然的关系手推任何机器学习公式（LR、SVM、GBDT、XGBOOST）讲一下极大似然估计，写一个公式，极大似然估计和最大后验估计的区别是什么？了解贝叶斯公式么，写一个极大似然估计=最大似然估计，能否用代码实现EM算法与FM算法公式推导给出前向传播算法的公式，并给出解释简述反向传播算法的原理，可给出公式推导解释一下AUC的计算方法和它代表的意义如何理解最大熵算法，用公式表示呢如何理解元启发式算法KL散度的计算公式假设两个分布A 和 B，我们一般怎么衡量两个分布之间的距离，一般用什么距离？假设有两个分布P和Q，你觉得P和Q的KL散度和 Q和P的KL散度是相等的吗？解释一下AUC的计算方法和它代表的意义

一. SVM

SVM怎么解决不容易找到超平面的问题介绍SVM和SVM核函数SVM过拟合如何解决SVM中，高斯核为什么会把原始维度映射到无穷多维？SVM中有哪些调参经验SVM的理论依据与SVM手推实现SVM有哪些核函数，对应有哪些使用场景和特点SVM为什么用hinge loss，解释hinge lossSVM的核函数有哪些？你都用过哪些？SVM 需不需要做 normalization？解释核函数及其应用SVM多分类怎么做到的（OVR、OVO、层次SVM），分析各自的特点SVM，高斯核实映射到多少维，为什么KKT 条件SVM的推导过程，使用hinge loss的意义，为什么linear svm的bound要设为1？什么是kernel trick？对应无限维空间可以使用哪种kernel function？使用hinge loss的意义，为什么linear svm的bound要设为1？

二. GBDT

GBDT和逻辑回归的区别GBDT和Xgboost的区别，XGBoost相比于GBDT有哪些改进如何改进和提升Xgboost模型介绍一下LightGBM与Xgboost的区别GBDT推导Xgboost原理，怎么防过拟合boosting和bagging在不同情况下的选用Adaboost和XGBoost的区别，Adaboost和XGBoost是怎么进行预测的LightGBM和XGBoost，GBDT的区别（LGB=GBDT+GOSS+EFB）DEEP&WIDE模型，DEEP FM知道吗？Adaboost，gbdt，xgboost，从损失函数，基学习器，训练方式等方面说明，写了xgboost的泰勒展开Gbdt是怎么选择特征的，答借助于CART树模型进行选择，类似于ID3,C4,5用信息增益和信息增益率。GBDT还可以构建特征什的XGBOOST ，LGB 生长策略，分类策略Xgboost怎么解决拟合和泛化问题的GBDT是否只能用CART树，GBDT中残差计算公式lightgbm的直方图加速讲一下？具体是怎么来做的？lightgbm的叶子节点是怎么分裂的？说一下

三. 逻辑回归

逻辑回归不做标准化有影响吗，神经网络呢？Lr做分类，有的连续特征为什么要离散化，离散化的优点Lr模型的输入和输出分别是什么Lr对商品进行点击进行概率预测，输入需要做一些什么处理LR(逻辑回归)是怎么优化的？Lr---对商品，估计商品点击的概率--预测为什么Lr按照分布需要将特征如何进行离散化lr模型---根据做特征交叉，为什么lr中如何缓解过拟合减轻特征工程的手段，--如何构建更多的特征逻辑回归和 SVM 之间的区别 --- SVM 自带正则化，各自适用的使用场景逻辑回归的损失函数。逻辑回归中logit函数和sigmoid函数的关系当数据量特别大的时候，逻辑回归(LR)怎么做并行化处理？你能详细的讲解一下，线性回归的原理么？具体讲解一下线性回归的底层原理，比如说如何训练，如何得到参数，如何调整参数等？lr的损失函数是什么？lr为什么不用min square loss？

四. 多层感知机

线性和非线性存在什么关系之间的关系特征工程你知道吗？用过吗？对于连续特征，我们通常有两种处理方式：1. 连续特征离散化；2. 特征缩放，这两种分别在什么情况下做？特征相关性你一般用什么指标？(皮尔逊系数)，写出皮尔逊系数的公式画一下混淆矩阵，写一下精确率和召回率的公式谈谈判别式模型和生成式模型？怎么衡量两个分类的相似度混淆矩阵和softmax输出的两个概率之差这两种方法确定分类相似度的异同Softmax的计算公式写一下呢

五. 随机森林和决策树

介绍随机森林讲一下随机森林，GBDT，XGBoostGBDT和随机森林的区别来说一下？GBDT和随机森林的树的深度哪一个比较深？为什么？XGBoost和随机森林的特征重要性是怎么计算的？树模型如何处理离散型特征决策树手推实现排队论模型服从什么分布介绍决策树模型及其扩展介绍决策树有哪些决策树ID3算法的特征选择指标，口述一下数学公式(信息增益)KNN原理，kd树的构建与搜索，讲原理lda的实现方法，lda中的奇异值分解矩阵实现ID3、C4.5、CART树是什么？分别说下它们的优势？用一些特征判断用户会不会点击某商品，用cart好还是c4.5好

六. 优化算法与优化器

如何解决过拟合 L1 L2的区别，batchnorm的作用梯度消失爆炸的原因怎么解决如何解决模型不收敛问题以及如何加快模型的训练速度解决梯度爆炸的方式（算法层面)bn/ln/wn的区别以及适用场景如何解决sigmoid函数饱和后的梯度消失问题过拟合的解决方法，如何防止过拟合为什么rnn比cnn和全连接层神经网络更容易发生梯度消失或爆炸怎么判断过拟合，怎么防止过拟合，说一下dropout模型训练的停止标准是什么？如何确定模型的状态（指标不再提升）数据不平衡怎么做正负样本不均衡的问题，如何解决？一种可行的方案是用拒绝推断，一种方案是用smote 深度学习模型在训练过程中如何加速收敛模型学习中，正负样本的训练方式不同有什么影响少样本情况怎么缓解Batch Normalization为什么能够解决梯度爆炸问题有哪些优化方法，有哪些二阶优化方法，牛顿法存在哪些问题过拟合和欠拟合的特征，如何预防？不均衡问题如何处理？梯度消失问题和损失函数有关吗？梯度优化的角度，提高迭代速度（梯度下降到牛顿法、拟牛顿法、SGD、MBGD，动量，NAG，自适应的Adagrad、RMSpropAdam随机梯度下降相比全局梯度下降好处是什么归一化有哪些方式，说一下为什么要归一化呢解释下什么是Early Stop，有什么作用

七. 优化器

介绍优化器的作用，以及不同优化器的区别Adam，SGD，BertAdam为什么要WarmupSGD min-SGD的区别对epoch做shuffle，类似于哪一种优化器什么情况下不适用动量优化器，WGAN要保证梯度平滑，使动量优化器容易过拟合，防止梯度突变用梯度下降的思路求开根号如何理解一阶优化器，二阶优化器如何做标签平滑Adam如何设置参数使学习率衰减？描述梯度下降法的原理参数优化方法说一下(梯度下降的三种方式的优缺点)深度学习里面的优化方法momentum和Adam来分别讲一下原理和公式

八. 激活函数与正则化

激活函数有哪些以及他们的区别batch-normalization和layer-normalization的区别，在训练阶段和测试阶段，Batch Normalization和Dropout有什么不同Dropout 和L1 和l2是什么关系，有什么异同正则项为什么能减缓过拟合权重衰减等价于哪个正则项正则化有 L1 和 L2 正则化，区别是什么？Dropout有什么作用，为什么会提升效果，它类似于Bagging，Bagging是什么有哪些正则化方法，L1，L2正则化，决策树，剪枝batch_normal为什么需要还原激活函数无限维的问题存在哪些加速收敛的方法，BN, GN, IN, FN的原理详细解释一下呢，BN为什么能够加速收敛BN为啥可以缓解过拟合，详细讲一下，BN有哪些需要学习的参数啊，BN训练和测试是怎么做的？BN一般用在网络的那个部分呢

九. 分类与聚类算法

聚类算法，各种聚类算法的优缺点划分：K-means 层次：AGNES 密度：DBSACN 模型：EMkmeans算法，K-means算法中的K怎么确定的？说一下K-means聚类的原理以及过程？K-means聚类怎么衡量相似度的？(我说欧式距离)写一下欧式距离的公式生成式学习和判别式学习的区别如何理解EM算法POI的聚类怎么做的？层级聚类如何理解无监督学习，什么时候用无监督学习如何理解K-means聚类，层次聚类，谱聚类、dbscan、fast clustering、psla、lda

十. 贝叶斯算法

朴素贝叶斯是一个什么类型的算法，用来解决什么问题。详细讲一下其损失函数。朴素贝叶斯的x是连续值的时候该如何计算贝叶斯分类的前提假设朴素贝叶斯的底层原理，比如说，如何选参数，如何训练模型，如何做分类？

十一. 概率图模型

概率图模型，有向图模型和无向图模型分别作了哪些假设？CRF的训练目标是什么？CRF与HMM，特征函数，有向图无向图，因子分解。

十二. 损失函数与激活函数

mse和交叉熵的区别交叉熵，相对熵的关系，交叉熵的计算公式Bagging, boosting , 偏差，方差关系损失函数中的KL散度和MMD的作用是什么Sigmoid 和 ReLU 区别，ReLU 解决了什么问题。PCA跟softmax差別介绍一下Gumbel-Softmax trick如何理解层次化Softmax讲一下偏差和方差的区别，可从欠拟合和过拟合的角度入手神经网络为啥用交叉熵。sigmoid，tanh，ReLU, leaky ReLU, PReLU, ELU，random ReLU等RELU的缺点是什么，如何解决为什么用sigmoid函数进行非线性映射（从二项分布的伯努利方程角度）

Processed: 0.021, SQL: 9