题目:https://wenku.baidu.com/view/11e65610bc1e650e52ea551810a6f524cdbfcb65.html
摘要: 针对问题一,本文先对数据进行预处理,得到数值化的定距型指标和定类型指标;针对定距型数据采用 Spearman 相关性分析方法,针对定类型数据用单因素方差分析方法,得到影响线路价格的定距型因素有总里程、线路总本、线路指导价、车辆的参数以及计划的车程时间,定类型因素主要为地区、调价类型等。 问题二(综合模糊评价,不是我搞的) 针对问题三,本文先对附件一数据建立了总里程等相关因素与成交价格、指导价格、线路成本的多元线性回归模型;为了提高线路价格的预测精度,又建立了基于多因素的 LightGBM 回归模型并与多元线性回归模型进行比较;最后,以历史成功交易的平均溢价比为参考,根据不同需求紧急程度为附件 2 的任务进行了三次报价定价。
关键方法: Spearman 相关性分析 多元线性回归 LightGBM回归
(1) 数据的清洗:缺失值处理,即表中一些指标的数据存在“N”值的,需要进行剔除,例如调价紧急程度、C 端议价等;重复值处理,我们认为指标意义相近的可以只择其一作进一步处理,例如交易成功时长和交易开始时间与交易成功时 间之差相接近,所以我们选择剔除交易开始时间和交易成功时间。这样一来,简化了数据,再进行文本数据和时间数据的数值化处理。 (2) 文本数据的处理:只针对文本数据中的定序型指标进行量化处理,对其进行等距编码处理,处理后视为定距型指标。以运输等级为例,一共有一级运输、二级运输和三级运输三个等级,则分别用 1,2,3 来表示。在我们的方法中定类型文本数据无需进行量化处理。 (3) 时间数据的处理:该问我们只涉及部分时间数据,包括所有计划时间、实际时间。表中的交易时长为具体的分钟数,因此我们将计划时间和实际时间也进行相似的量化,以计划时间为例,即 计划时长 = 计划到达时间 – 计划靠车时间
程序:https://download.csdn.net/download/weixin_40820983/12565119
结果展示:
spearman相关性分析部分结果根据筛选后的指标建立多元线性回归模型,并使用 Python 进行计算,得到总里程、车辆长度、车辆吨位、运输等级、地区、计划发车计划到达时间的回归分析系数的估计值:
结果展示:
成本多元线性回归结果指导价多元线性回归结果
由于线路成交价预测问题相较于线路总成本具有更多的考虑因素,譬如需求紧急程度、线路编码、是否续签等等,因此相较于线路总成本的预测具有更大挑战性。且通过多元线性回归,发现其平均相对误差大于 10%,因此本部分采用较为复杂的机器学习模型 LightGBM 回归算法。
预测数据残差平方和: 276.57,预测数据平均相对误差: 3.248%,也反映了 LightGBM 的强大的拟合能力,这比多元线性回归的平均相对误差 12.605%精度提高了约 9%。
结果展示:
成本价LightGBM回归结果定价LightGBM回归结果
程序:https://download.csdn.net/download/weixin_40820983/12565138
3、三次调价
对于调价策略,因为不同紧急程度的订单显然调价策略应该有所区别,对于常规订单,应以提高平台利润为目标;对于紧急订单,时间相比于特急订单次重要,但价格尽量应合理;对于特急订单,应该提高价格让任务尽快被完成。通过上述分析,整理调价策略如表 7.3 所示:
定价策略
程序同上