CSDN-AutoML技术实践与应用

    技术2025-03-19  18

    文章目录

    第四范式腾讯云

    第四范式

    树模型对于高维离散特征效果不好

    逐域网络 Field-wise network 跨域网络 Across field 补充:FM 融合网络

    逐域网络数量多(1000个域有1000个DNN),但比较轻量

    拼起来丢进去算,连续的做一次,离散的做一次

    聚类:tSNE 域内相似度更搞,域与域距离更大

    LR 线性组合 FM 两两内积 Attention 有选择性地学习

    用什么没有定论,需要大量实验

    把好的operator放进来,用不用当做超参数,用数据驱动的方式选择operator。

    上面的数据是千万级的

    下面的数据是百万级的

    堆叠了这么多层会不会使效果更差?是的

    采用逐层监督的方式

    对于label而言,中间层也有区分度

    借鉴了谷歌的网络

    针对每层设置不同的权重,下面的权重低一点,上面的权重高

    随着训练decay下面的weight

    实际预测删除Aux Loss

    前3个是公开数据集,后3个是他们客户的数据

    NFM倾向于做推荐系统,而不是CTR

    把模型拿到客户现成试了下

    不用关心与模型相关的超参数,只用关系与计算资源相关的超参数

    SH问题:给资源该怎么分配

    HP:把给资源的方式枚举一遍

    过于agressive

    重要性采样

    HP是在内部对于,跨band对比

    数据越大降低的代价越多

    腾讯云

    spark跑在k8s上

    每个worker手动装Python依赖

    把依赖打到镜像,算法部署很便利

    从spark2.2尝试开始用k8s的方式

    官方正式更新后用官方代码

    借用AutoKeras

    衡量距离时用到了编辑距离

    Processed: 0.010, SQL: 9