机器学习

    技术2022-07-21  79

    当前热词解释

     

     

     

    机器学习基本术语

     

    数据集:

     

     

    样例:

     

    特征:

     

    特征值属性值:(某特征的具体值)

     

    缺失数据:补全或删除

     

    标签:

     

    总的数据量有100W。

    训练数据

    取出90w  作为训练数据

    80w是训练集,用于真正的模型计算(学习)。è 得到结论(判断逻辑/模型)

    10w是验证集,用于验证计算出的模型。    è  验证结论(模型)--》yes/no

     

    测试数据

    剩余的10W是测试集,用于测试计算出的模型(套用前面的结论/模型)。  è测试前面的结论(模型)

     

    模型训练的三步: 1: 模型训练    2:模型验证      3:模型测试

    举例说明:

    好比就是推导出一个数据公式a*a+b*b=c*c(勾股定理)  验证这个公式对不对,再测试这个公式 ,这个例子可以不 

     

     

    机器学习的整体流程

     

     

     

    机器学习算法分类

    监督学习:是指每个进入算法的训练数据样本都有对应的期望值也就是目标值

     

     

    无监督学习:是指每个进入算法的训练数据样本没有对应的期望值。

     

     

    半监督学习:对样本的部分打标来进行机器学习

     

    增强学习(强化学习):一种比较复杂的机器学习种类,强调的是系统与外界不断地交互,获得外界的反馈,然后决定自身的行为。

    阿尔法Go 下象棋。

     

     

    机器学习在大数据项目中的位置

     

     

    用户价值模型-RFM

    XXX网店,6-18期间得活动到底发给谁????

    例如有50w历史用户,如何对用户分群???

    使用RFM模型对用户分群

     

    RFM是

    Rencency(最近一次消费)----  最后一次得消费得时间

    Frequency(消费频率)   ----  消费次数(半年内/一年内/所有)

    Monetary(消费金额)   ----   消费金额(半年内/一年内/所有)

       

     

     

     

    R(日期)     F(次数)    M(人民币)

    张三      2020-06-15       100           56550 李四      2020-03-19       30            55660

    以上数据量纲(相当于单位)不相同,无法直接进行计算。

    需要将去转换为相同量纲得数据,才能计算

    R(日期)

    今日日期2020年06月19日

    认为设立一个规则

    1-5à5分    6-10à4分    11-20à3分   21-30à2分    31+à1分【业务部门确定】

    张三       4   à  5分(2020-06-15)

    李四       90  à  1分(2020-03-19)

     

    F(次数)

     ≥200=5分,150-199=4分,100-149=3分,50-99=2分,1-49=1分【业务部门确定】

    张三     3分(100)

    李四     1分(30)

     

    M(人民币)

    ≥20w=5分,10-19w=4分,5-9w=3分,1-4w=2分,<1w=1分    【业务部门确定】

    张三     3分(56550)

    李四     3分(55660)

    -----------------------------------------------

    张三  5分     3分     3分       1  高价值

    李四  1分     1分     3分       0  低价值

    王五  4分     4分     3分       1  高价值

    -----------------------------------------------  

    数据归一化:

    将不同量纲得数据整理成相同量纲得数据

     

    如何进行分类??

    1、求和  ??

    2、放入空间??

    3、使用机器学习算法(K-Means聚类

       超高   高   中高   中    中低    低   超低(id  ,  rule)

     

     

    计算流程

    第一步:计算每个用户的最后一次消费时间,一定时间段内(半年/一年/所有)的消费数量,消费金额

    第二步:数据归一化,将不同量纲(单位)的数据处理成相同量纲的数据

    第三步:使用机器学习算法K-Means进行聚类(分类)

    第四步:根据标签系统,进行标签匹配,打标签。

    Processed: 0.009, SQL: 9