【创新实训】推荐系统实验2(修改模型、混合数据集)

    技术2022-07-11  135

    数据集

    混合的数据集

    单独使用douban_imdb训练确实有效果,但是因为是国外的数据集,国外电影占绝大部分,国内电影推荐效果非常差。

    douban_csdn数据集最稀疏,训练不出效果,mtime、douban_openkg指标还行,单独来用item太少。因此拟将这三个数据集混合在一起。

    douban_imdb电影频数往往达到五六万往上,其他数据集的频数比较而言太小了,需要删除douban_imdb的部分行。于是,我将所有数量大于1000的item,随机删除记录,只保留(500 + len(group) // 50)行。

    if dataset == 'douban_imdb': df = pd.DataFrame() for iid, group in tqdm(data.groupby('iid')): if len(group) > 1000: left = np.random.choice(group.index.tolist(), 500 + len(group) // 50, replace=False) df = df.append(group.loc[left]) else: df = df.append(group) data = df del df`

    这里使用的是分组,注意遍历的不能是iid,不然每次都得查询,速度很慢(30min->5min)。

    统计

    原数据集

    Datasetsall the clicksall the itemsall the usersdensitydouban_imdb9,130,04310,634162,2240.53%mtime103,39313,45513,8350.06%douban_openkg424,7991,10064,7590.60%

    划分sess之后

    Datasetsall the clicksall the itemstrain sessionstest sessionstrain avg.lengthdouban_imdb946,0356,865692,84784,39615.3mtime9,3673,23361661,06714.9douban_openkg16,74589610,0972,2164.3mix972,14710,692709,11087,6794.3

    mix最后能跑到recall@20 27%,mrr@20 9%,和douban_imdb差不多

    对NARM的改动

    因为NARM得到的session representation是global和local的拼接,维度是2*hidden size,即最初输入的两倍。为了使其作为新的用户表示存入数据库,需要调整维度。

    一种方法是,对于 R 2 ∣ H ∣ R^{2|H|} R2H空间中串联的 c t c_t ct(注:为方便表示,这里 ∣ H ∣ {|H|} H是原论文的1/2),再经过一个线性变换到 R ∣ H ∣ R^{|H|} RH空间中(类似于多模态的做法),即 u = W c t \begin{aligned} u = Wc_t \end{aligned} u=Wct

    第二种方法是,原论文在最后计算scores时,先将 R ∣ D ∣ R^{|D|} RD的emb映射到 R ∣ H ∣ R^{|H|} RH, 事实上是 S i = ( B T e m b i ) T c t S_i = (\pmb{B^T}emb_i)^Tc_t Si=(BTBTBTembi)Tct

    我们也可以先映射会话表示,即 S i = e m b i T ( B c t ) S_i = emb_i^T(\pmb{B}c_t) Si=embiT(BBBct),于是将 c t c_t ct映射到 R ∣ D ∣ R^{|D|} RD上。存入数据库也即 ∣ D ∣ |D| D维,在输入时,借鉴GGNN的做法,用0扩展为|H|维。 当然,第二种方法会带来一定的损失,第一种方法增加了复杂度,都有缺点。

    先在diginetica数据集上进行实验,查看效果。

    Recall@20MRR@20 N A R M o r i g i n NARM_{origin} NARMorigin53.1518.22 N A R M l i n e a r NARM_{linear} NARMlinear52.1918.19 N A R M l i n e a r − b i a s NARM_{linear-bias} NARMlinearbias52.7918.10 N A R M H 2 D NARM_{H2D} NARMH2D53.1618.23

    可以看到差别不大,但加一层linear(第一种方法)效果有所下降,先映射(第二种)几乎没有变化(数学上一致的)。

    第二种方法还可以减少硬盘占用,因此采取该方法。

    Processed: 0.020, SQL: 9