创新实训(11)-生成式文本摘要之BertAbs

技术2022-07-11 124

创新实训(11)-生成式文本摘要之BertAbs

1.简介

这是一个EMNLP2019的paper Text Summarization with Pretrained Encoders 的学习记录

2.模型介绍

左边的是原始的Bert模型，右边的是用于文本摘要的Bert模型。

主要的区别是在最上方输入文档时原始的Bert模型只用一个[CLS]标记，用于文本摘要的Bert模型每个句子开头都有一个[CLS]标记。在下面的Segment Embeddings中也对不同的句子进行区分，然后经过Transformer层得到的输出也不同，在每个句子的起始部分[SEP]变成了[CLS]标记，用来表示句子基本的含义。

Encoder就是如上图所示，Decoder使用了随机初始化的6层的Tranformer，然后使用两个不通的优化器进行分别优化。并且使用了两步训练的方式，首先训练一个提取式的模型，然后在此基础上再去训练生成式的模型，可以提高生成式模型的效果。

3.数据集

4.结果

从结果来看，效果还是很好的。

5.复现

由于我本地GPU环境太慢，因此使用colab进行。

5.1 GPU环境

首先看一下GPU

5.2 准备数据集

然后下载数据集到colab，这里我使用的是cnn/dailymail的数据集，我直接将数据集上传到了google dirve中然后挂载到colab，之后就可以直接从google drive复制数据集了。

解压之后放到同一个文件夹下，这里如何复制到文件夹下也是一个问题，最终通过google我选择了使用rsync的方式。

5.3 安装依赖

5.4 开始训练

但是colab提够的GPU性能还是不够，训练需要的时间有点长。。。

需要700多个小时，大约需要30天，遂放弃。

5.5 测试

虽然从头训练需要化很长时间，但是它还提供了预训练好的模型，所以可以测试一下它的效果。

文章还是使用的上一篇提到的新闻，结果如下：

the deal , first reported by the real deal , was for $ 150 million , according to a source familiar with the deal. the building sold fairly quickly after being publicly placed on the market only two months ago. the incentive to sell the building at such a huge loss was due to the soaring rent the owners pay to cooper union , a new york college , for the land under the building

但是看结果好像是提取式摘要，并不是生成式的。

Processed: 0.022, SQL: 9