系列文章,请多关注Transformer家族1 – Transformer详解和源码分析Transformer家族2 – 编码长度优化(Transformer-XL、Longformer)Transformer家族3 – 计算效率优化(Adaptive-Span、Reformer、Lite-Transformer)Transformer家族4 – 通用性优化(Universal-Transformer)Transformer家族5 – 推理加速(Faster-Transformer、TurboTransformers)NLP预训练模型1 – 综述
之前介绍了从编码长度、计算效率、通用性等角度对Transformer进行优化,并介绍了几个重要模型。本文介绍如何进行Transformer推理加速。相比于离线训练,在线推理加速更加关键。一方面由于在线流量大,加速可带来硬件成本的节省。另一方面在线推理加速,可大大提升AI应用的用户体验。 事实上,之前的多种方法,特别是计算效率优化,对推理加速很有帮助。这些模型从算法的角度,进行了推理速度优化。本文主要从框架层的角度,讲解如何对推理进行加速。主要带来NVIDIA的Faster-Transformer框架和腾讯的Turbo-Transformer框架。
PPT资料:https://on-demand.gputechconf.com/gtc-cn/2019/pdf/CN9468/presentation.pdf代码地址:https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer
Faster-Transformer算法结构和原版Transformer基本一致,主要是从框架层角度来实现计算加速。主要方法有
算子融合。对除矩阵乘法外的所有算子,进行了合并。比如Add、Sub。从而减少了GPU kernel调度和显存读写。半精度F16优化。GELU激活函数、层正则化、softmax等调用频次很高的操作的优化Encoder效果对比如上。Faster-Transformer基本吊打TF XLA,提升速度一倍多。Decoder效果对比如上。对比了32bit和16bit的结果。Decoding FP32和Decoding FP16为Faster-Transformer 的结果,也是吊打原始TensorFlow。
代码地址 https://github.com/Tencent/TurboTransformers
V100上的QPS,越高代表框架性能越好。对比了PyTorch、TensorFlow、Faster-Transformer、turboTransformers的效果,其中turboTransformers效果最好
系列文章,请多关注Transformer家族1 – Transformer详解和源码分析Transformer家族2 – 编码长度优化(Transformer-XL、Longformer)Transformer家族3 – 计算效率优化(Adaptive-Span、Reformer、Lite-Transformer)Transformer家族4 – 通用性优化(Universal-Transformer)Transformer家族5 – 推理加速(Faster-Transformer、TurboTransformers)NLP预训练模型1 – 综述