Attention

    技术2026-04-18  1

    目录

    match的输出

    match的输入

    attention扩展

    训练技巧

    权重正则化

    Scheduled sampling

    Beam search

    Objective level


    attention机制相比于普通的seq2seq最重要的区别在于引入了match块。

     

    match的输出

    match块的输出实际上是输入序列的权重,通过match块输出的变化,神经网络对于输入序列不同的位置的关注度发生变化,从而实现“attention”的效果。

    match的输入

    Match的输入在一般情况下,包含h和z,h代表输入序列的当前位置,而z则代表decoder的隐藏层的状态,在这种输入下,match的输出ɑ则代表输入序列当前位置在decoder的当前位置的权重,是一个标量。

    以下是几种match的具体实现

    attention扩展

    在attention之外,还有类似的memory network,nural turning network,主要用于问答系统

    训练技巧

    权重正则化

    通过数学方法,缩小权重之间的差距,一般情况会有更好效果?

    Scheduled sampling

     

    Beam search

    Objective level

    R无法求导,所以无法进行梯度下降,但是可以用增强学习解决

    Processed: 0.015, SQL: 9