CS224n学习笔记 12

    技术2022-07-10  99

    CS224n学习笔记 12

    Human language sounds: Phonetics and phonologyCharacter-Level ModelsBelow the word: Writing systems Purely character-level modelsPurely character-level NMT modelsFully Character-Level Neural Machine Translation without Explicit Segmentation Sub-word models: two trendsByte Pair EncodingCharacter-Aware Neural Language ModelsHybrid NMT

    Human language sounds: Phonetics and phonology

    Phonetics 语音学是一种音流——物理学或生物学。 Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme音素或者是独特的特征;这也许是一种普遍的类型学,但却是一种特殊的语言实现。

    Character-Level Models

    词嵌入可以由字符嵌入组成

    为未知单词生成嵌入相似的拼写共享相似的嵌入解决OOV问题

    连续语言可以作为字符处理:即所有的语言处理均建立在字符序列上,不考虑 word-level

    Below the word: Writing systems

    大多数深度学习NLP的工作都是从语言的书面形式开始的——这是一种容易处理的、现成的数据

    但是人类语言书写系统不是一回事!各种语言的字符是不同的!

    Purely character-level models

    Purely character-level NMT models

    以字符作为输入和输出的机器翻译系统最初,效果不令人满意 (Vilaret al., 2007; Neubiget al., 2013)只有decoder(成功的)(JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016)然后有前景的结果 (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)(Thang Luong, Christopher Manning, ACL 2016)(Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)

    Fully Character-Level Neural Machine Translation without Explicit Segmentation

    Jason Lee, KyunghyunCho, Thomas Hoffmann. 2017.

    编码器结构如下图所示,而解码器是一个字符级的GRU:

    Sub-word models: two trends

    Character-Level model大体可以分为两个趋势:一种是与word-level model相同的架构 但是使用更小的单元——word pieces,只不过是输入不同,另一种是hybrid模型,主模型使用word-level model,其他模型使用character-level model。

    Byte Pair Encoding

    有一个目标词汇量,当你达到它的时候就停止做确定性的最长分词分割 分割只在某些先前标记器(通常MT使用的 Moses tokenizer)标识的单词中进行自动为系统添加词汇 不再是基于传统方式的 strongly “word”2016年WMT排名第第一,仍然广泛应用于2018年WMT

    Character-Aware Neural Language Models

    Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. 2015

    一个更复杂/精密的方法动机 派生一个强大的、健壮的语言模型,该模型在多种语言中都有效编码子单词关联性:eventful, eventfully, uneventful…解决现有模型的罕见字问题用更少的参数获得可比较的表达性 模型结构如下:

    Hybrid NMT

    Abest-of-both-worlds architecture 翻译大部分是单词级别的只在需要的时候进入字符级别 使用一个复制机制,试图填充罕见的单词,产生了超过 2 BLEU的改进

    结构如下图所示:

    Processed: 0.010, SQL: 9