Task 3: Subword Models

    技术2022-07-10  103

    1.人类语言的声音:语音和语音学


    语音是声音流–毫无争议的“物理”语音学假设一小部分或几组独特的类别单元:音素或独特特征也许是普遍的类型学,但特定语言的实现类别感知的最佳证据来自语音学 音素内差异缩小;音素间放大

    形态:词的一部分


    传统上,我们把语素作为最小的语义单元[[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD深度学习:形态学研究很少; 一次尝试递归神经网络是(Luong,Socher,&Manning 2013)

    <一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式(或数字)>

    形态学


    一个简单的替代方法是使用字符n-gramWickelphones(Rumelhart&McClelland 1986)微软的DSSM(Huang,He,Gao,Deng,Acero和Hect 2013)有关使用卷积层的想法可以更轻松地提供语素的许多好处吗?

    书写系统中的单词


    写作系统在表达单词的方式上有所不同-或不

    没有分词 例:美国关岛国际机场及其办公室均接获单词(主要)分为:This is a sentence with words

    批评家?

    分开的 Je vous ai apporté des bonbons已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it

    化合物?

    分开的 life insurance company employee已加入 Lebensversicherungsgesellschaftsangestellter

    单词级别下的模型


    需要处理 large,openvocabulary

    丰富的形态:nejneobhospodařovávatelnějšímu (“to the worst farmable one”)

    音译:Christopher Kryštof

    非正式拼写:

    字符级别下的模型


    1.单词嵌入可以由字符嵌入组成

    为未知单词生成嵌入相似的拼写共享相似的嵌入解决OOV问题

    2.可以将连接的语言当作字符来处理两种方法都已证明非常成功!

    令人惊讶的是-传统上,音素/字母不是语义单位-但是DL模型组成了组

    文字下方:书写系统


    大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据但是人类语言写作系统不是一回事!

       音位(也许有字)jiyawu ngabuluWambaya僵化音素thorough failureEnglish音节/摩拉ᑐᖑᔪᐊᖓᔪᖅInuktitut表意文字(音节符号)去年太空船二号坠毁Chinese结合以上インド洋の島Japanese

    2. 纯字符级模型


    Wesawone很好的例子,用于句子分类的字符级模型非常深的卷积网络用于文本分类Conneau,Schwenk,Lecun,Barrault,EACL 2017通过深度卷积堆栈获得强大结果

    纯字符级NMT模型


    -最初表现不理想•(Vilar等,2007; Neubig等,2013)

    仅解码器(钟俊英,赵庆gh,Yoshua Bengio。arXiv 2016)。有希望的结果(Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)(Thang Luong,Christopher Manning,ACL 2016)(Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)

    英语-捷克语WMT 2015成绩


    LuongandManning测试了基准基线纯字符级seq2seq(LSTM)NMT系统针对关键字级别的基准进行了有效处理Butitwasssllooooww 3个星期的训练...在运行时不是那么快

    英语-捷克语WMT 2015示例


    无需显式细分的全字符级神经机器翻译


    Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.编码器如下; 解码器是字符级GRU

    在LSTM seq2seq模型中具有深度的更强字符结果


    回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI

    3. 子词模型:两种趋势


    与词级模型相同的体系结构:但是使用较小的单位:“单词”[Sennrich,Haddow,Birch,ACL’16a],[Chung,Cho,Bengio,ACL’16]。混合架构:主模型有文字; 角色的其他东西[Costa-Jussà&Fonollosa,ACL’16],[Luong&Manning,ACL’16]。

    字节对编码


    最初是压缩算法: 最频繁的字节对一个新字节。

    Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子词单位的稀有词的神经机器翻译。 ACL 2016。https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus


    分词算法:虽然是自底向上的聚类以数据中所有(Unicode)字符的字母组合词表开头最常见的ngram对一个新的ngram
    分词算法:从字符词汇开始

    最常见的ngram对一个新的ngram ↓

     





    达到目标词汇量大小并在您到达时停止确定性最长的单词分段使用某些先前的标记器(通常是用于MT的Moses标记器)识别的单词进行细分自动决定vocabforsystem 不再以传统方式强烈“用词”https://github.com/rsennrich/nematus

    字词/句子模型


    GoogleNMT(GNMT)使用以下版本 V1:字词模型V2:句子模型Ratherthancharn-gramcount,使用贪婪近似来最大化语言模型的对数可能性以选择片段 添加最大程度减少困惑的n-gram单词模型对内单词进行标记句子模型来自原始文本 空格保留为特殊标记(_)并正常分组您可以通过连接片段并将它们重新编码为空格来结束事物https://github.com/google/sentencepiecehttps://arxiv.org/pdf/1804.10959.pdfBERT使用字词模型的变体(相对)常用词在词汇表中: 1910年代,费尔法克斯其他单词是由单词构成的: hypatia = h ## yp ## ati ## a 如果您以其他方式使用BERT 基于模型,您必须处理

    4. 字符级以构建词级学习词级表示形式


    语音标记(Dos Santos和Zadrozny 2014)

    卷积字符以生成单词嵌入修复了用于PoS标记的词嵌入窗口

    基于字符的LSTM构建单词表示


    基于字符的LSTM


    技术方法


    字符感知神经语言模型

    Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年 更为复杂/复杂的方法

    推导适用于多种语言的强大而强大的语言模型。编码子词相关性:事件,事件,事件...解决现有模型的稀有字问题。以更少的参数获得可比的表现力。

    卷积层


    在字符级输入上进行卷积。随时间变化的最大池化(有效地选择n-gram)。

    公路网(Srivastava et al.2015)


    模拟n-gram交互。在保留原始信息的同时进行转换。功能类似于LSTM存储单元。

    长短期记忆网络


    分层Softmax,用于处理大量输出词汇。通过截断的反向传播进行训练。

    定量结果


    定性见解


    外卖


    论文质疑使用词嵌入作为神经语言建模输入的必要性。字符上方的CNN +高速公路网络可以提取丰富的语义和结构信息。关键思想:您可以构成“构建基块”以获得细微而强大的模型!

    混合NMT


    两全其美的架构:主要在单词级别进行翻译仅在需要时进入角色级别对复制机制进行了超过2种BLEU改进,以尝试填写稀有词

    2级解码


    单词级光束搜索

    单词级光束搜索字符级光束搜索<unk>

    英语和捷克语的结果


    训练WMT’15数据(1200万个句子对) newstest2015

    样本英语-捷克语翻译

    Char-based:错误的名字翻译

    Word-based:不正确的对齐

     

    Char-based&hybrid:diagnózen的正确翻译

     

    基于单词:身份复制失败

    hybrid:正确,11-year-old – jedenáctiletá错误:Shani Bartová

    5. 单词嵌入的字符


    词嵌入和词形态的联合模型 (Cao and Rei 2016)

    与w2v相同的目标,但使用字符双向LSTM计算嵌入模型尝试捕获形态模型可以推断出词根

    FastText embeddings


    使用子词信息Bojanowski,Grave,Joulin和Mikolov丰富词向量。 公平。 2016。https://arxiv.org/pdf/1607.04606.pdfhttps://fasttext.cc

    目标:高效的类似于word2vec的单词表示库,但更适合具有多种形态的稀有单词和语言w2v跳过语法模型的扩展,包含字符n-gram用边界符号和整个单词表示的单词表示为charcharn-gram:where = <wh,whe,her,ere,re>,<where> 请注意,<her>或<her与她不同 前缀,后缀和整个单词都很特殊代表这些表示的词。 上下文分数中的单词为:

    细节:不是共享所有n-gram的表示,而是使用“哈希技巧”来固定向量个数

    单词相似性数据集得分(相关性)

    稀有词的差别收益

    Reference:https://www.jianshu.com/p/57eef6923aef

    Processed: 0.017, SQL: 9