<一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式(或数字)>
写作系统在表达单词的方式上有所不同-或不
没有分词 例:美国关岛国际机场及其办公室均接获单词(主要)分为:This is a sentence with words批评家?
分开的 Je vous ai apporté des bonbons已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it化合物?
分开的 life insurance company employee已加入 Lebensversicherungsgesellschaftsangestellter丰富的形态:nejneobhospodařovávatelnějšímu (“to the worst farmable one”)
音译:Christopher Kryštof
非正式拼写:
1.单词嵌入可以由字符嵌入组成
为未知单词生成嵌入相似的拼写共享相似的嵌入解决OOV问题2.可以将连接的语言当作字符来处理两种方法都已证明非常成功!
令人惊讶的是-传统上,音素/字母不是语义单位-但是DL模型组成了组大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据但是人类语言写作系统不是一回事!
音位(也许有字)jiyawu ngabuluWambaya僵化音素thorough failureEnglish音节/摩拉ᑐᖑᔪᐊᖓᔪᖅInuktitut表意文字(音节符号)去年太空船二号坠毁Chinese结合以上インド洋の島Japanese-最初表现不理想•(Vilar等,2007; Neubig等,2013)
仅解码器(钟俊英,赵庆gh,Yoshua Bengio。arXiv 2016)。有希望的结果(Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)(Thang Luong,Christopher Manning,ACL 2016)(Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.编码器如下; 解码器是字符级GRU
回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI
Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子词单位的稀有词的神经机器翻译。 ACL 2016。https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus
最常见的ngram对一个新的ngram ↓
↓
↓
↓
语音标记(Dos Santos和Zadrozny 2014)
卷积字符以生成单词嵌入修复了用于PoS标记的词嵌入窗口Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年 更为复杂/复杂的方法
推导适用于多种语言的强大而强大的语言模型。编码子词相关性:事件,事件,事件...解决现有模型的稀有字问题。以更少的参数获得可比的表现力。Word-based:不正确的对齐
Char-based&hybrid:diagnózen的正确翻译
基于单词:身份复制失败
hybrid:正确,11-year-old – jedenáctiletá错误:Shani Bartová词嵌入和词形态的联合模型 (Cao and Rei 2016)
与w2v相同的目标,但使用字符双向LSTM计算嵌入模型尝试捕获形态模型可以推断出词根使用子词信息Bojanowski,Grave,Joulin和Mikolov丰富词向量。 公平。 2016。https://arxiv.org/pdf/1607.04606.pdfhttps://fasttext.cc
目标:高效的类似于word2vec的单词表示库,但更适合具有多种形态的稀有单词和语言w2v跳过语法模型的扩展,包含字符n-gram用边界符号和整个单词表示的单词表示为charcharn-gram:where = <wh,whe,her,ere,re>,<where> 请注意,<her>或<her与她不同 前缀,后缀和整个单词都很特殊代表这些表示的词。 上下文分数中的单词为: 细节:不是共享所有n-gram的表示,而是使用“哈希技巧”来固定向量个数单词相似性数据集得分(相关性)
稀有词的差别收益Reference:https://www.jianshu.com/p/57eef6923aef