纯字符级模型
纯字符级神经机器翻译模型,以字符作为输入和输出的MT系统
英语-捷克语机器翻译2015,纯字符级seq2seq的NMT系统作为基线
没有分隔符语言的字符级神经机器翻译
sub-word模型
Byte Pair Encoding,BPE 并未深度学习的有关算法,但已成为标准且成功表示 pieces of words 的⽅法,可以获得⼀个 有限的词典与⽆限且有效的词汇表。
FastText embeddings ⽬标:下⼀代⾼效的类似于word2vecd的单词表示库,但更适合于具有⼤量形态学的罕⻅单词和语⾔ 带有字符n-grams的 w2v 的 skip-gram模型的扩展 将单词表示为⽤边界符号和整词扩充的字符n-grams