datawhale:Task 3: Subword Models

    技术2022-07-10  96

    Subword Models

    1 人类语言声音:语音学和音系学Morphology: Parts of words 2 单词之下的书写系统纯粹的字符级别的模型 3 子单词模型:两个趋势Hybrid architectures:主要的模型含有单词,一些其他的含有字符字节对的编码 4 字符级来构建单词级Character-based LSTM to build word rep’nsBi-LSTM构建单词表示 5 FastText embeddings

    1 人类语言声音:语音学和音系学

    Phonetics 语音学是一种音流——物理学或生物学Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme 音素 或者是独特的特征 这也许是一种普遍的类型学,但却是一种特殊的语言实现分类感知的最佳例子就是语音体系 音位差异缩小;音素之间的放大

    Morphology: Parts of words

    声音本身在语言中没有意义parts of words 是音素的下一级的形态学,是具有意义的最低级别 传统上,morphemes 词素是最小的语义单位 semantic unit深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013) 处理更大词汇量的一种可能方法——大多数看不见的单词是新的形态(或数字) 一个简单的替代方法是使用字符 n-grams Wickelphones (Rumelhart& McClelland 1986)Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013) 使用卷积层的相关想法

    2 单词之下的书写系统

    大部分深度学习的任务都是从语言的书写形式来处理语言的,这是一个简单的过程,需要寻找数据。

    纯粹的字符级别的模型

    刚开始效果并不好后来只有解码器使用然后变成了有前景的结果

    3 子单词模型:两个趋势

    和单词级别的模型有相同的架构但是使用了更少的词单元:“词块”

    Hybrid architectures:主要的模型含有单词,一些其他的含有字符

    字节对的编码

    使用的是一个压缩算法:将大部分频繁出现的字节对标记为新的字节对。

    有一个目标词汇量,当你达到时就停止确定最长段的单词分割分割的单词是由之前的标记器标记的不再有传统意义上的单词出现

    4 字符级来构建单词级

    Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny2014)

    对字符进行卷积以生成单词嵌入为PoS标签使用固定窗口的词嵌入

    Character-based LSTM to build word rep’ns

    Bi-LSTM构建单词表示

    5 FastText embeddings

    用子单词信息丰富单词向量 Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016. https://arxiv.org/pdf/1607.04606.pdf• https://fasttext.cc

    目标:下一代高效的类似于word2vecd的单词表示库,但更适合于具有大量形态学的罕见单词和语言带有字符n-grams的 w2v 的 skip-gram模型的扩展将单词表示为用边界符号和整词扩充的字符n-gramswhere =<wh,whe,her,ere,re>, 注意 $ , <her $ 是不同于 her 的 前缀、后缀和整个单词都是特殊的 将word表示为这些表示的和。上下文单词得分为 S(w, c)=\sum g \in G(w) \mathbf{Z}{g}^{\mathrm{T}} \mathbf{V}{C}细节:与其共享所有n-grams的表示,不如使用“hashing trick”来拥有固定数量的向量 罕见单词的差异收益
    Processed: 0.022, SQL: 9