医疗知识图谱笔记(三)

    技术2022-07-12  75

    lesson03

    1.RNN的特点(优点缺点)

        信息越来越堆积最后最多,只有单向有影响而且影响递减(需深入了解,面试100%)/*/

    2.GRU

        一篇经典博客,(面试可能会让画出论文图示和讲解原理)/*/

    3.NER     LSTM+softmax

        LSTM+CRF         CRF比softmax复杂,为什么要用softmax?(面试)/*/             1.CRF可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练时,这些约束可以通过CRF层自动学习到。             2.使用全局函数优化,使用维特比算法(详细待扩充)      ---------------------------------------------------------------------------------------------------------------------------- lesson04

    要求:     手工实现代码,为知识图谱提供语料(看完demo,需要自己实现一遍)

    使用预训练编码(最流行有效)+finetune

    dropout 丢弃一部分,降低过拟合

    line75 之后计算误差:人工手写计算误差的函数,github上有很多,可以适当改写

        一、图表征                  用特定的方法表征对象:图表征用来表征知识图谱(就像词向量表征汉字一样)                  过程中可以合并指代同一对象的实体,进行简化

            映射模型   向量相加   (/?/)         游走模型   随机游走   (/?/)

        二、latticeLSTM+CRF(ACL2018最佳模型奖,NLP领域颠覆性作用)         (面试:是否读过,是否实现过/*/)         如南京市长江大桥             BiLSTM+CRF:“南京市长” “江大桥”             lattice:  “南京市” “长江大桥”

    ------------------------------------------------------------------------------------------------------------------------------- lesson05

        本届介绍知识图谱的最流行的图数据库:Neo4j         Neo4j是一个Java开发的高性能NoSQL图形数据库,它将结构化数据存储在网络而不是表中         (除了顶级大厂有自己定义的数据库外,其他厂家都用的Node4j,容量约千万级节点,亿级边)

        Neo4j集成了CQL语言,这种语言无法在脚本中使用,但可以用python+Neo的转接接口使用(py2neo库)

    Processed: 0.011, SQL: 9