cs224u 基于远程监督的关系抽取(5)
两个实体之间的词表明它们是如何联系的。例如,在“SpaceX was founded by Elon Musk”中的“was founded by”表明,第一个实体和第二个实体之间存在创始人关系。同样,在“Elon Musk established SpaceX”中,“established”表明,第二个实体与第一个实体之间存在创始人关系。
因此,编写代码来查找每个关系中两个实体提到的最常见的短语。如例所示,我们需要考虑两个方向: 即关系的主体出现在第一个提到的地方,以及出现在第二个提到的地方。
def find_common_middles(split, top_k=3, show_output=False): corpus 段智华 认证博客专家 Spark AI 企业级AI技术 本人从事大数据人工智能开发和运维工作十余年,码龄5年,深入研究Spark源码,参与王家林大咖主编出版Spark+AI系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,《企业级AI技术内幕》新书分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇。Spark新书第二版以数据智能为灵魂,包括内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇。从2015年开始撰写博文,累计原创1059篇,博客阅读量达155万次