The Diffbot knowledge graph
一个自动化从网页上爬取内容,然后构建为知识图谱的公司拥有100亿的实体,1个T的事实数据每月新增约150M的实体占比最高的实体类型:人,组织,地点,产品,事件,文章,讨论,图片…在海湾地区有两个数据中心可通过API、Dashboard、和数据整合应用该知识图谱How the Diffbot KG is built
页面类型分类视觉特征提取自然语言处理实体链接blocking and matching
blocking:使用多样的相似度计算方法
精确匹配:exact_match(city,city)Jaccard(name,name)掷色子:Dice(a,b)Cosine(a,b)重复词计算:Overlap(a,b)先基于规则或一些算法选择,得到各个类别的匹配; 后通过分类算法,将这些匹配组合打上预测标签。 reasoning in Knowledge Graphs Reasoning with RDF-Object Creation 在给出的RDF组成的图结构中,将已有的三元组数据拆分为一些三元组结构,并根据已有的三元组结构进行推理,得到新的三元组信息。
the changing of knowledge graph
研究范围的扩大:需要独立的子模型细化研究内容:book->publication假设的改变:增加了额外的属性特征;修缮了属性的改变application driven by knowledge graphs 用户通过动态的UI界面向系统传达需求,系统将需求逻辑转化为SPARQL语句向知识图谱系统提交查询,得到结果再转化为用户可读的内容反馈给用户。 summary and conclusions
语义技术逐渐成为主流从知识图谱而不是数据库中驱动应用程序企业本体平息了符号筒仓的警报声注意使用结构性约束语言(SHACL, Shapes Constraint Language, W3C的RDF数据结构工作组正式发布),而不是网络本体语言(OWL, Web Ontology Language, W3C开发的一种网络本体语言,用于对本体进行语义描述)本体的演化流程值得研究关注