菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
389
0

知识图谱

原创
05/13 14:22
阅读数 100167

二. 知识图谱

(一).知识图谱的应用
        首先通过知识图谱的应用引入这个概念,同时体会它的优点。传统的搜索引擎搜索“姚明的身高”,返回的结果是网页内容与姚明身高的相关一些列链接。如Yahoo:


        而知识图谱如Google返回的是一个准确的结果“2.29米”,同时右边有一个“姚明”的知识卡片。

        提出背景:
        自语义网的概念提出,越来越多的开放链接数据和用户生成内容被发布于互联网中。互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。
        在此背景下,知识图谱(Knowledge Graph)于2012年5月首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善搜索结果。紧随其后,国内搜狗提出了“知立方”、微软的Probase和百度的“知心”。
        如下图所示,通过知识图谱可以搜索到“姚明的女儿”,如百度知心:

        而传统的搜索引擎仅仅是返回如“百度知道”的提问“姚明的女儿是谁”或百度百科相关姚明介绍,这些网页内容包含“姚明”和“姚沁蕾”及“父女”关系等。而知识图谱中相当于有一张巨大的网,把人物、关系联系起来。如百度知心和搜狗知立方:




        再如平时我们通过百度或搜狗搜索小说电影电视剧时的应用:


(二).知识图谱的框架
        通过上面的叙述,我们发现传统的搜索引擎和知识图谱的变化:
        1.信息抽取目标发生了变化,传统的文本指定抽取(ACE)=>海量数据的发现(KBP);
        2.从文本分析为核心转变成了知识发现为核心;
        3.让计算机真正理解用户的查询需求,给出准确答案而不是给出相关的链接序列;
        目前世界有代表性的知识库或应用系统包括KnowItAll、TextRunner、基于维基百科的DBpedia、YAGO;公司开发的知识搜索或计算平台如谷歌KnowledgeGraph、Facebook推出的实体搜索服务Graph Search、Evi公司TrueKnowledge知识搜索平台。
        因王元卓等人提出的一种面向网络大数据的、开放的、自适应的、可演化的、可计算的知识计算引擎——OpenKN,其原理类似于知识图谱,故通过该框架图进行简单讲解。


       OpenKN主要由知识库构建(Knowledge base construction)、知识库验证与计算(Knowledge validation and verification, Knowledge computation)、知识存储(Knowledge repositories)、知识服务与应用(Knowledge services and application)四个模块组成。
        这些模块实现了一个全生命周期的知识处理,从知识获取、知识融合、知识验证、知识计算、知识存储到知识服务与应用的知识处理工作流程。
        知识库的构建:
        包括知识获取和知识融合两方面。知识获取是从开放网页、在线百科和核心词库等数据中抽取概念、实体、属性和关系;只是融合的主要目的是实现知识的时序融合和多数据源融合。在完成知识库构建工作后得到的知识是显式的知识。

        知识计算:
        除了显示的知识,通过OpenKN的知识计算功能,包括属性计算、关系计算、实例计算等,我们还可以进一步获得隐式的或推断的知识。
        知识验证和处理:
        为了检验显示知识和隐式知识的完备性、相关性和一致性,我们需要对知识进行校验,这成为知识验证过程。主要是专家或特定的知识计算方法检查冗余的、冲突的、矛盾的或不完整的知识。
        知识存储:
        经过验证的海量知识,在OpenKN里存储在一个基于图的数据库(Graph DataBase, GDB)及关系数据库中。其中GDB中存储的是显示知识,关系数据库中存储的是隐式知识。与传统的数据库模型Titan相比,GDB通过定义点和边的图数据模型来存储知识,这里的点和边都有各自唯一的ID并且支持一系列的多值属性。GDB描述了一个与现有的图模型不同的异构网络,成为可演化知识网络。
        OpenKN的两个主要特征——自适应和可演化性,即诠释了OpenKN的“Open”含义。

        PS:其中还涉及到很多技术,我的毕业设计就是其中之一:在知识获取过程中多源知识或在线百科的实体对齐、属性对齐和属性值对齐的研究。知识图谱建立后需要考虑知识扩充、知识更新等实时修改也是其中的难点。该篇只是入门介绍,其他有机会再分享。


(三).搜狗知立方
        这部分内容是我在百度文库中搜索知识图谱找到的,主要是张坤分享的“面向知识图谱的搜索技术”,关于搜狗知立方的,可惜没听到原作者的讲述。但我也分享他的几张图片,一目了然。
        第一张图 搜索结构发生的变化


        第二张图 知立方整体架构图

        知立方数据库构建包括本体构建(各类型实体挖掘、属性名称挖掘、编辑系统)、实例构建(纯文本属性、实体抽取、半结构化数据抽取)、异构数据整合(实体对齐、属性值决策、关系建立)、实体重要度计算、推理完善数据。
        第三张图 知识库

        第四张图 实体对齐概念
        
比如张艺谋的国籍需要对齐“中华人民共和国”、“中国(内地)”、“中国”三个值实现属性值对齐,“记过”、“国籍”、“国籍”实现属性对齐;再如出生日期对齐“1951年11月14日”、“1951-11-14”、“1951-11-14”实现属性值对齐。

        第五张图 属性值决策与关系建立

        第六张图 推理补充与验证

         第七张图 基于CFG句法分析

       第八张图 后台检索


        总结:最后还是希望文章对你有所帮助,它主要是关于搜索引擎和知识图谱的一篇入门知识介绍,至少让你明白存在这么个东西,相当于一篇普及知识吧!如果有错误或不足之处,请海涵~
        参考资料下载: http://download.csdn.net/detail/eastmount/8906799

参考资料如下:
        1.搜索引擎主要参考张俊林的书籍《这就是搜索引擎》,电子工业出版社
        2.曲卫华,王群. 搜索引擎原理介绍与分析. 中国地质大学信息工程学院
        3.佘正平. 搜索引擎原理及存在问题. 图书情报论坛
        4.张蹇. 传统搜索引擎与智能搜索引擎比较研究. 郑州大学硕士学位论文
        5.Eastmount. 知识图谱相关会议之观后感分享与学习总结
        6.王元卓, 贾岩涛, 赵泽亚, 程学旗. OpenKN——网络大数据时代的知识计算引擎. 中科院计算机研究所
        7.张坤. 面向知识图谱的搜索技术. 百度文库

        (By:Eastmount 2015-7-16 晚上8点   http://blog.csdn.net/eastmount/

发表评论

0/200
389 点赞
0 评论
收藏