知识图谱
参考书:《知识图谱 方法、实践与应用》
参考视频:
- 比啃书效果好多了!【浙大知识图谱完整版】不愧是浙大教授!5小时让我搞定了知识图谱!学不会来打我!知识图谱/计算机视觉/神经网络/机器学习_哔哩哔哩_bilibili(慕课浙大知识图谱导论,不是很推荐…讲的比较差,但是全网好像只有这一个视频是系列讲解知识图谱的)
参考博客:
husthuke/awesome-knowledge-graph: 整理知识图谱相关学习资料 (github.com)(大综述);
主要参考资料(学习+实战,主要参考资料):
参考博主:
- 刘焕勇-个人主页 (liuhuanyong.github.io)(这绝对是个宝藏博主,可惜我都快学期末了才看到他的文章);
2023/2/27 8:25 《知识图谱 方法、实践与应用》这本书有点过于抽象,对于初学者直接上手有一定难度,先看看网上有没有相关视频过渡一下;
2023/2/27 21:56 网上有慕课相关的课程,但客观来说这个课程就是在照着PPT念,还不如直接看书…相应的教材《知识图谱导论》并没有电子版,只能想其他办法或者硬着头皮看《知识图谱 方法、实践与应用》,这本书虽然写的不太好,但是只看重要部分还是看得懂的;
2023/2/28 8:39 学习知识图谱的过程中往往会产生看不懂的时候,这是因为知识图谱是一个涉及非常多学科的交叉领域,而我们恰好并没有完成所有的这些学科导致可能有些地方看不懂,可以放在之后或者学习过程中的额外知识进行学习,没必要专门花时间学习这些额外知识;
2023/2/28 9:02 这样读下去没有意义,课堂要求的是学会使用python编程,但是书上的概念太宽泛了,导致有时候都不知道在讲什么(这本教材本身就有很大的问题),推荐了解完第一章之后就开始找资料结合实操进行之后的学习 – 题外话,网上的很多资料(博客、公众号)讲的都比教材好,实在看不进去教材就去Gggole搜索“python 知识图谱”选文章或者B站跟着视频用python来实际操作;
2023/3/4 16:25 B站上几乎都是垃圾信息,软推广,没有值得看的课程,暂时的想法就是直接在这段世界暂停知识图谱的学习,到时候需要做项目直接网上找相关资料即可(可以参考上面推荐的博客);
2023/3/7 10:24 跟着github上的大综述和实战链接上手学习,先看综述论文再看网站文章,网站的文章实际就是对综述的提炼和补充;
2023/3/7 19:56 老师将课堂PPT发布了,但是看了一下发现真的很难看懂,基本都是一些很空的概念在盘旋,且具体这门课程需要做什么以及考核方式都还不是很清楚,所以暂时还是先按照网站上的教程走;
2023/3/14 11:02 课程的PPT实际上就是借鉴的慕课的PPT,但是本身也说了慕课的内容不好(太啰嗦了没有重点,和课堂上老师讲的一样),而在内容上实际上和推荐的主要参考资料是差不多的,所以只需要直接跟着网站上的资料进行学习即可(课程PPT可以作为补充,上面有些总结还是很到位的) – 不要参考过于多的资料,这将导致知识体系很混乱(这种小众的领域本来就有点各说各话的感觉,认准看谁的教程就一直跟着就行);
2023/3/15 17:08 今天下午花费了一整个下午的事件对知识图谱进行学习,然而接收到的正反馈少之又少(几乎是没有学到什么知识,感觉看完之后脑子里是空的),然而我们的学习资料从质量上来说已经能够算是最好的知识图谱教程了,产生这种情况的原因其实就是知识图谱这门课程本身就不是一门概念课程,它是需要实际操作的!!!纯看知识点全都是技术性的介绍,能够留在脑子里就怪了 – 改变学习策略,一方面跟着老师的进度简单的看看PPT和网站资料,把主要时间花费在实际项目(可以是外面自己找的项目)的搭建上;
一、知识图谱概述
了解本章之前可以先看知识图谱与图数据库的关系,终于有人讲明白了-51CTO.COM做铺垫;
第一章大多是介绍性的,可以只看带*的内容
Q:知识图谱与思维导图的区别是什么?
A:
知识图谱和思维导图都用于组织和可视化信息,但它们具有不同的目的和不同的特征。知识图是数据和知识的结构化表示,而思维导图是以分层方式组织和呈现信息的可视化工具。
知识图谱是一种以结构化方式表示知识的图,使用节点和边来显示不同概念之间的关系。它通常用于人工智能和语义web应用程序,以表示数据和知识。知识图谱通常使用机器学习算法等自动化方法创建,并且设计为易于查询和分析。
思维导图是一种视觉工具,用于头脑风暴、组织和呈现信息。它是一个层次图,使用分支、子分支和关键字连接围绕中心思想或概念的信息。思维导图通常是手动创建的,通常用于记笔记、项目规划和决策。
举例来说,当我们想要分别使用知识图谱和思维导图来创建一个不同类型的水果的特征视觉表示:
- 知识图谱将以结构化的方式表示这些信息,使用节点和边来显示不同概念之间的关系。例如,你可能有表示“苹果”、“桔子”和“香蕉”的节点,这些节点的边将它们连接到具有“颜色”、“味道”和“营养价值”等特征的节点。每个节点和边都具有特定的财产和关系,这些属性和关系定义了其在图形中的位置。
- 思维导图将以分层的方式表示这些信息,中心思想是“水果的类型”,分支延伸到不同类型水果及其特征的分支。例如,“苹果”分支可能有“红苹果”和“绿苹果”的分支,每个分支都连接着“松脆”、“甜”和“富含纤维”等关键词。
总之,知识图将提供不同类型水果及其特征之间关系的结构化表示,而思维导图将提供信息的视觉层次,“水果类型”的中心思想将扩展为特定类型水果及其特性的子思想。
1.知识图谱定义*
本体论:本体被定义为对特定领域中某套概念及其相互之间关系的形式化表达,是相对于某一智能体或智能群体而存在的概念和关系的一种描述;
在AI领域我们主要将本体论的观念使用在知识表达上,即借由本体论中的基本元素:概念及概念间的关联,作为描述真实世界的知识模型
常见的本体构成要素包括:
- 个体(实例):基础的或者说“底层的”对象。
- 类:集合(sets)、概念、对象类型或者说事物的种类。
- 属性:对象(和类)所可能具有的属性、特征、特性、特点和参数。
- 关系:类与个体之间的彼此关联所可能具有的方式。
- 函数术语:在声明语句当中,可用来代替具体术语的特定关系所构成的复杂结构。
- 约束(限制):采取形式化方式所声明的,关于接受某项断言作为输入而必须成立的情况的描述。
- 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的,if-then(前因-后果)式语句形式的声明。
- 公理:采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言,“公理”之中还包括依据公理型声明所推导得出的理论。
- 事件 (哲学):属性或关系的变化。
与本体论相关的语言有如RDF、OWL等
- RDF:资源描述框架(Resource Description Framework,简称 RDF)是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言。它专门用于表达关于Web资源的元数据,比如Web页面的标题、作者和修改时间,Web文档的版权和许可信息,某个被共享资源的可用计划表等;
- OWL:网络本体语言,旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言;
- OWL是基于RDF基础之上,RDF是基于XML之上,关于XML参考xml是什么意思呢? (baidu.com);
1.1 知识图谱的定义
定义:知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来
泛指各种大规模的知识库
。
知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,知识图谱由节点和边组成:
节点可以是实体也可以是抽象的概念
- 实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
- 语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。
- 内容: 通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
- 属性(值): 从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值,例如960万平方公里等。
- 关系: 形式化为一个函数,它把k个点映射到一个布尔值。在知识图谱上,关系则是一个把k个图节点(实体、语义类、属性值)映射到布尔值的函数。
边可以是实体的属性或是实体之间的关系
中国是一个实体,北京是一个实体,中国-首都-北京 是一个(实体-关系-实体)的三元组样例;
北京是一个实体,人口是一种属性,2069.3万是属性值。北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例;
知识图谱旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型
知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱的应用则涉及语义搜索、智能问答、语言理解、决策分析等多个领域;
知识图谱帮助构建有学识的人工智能
连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络;
- 深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的人工智能,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰;
符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号表示人脑中的知识并模拟心智的推理过程;
- 知识是人类通过观察、学习和思考有关客观世界的各种现象而获得并总结出的所有事实(Fact)、概念(Concept)、规则(Rule)或原则(Principle)的集合
- 符号派关注的核心是知识的表示和推理,知识表示是现实世界的可计算模型
知识图谱和传统专家系统时代的知识工程有着显著的不同
专家系统
- 专家是基于大脑中的知识来进行决策的,因此人工智能的核心应该是用计算机符号表示这些知识,并通过推理机模仿人脑对知识进行处理;
- 专家系统应该由知识库和推理机两部分组成而不是由函数等过程性代码
- 专家系统最常用的知识表示方法包括基于框架的语言和产生式规则
- 框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多地被应用于辅助自然语言理解
- 产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识
知识图谱
- 与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建;
1.2 知识图谱的表示
三元组是知识图谱的一种通用表示方式,三元组的基本形式主要包括:实体1-关系-实体2
和概念-属性-属性值
实体是知识图谱中的最基本元素,不同的实体间存在不同的关系;
概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;
属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;
属性值主要指对象指定属性的值,例如中国、1988-09-08等;
1.3 知识图谱的架构
知识图谱的架构主要包括自身的逻辑结构以及体系架构
1.3.1 逻辑结构
知识图谱在逻辑上可分为模式层与数据层两个层次:
- 数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储;
- 模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达(本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小)
1.3.2 体系结构
知识图谱的体系架构是其指构建模式结构,其中框内的部分为知识图谱的构建过程,该过程需要随人的认知能力不断更新迭代
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式:
- 自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库;
- 自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式;
2.知识图谱应用
知识图谱最早的应用是提升搜索引擎的能力。随后,知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值。
2.1 辅助搜索
知识图谱和语义技术提供了对事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索(传统搜索仅仅提供针对网页的搜索)
2.2 辅助问答
典型的基于知识图谱的问答技术或方法包括:基于语义解析、基于图匹配、基于模板学习、基于表示学习和深度学习以及基于混合模型等。在这些方法中,知识图谱既被用来辅助实现语义解析,也被用来匹配问句实体,还被用来训练神经网络和排序模型等。知识图谱是实现人机交互问答必不可少的模块。
2.3 辅助大数据分析
知识图谱和语义技术也被用于辅助进行数据分析与决策,通过知识图谱和语义技术增强数据之间的关联,使得用户可以用更加直观的图谱方式对数据进行关联挖掘与分析;
知识图谱在文本数据的处理和分析中也能发挥独特的作用,如知识图谱被广泛用来作为先验知识从文本中抽取实体和关系;
2.4 辅助语言理解
语言理解一大重要特点是利用已知的背景知识去理解,也就是说背景知识被认为是实现深度语义理解必不可少的构件;
2.5 辅助设备互联
设备互联即机器之间进行交流,需要技术手段来表示和处理机器语言的语义;
一个设备产生的原始数据在封装了语义描述之后,可以更加容易地与其他设备的数据进行融合、交换和互操作,并可以进一步链接进入知识图谱中,以便支持搜索、推理和分析等任务。
Q:知识图谱和传统知识库、关系型数据库的关系?
A:回答参考知识图谱和专家系统、知识工程、数据库等概念的比较 - 知乎 (zhihu.com)
- 知识图谱是在传统知识库的基础上发展而来的,但更注重其中的实例数据
- 知识图谱无法替代数据库,大规模图谱处理需借助数据库技术
- 知识图谱包含语义信息,可进行一定的推理,且形式更灵活,可扩展性更好
3.知识图谱分类
3.1 互联网知识图谱
这一类的知识库以互联网资源为基础,构建方法可以分为:互联网众包、专家协作和互联网挖掘
3.2 领域知识图谱
领域知识图谱是相对于搜索引擎使用的通用知识图谱而言,是面向特定领域的知识图谱;
相比较而言,领域知识图谱的知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛;
4.知识图谱技术体系*
知识图谱用于表达更加规范的高质量数据:
- 一方面,知识图谱采用更加规范而标准的概念模型、本体术语和语法格式来建模和描述数据;
- 另一方面,知识图谱通过语义链接增强数据之间的关联;
这种表达规范、关联性强的数据在改进搜索、问答体验、辅助决策分析和支持推理等多个方面都能发挥重要的作用;
知识图谱的一般构建流程为:
- 首先确定知识表示模型,然后根据数据来源选择不同的知识获取手段导入知识;
- 接着综合利用知识推理、知识融合、知识挖掘等技术对构建的知识图谱进行质量提升;
- 最后根据场景需求设计不同的知识访问与呈现方法,如语义搜索、问答交互、图谱可视化分析等;
知识图谱涉及的技术框架如下:
大规模知识库的构建与应用需要多种智能信息处理技术的支持:
通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。
通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。
在最底层有大量的文本、结构化数据库、多媒体文件等数据来源。通过知识抽取、知识融合、知识众包等技术,获取需要的数据,而后通过知识表示和知识推理、知识链接等将知识规范有序的组织在一起并存储起来。最终用于知识问答、语义搜索、可视化等方面。
4.1 知识来源
可以从多种来源获取知识图谱数据,包括文本、结构化数据库、多媒体数据、传感器数据和人工众包等,而对每一种数据源的知识化都需要综合各种不同的技术手段:
- 结构化数据库如各种关系数据库,是最常用的数据来源之一。已有的结构化数据库通常不能直接作为知识图谱使用,而需要将结构化数据定义到本体模型之间的语义映射,再通过编写语义翻译工具实现结构化数据到知识图谱的转化。此外,还需要综合采用实体消歧、数据融合、知识链接等技术,提升数据的规范化水平,增强数据之间的关联;
- 人工众包是获取高质量知识图谱的重要手段(众包实际就是允许各网站基于一定的方式如RDFa、JASON-LD等方式在网页和邮件等数据源中嵌入语义化数据,让个人和企业定制自己的知识图谱信息);
4.2 知识表示
知识表示是指用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术
知识表示决定了图谱构建的产出目标,即知识图谱的语义描述框架、Schema与本体、知识交换语法、实体命名及ID体系:
- 基本描述框架定义知识图谱的基本数据模型和逻辑结构
- Schema与本体定义知识图谱的类集、属性集、关系集和词汇集
- 交换语法定义知识实际存在的物理格式,如Turtle、JSON等
- 实体命名及ID体系定义实体的命名原则及唯一标识规范等
按知识类型的不同,知识图谱包括词、实体、关系、事件、术语体系、规则等
W3C的RDF把三元组(Triple)作为基本的数据模型,其基本的逻辑结构包含主语、谓词、宾语三个部分;
虽然不同知识库的描述框架的表述有所不同,但本质上都包含实体、实体的属性和实体之间的关系几个要素;
虽然,基于三元组的知识表示形式受到了人们广泛的认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义;
4.2.1 应用场景
分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面将起到重要的作用:
- 语义相似度计算:由于实体通过分布式表示而形成的是一个个低维的实值向量,所以,可使用熵权系数法、余弦相似性等方法计算它们间的相似性。这种相似性刻画了实体之间的语义关联程度,为自然语言处理等提供了极大的便利
- 链接预测:通过分布式表示模型,可以预测图谱中任意两个实体之间的关系,以及实体间已存在的关系的正确性。尤其是在大规模知识图谱的上下文中,需要不断补充其中的实体关系,所以链接预测又被称为知识图谱的补全
4.2.2 代表模型
知识表示学习的代表模型主要包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等
- 距离模型:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷;
- 单层神经网络模型:单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但在计算开销上却大大增加
- 双线性模型:双线性模型又叫隐变量模型,双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算,而且还能够有效刻画实体间的协同性
- 神经张量模型:在不同的维度下,将实体联系起来,表示实体间复杂的语义联系,神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算
- 矩阵分解模型:通过矩阵分解的方式可得到低维的向量表示,故不少研究者提出可采用该方式进行知识表示学习
4.3 知识抽取
知识抽取按任务可以分为概念抽取、实体识别、关系抽取、事件抽取和规则抽取,涉及到的自然语言处理(NLP) 技术有命名实体识别、句法依存、实体关系识别等;
- 传统专家系统时代的知识主要依靠专家手工录入,难以扩大规模;
- 现代知识图谱的构建通常大多依靠已有的结构化数据资源进行转化,形成基础数据集,再依靠自动化知识抽取和知识图谱补全技术,从多种数据来源进一步扩展知识图谱,并通过人工众包进一步提升知识图谱的质量;
知识抽取技术可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素;
首先从网络上获取大量的各种非结构化的文本数据,经过文本预处理
后得到干净的文本数据。而后借助机器学习相关程序对文本进行分词、词性标注、词法解析、依存分析等工作,此时词法及句法层次的分析结束,接下来对该文本进行 命名实体识别 (NER)和实体链接工作,为关系抽取和时间抽取做准备,最终形成KR用的三元组、多元关系、模态知识等构成知识图谱;
4.3.1 实体抽取
早期的实体抽取也称为命名实体学习(namedentity learning) 或命名实体识别(named entityrecognition),指的是从原始语料中自动识别出命名实体;
实体抽取的方法主要有三种:
基于规则与词典的方法:基于规则的方法通常需要为目标实体编写模板,然后在原始语料中进行匹配
- 基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求
基于统计机器学习的方法:基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练,然后再利用训练好的模型去识别实体
面向开放域的抽取方法:面向开放域的抽取将是面向海量的Web语料
实体抽取通常包括两部分:
- 实体边界识别
- 确定实体类别
4.3.2 关系抽取
关系抽取,文本语料经过经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系。通过关系将实体联系起来,才能形成网状的知识结构。研究关系抽取技术的目的,就是解决如何从文本中抽取实体间的关系这一基本问题。
早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则,但是仍需要提前定义实体间的关系类型;
关系抽取主要分为:
- 开放式实体关系抽取
- 基于联合推理的实体关系抽取
4.3.3 属性抽取
属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画;
由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题;
4.4 知识融合
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中获取知识输入
当多个知识图谱进行融合,或者将外部关系数据库合并到本体知识库时,需要处理两个层面的问题:
- 通过模式层的融合,将新得到的本体融入已有的本体库中,以及新旧本体的融合;
- 本体是针对特定领域中Schema定义、概念模型和公理定义而言的,目的是弥合词汇异构性和语义歧义的间隙,使沟通达成共识
- 数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
- 数据层的融合是指实体和关系(包括属性)元组的融合,主要是实体匹配或者对齐
由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
4.4.1 实体对齐
实体对齐(entity alignment)也称为实体匹配(entity matching)或实体解析(entity resolution),主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
在大数据的环境下,受知识库规模的影响,在进行知识库实体对齐时,主要会面临以下3个方面的挑战:
1)计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长,难以接受;
2)数据质量。由于不同知识库的构建目的与方式有所不同,可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题;
3)先验训练数据。在大规模知识库中想要获得这种先验数据非常困难。通常情况下,需要研究者手工构造先验训练数据;
基于上述,知识库实体对齐的主要流程将包括:
1)将待对齐数据进行分区索引,以降低计算的复杂度;
2)利用相似度函数或相似性算法查找匹配实例;
3)使用实体对齐算法进行实例融合;
4)将步骤2)与步骤3)的结果结合起来,形成最终的对齐结果;
实体对齐算法可分为
- 成对实体对齐:
- 基于传统概率模型的实体对齐方法:主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系;
- 基于机器学习的实体对齐方法:主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类
- 基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习;
- 通过属性比较向量来判断实体对匹配与否可称为成对实体对齐;
- 基于聚类的实体对齐算法,其主要思想是将相似的实体尽量聚集到一起,再进行实体对齐;
- 基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习;
- 集体实体对齐
- 局部集体实体对齐:为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度,算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值,为了评价向量中每个分量的重要性,算法主要使用TF-IDF为每个分量设置权重,并为分量向量建立倒排索引,最后选择余弦相似性函数计算它们的相似程度;
- 全局集体实体对齐
- 基于相似性传播的集体实体对齐方法:一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体
- 基于概率模型的集体实体对齐方法:主要采用统计关系学习进行计算与推理
4.4.2 知识加工
通过实体对齐,可以得到一系列的基本事实表达或初步的本体雏形,然而事实并不等于知识,它只是知识的基本单位。要形成高质量的知识,还需要经过知识加工的过程,从层次上形成一个大规模的知识体系,统一对知识进行管理;
知识加工主要包括本体构建与质量评估两方面的内容:
- 本体构建:本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构,相邻的层次节点或概念之间具有严格的”IsA”关系,有利于进行约束、推理等,却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认[12],在海量的实体数据面前,人工编辑构建的方式工作量极其巨大,故当前主流的本体库产品,都是面向特定领域,采用自动构建技术而逐步扩展形成的。
- 质量评估:对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。
4.4.3 知识更新
人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此,知识图谱的内容也需要与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识。
根据知识图谱的逻辑结构,其更新主要包括模式层的更新与数据层的更新
- 模式层的更新是指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体,通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如需要人工定义规则,人工处理冲突等。因此,实施起来并不容易。
- 数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。由于数据层的更新一般影响面较小,因此通常以自动的方式完成。
4.5 补全与推理
常用的知识图谱补全方法包括:基于本体推理的补全方法、基于图结构和关系路径特征的方法、基于表示学习和知识图谱嵌入的链接预测,文本信息也被用来辅助实现知识图谱的补全;
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。
知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别:
- 基于逻辑的推理方式主要包括一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等
- 一阶谓词逻辑推理是以命题为基本进行推理,而命题又包含个体和谓词。逻辑中的个体对应知识库中的实体对象,具有客观独立性,可以是具体一个或泛指一类,例如奥巴马、选民等;谓词则描述了个体的性质或个体间的关系;
- 描述逻辑是在命题逻辑与一阶谓词逻辑上发展而来,目的是在表示能力与推理复杂度之间追求一种平衡;
- 主要是利用了关系路径中的蕴涵信息,通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系;
4.6 知识检索与知识分析
基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答,知识图谱和语义技术也被用来辅助做数据分析与决策
知识问答(Knowledge-Based Question Answering, KBQA)是基于知识库的问题回答,它以直接而准确的方式回答用户自然语言提问的自动问答系统,它将构成下一代搜索引擎的基本形态;
4.7 知识存储
知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题;
典型的知识存储引擎分为基于关系数据库的存储和基于图的存储,在实践中,多为混合存储结构,图存储并非必须;
5.知识图谱相关技术
5.1 知识图谱与数据库系统
由于传统关系数据库无法有效适应知识图谱的图数据模型,知识图谱领域形成了RDF数据的三元组库,数据库领域开发了管理属性图的图数据库
知识图谱的主要数据模型有RDF图和属性图两种;
知识图谱查询语言可分为声明式和导航式两类;
RDF三元组库是一个数据库管理系统,其数据模型RDF图和查询语言SPARQL均遵守W3C标准;
图数据库是数据库领域为更好地存储和管理图模型数据而开发的数据库管理系统,其数据模型采用属性图;
目前,基于三元组库和图数据库能够提供的知识图谱数据存储方案可分为三类:
(1)基于关系的存储方案,包括三元组表、水平表、属性表、垂直划分、六重索引和DB2RDF等;
(2)面向RDF的三元组库;
(3)原生图数据库;
Q:知识图谱和图数据库的关系?
A:参考图数据库和知识图谱的关系是什么 • Worktile社区
5.2 知识图谱与智能问答
知识问答依托一个大型知识库(知识图谱、结构化数据库等),将用户的自然语言问题转化成结构化查询语句(如SPARQL、SQL等),直接从知识库中导出用户所需的答案;
攻克知识问答的关键在于理解并解析用户提出的自然语言问句,研究方法主要可分为三大类:
- 基于语义解析(Semantic Parsing)的方法
- 大部分先进的知识问答方法是基于语义解析的,目的是将自然语言问句解析成结构化查询语句,进而在知识库上执行查询得到答案
- 通常,自然语言问句经过语义解析后,所得的语义结构能解释答案的产生
- 基于信息检索(Information Retrieval)的方法
- 在基于语义解析的方法训练过程中,问答模型隐式地学习了标注数据中蕴涵的语法解析规律,这使得模型能具有更好的可解释性,但是,数据标注需要花费大量的人力和财力,是不切实际的,而基于信息检索的方法回避了这个问题;
- 基于信息检索的知识问答大致可分为两步:①通过粗粒度信息检索,在知识库中直接筛选出候选答案;②根据问句中抽取出的特征,对候选答案进行排序,这就要求模型对问句的语义有充分的理解;
- 基于概率模型(Probabilistic Models)的方法
- 将知识问答问题看作是一个条件概率问题,即是要求给定问句Q时,答案为a的概率P(A=alQ),进而引入概率分解或变分推理的技巧,将目标概率分而治之
5.3 知识图谱与机器推理
推理是指基于已知的事实或知识推断得出未知的事实或知识的过程,在知识图谱中,推理主要用于对知识图谱进行补全和知识图谱质量的校验
典型的推理包括演绎推理、归纳推理、溯因推理、类比推理等;
知识图谱中的知识可分为概念层和实体层,知识图谱推理的任务是根据知识图谱中已有的知识推理出新的知识或识别出错误的知识
概念层的推理主要包括概念之间的包含关系推理
实体层的推理主要包括链接预测与冲突检测
实体层与概念层之间的推理主要包括实例检测
主要的推理方法主要有:
基于规则的推理
- 基于规则的知识图谱推理研究主要分为两部分:一是自动规则挖掘系统,二是基于规则的推理系统
- 主要发展趋势是提升规则挖掘的效率和准确度,用神经网络结构的设计代替在知识图谱上的离散搜索和随机游走是比较值得关注的方向
基于分布式表示学习的推理
- 主要研究趋势一方面提高表示学习结果对知识图谱中含有的语义信息的捕捉能力,另一方面是利用分布式表示作为桥梁,将知识图谱与文本、图像等异质信息结合,实现信息互补以及更多样化的综合推理
基于神经网络的推理
- 主要发展趋势是设计更加有效和有意义的神经网络结构,来实现更加高效且精确的推理,通过对神经网络中间结果的解析实现对推理结果的部分解释是比较值得关注的方向
混合推理
5.3.1 基于规则的推理
基于规则的推理通过定义或学习知识中存在的规则进行推理
根据规则的真值类型,可分为硬逻辑规则和软逻辑规则
- 硬逻辑规则中的每条规则的真值都为1,即绝对正确,人工编写的规则多为硬逻辑规则;
- 软逻辑规则即每条规则的真值为区间在0到1之间的概率,规则挖掘系统的结果多为软逻辑规则,其学习过程一般是基于规则中结论与条件的共现特征;
- 软逻辑规则可通过真值重写转化为硬逻辑规则;
基于规则的推理方法最主要的优点是在通常情况下规则比较接近人思考问题时的推理过程,其推理结论可解释,所以对人比较友好,在知识图谱中已经沉淀的规则具有较好的演绎能力;
5.3.2 基于分布式表示学习的推理
分布式表示学习的核心是将知识图谱映射到连续的向量空间中,并为知识图谱中的元素学习分布式表示为低维稠密的向量或矩阵;
分布式表示学习通过各元素的分布式表示之间的计算完成隐式的推理;
5.3.3 基于神经网络的推理
基于神经网络的推理通过神经网络的设计模拟知识图谱推理
基于神经网络的知识图谱推理表达能力强,在链接预测等任务上取得了不错的效果,网络结构的设计多样,能够满足不同的推理需求;
5.3.4 混合推理
混合推理一般结合了规则、表示学习和神经网络
混合推理能够结合规则推理、表示学习推理以及神经网络推理的能力并实现优势互补,能够同时提升推理结果的精确性和可解释性;
5.4 知识图谱与推荐系统
推荐系统在启动阶段往往效果不佳,存在冷启动问题,而且用户历史记录数据往往较为稀疏,使得推荐算法的性能很难让用户满意
知识图谱作为先验知识,可以为推荐算法提供语义特征,引入它们可以有效地缓解数据稀疏问题,提高模型的性能;
基于知识图谱的推荐模型大部分是以现有的推荐模型为基础的,如基于协同过滤和基于内容的推荐模型,将知识图谱中关于商品、用户等实体的结构化知识加入推荐模型中,通过引入额外的知识改善早期推荐模型中数据稀疏的问题;
利用知识图谱的推荐模型主要有基于知识图谱中元路径的推荐模型、基于概率逻辑程序的推荐模型、基于知识图谱表示学习技术的推荐模型;
6.小结
知识图谱本身可以看作是一种新型的信息系统基础设施
从数据维度上看,知识图谱要求用更加规范的语义提升企业数据的质量,用链接数据的思想提升企业数据之间的关联度,终极目标是将非结构、无显示关联的粗糙数据逐步提炼为结构化、高度关联的高质量知识;
从技术维度上看
- 知识图谱的构建涉及知识表示、关系抽取、图数据存储、数据融合、推理补全等多方面的技术
- 知识图谱的利用涉及语义搜索、知识问答、自动推理、知识驱动的语言及视觉理解、描述性数据分析等多个方面
- 要构建并利用好知识图谱,要求系统性地综合利用来自知识表示、自然语言处理、机器学习、图数据库、多媒体处理等多个相关领域的技术,而非单个领域的单一技术
二、知识表示与知识建模
参考链接:知识图谱基础 之 二.知识表示与知识建模 | 来唧唧歪歪(Ljjyy.com) - 多读书多实践,勤思考善领悟;
1.知识的概念
知识表示就是对知识的一种描述,或是对知识的一组约定,即计算机可以接受的用于描述知识的数据结构 – 知识表示是机器通往智能的基础,使得机器可以运用知识;
根据不同的划分标准,知识可以分为不同的类别:
- 按照作用范围分类,可分为常识性知识和领域性知识;
- 按作用及表示分类为事实性知识、过程性知识、控制知识;
- 按确定性分类有确定性知识,不确定性知识;
- 按结构及表现形式可分为逻辑性知识和形象性知识;
2.早期知识表示方法
2.1 一阶谓词逻辑
谓词逻辑(Lp)可以对原子命题做进一步分析,分析出其中的个体词、谓词、量词,研究它们的形式结构的逻辑关系、正确的推理形式和规则;
一阶谓词逻辑具有自然性、接近自然语言、容易接受、严密性、易于转化为计算机内部形式等优点,但同时也具有无法表示不确定性知识、难以表示启发性知识及元知识、组合爆炸、效率低等缺点。为了克服以上缺点,人们提出了Horn逻辑、描述逻辑等改进方案;
2.2 产生式系统
早期的专家系统多数是基于产生式系统的;
产生式知识表示法是常用的知识表示方式之一。它是依据人类大脑记忆模式中的各种知识之间的大量存在的因果关系,并以“IF-THEN”的形式,即产生式规则表示出来的。这种形式的规则捕获了人类求解问题的行为特征,并通过认识–行动的循环过程求解问题。一个产生是系统由规则库、综合数据库和控制机构三个基本部分组成。
产生式规则表示法具有非常明显的优点,如自然型好,易于模块化管理、能有效表示知识、知识表示清晰等优点。但是产生式规则也有着效率不高、不能表达具有结构性的知识等缺点。因此,人们经常将它与其它知识表示方法(如框架表示法、语义网络表示法)相结合。
2.3 框架表示法
框架表示法最突出的特点是善于表示结构性知识,能够将知识的内部结构关系以及知识之间的特殊关系表示出来,同时将与某个实体或实体集的相关特性都集中在一起;
框架表示法认为人们对现实世界中各种事物的认识都是以一种类似于框架的结构存储在记忆中的。当面临一个新事物时,就从记忆中找出一个合适的框架,并根据实际情况对其细节加以修改、补充,从而形成对当前事物的认识;
框架是一种描述固定情况的数据结构,一般可以把框架看成是一个节点和关系组成的网络:
- 框架的最高层次是固定的,并且它描述对于假定情况总是正确的事物;
- 在框架的较低层次上有许多终端 – 被称为槽(Slots),在槽中填入具体值,就可以得到一个描述具体事务的框架;
- 每一个槽都可以有一些附加说明 – 被称为侧面(Facet),其作用是指出槽的取值范围和求值方法等;
一个框架中可以包含各种信息,这些信息包含在框架的各个槽或侧面中;
相关的框架链接在一起形成一个框架系统,框架系统中的一个框架到另一个框架的转换可以表示的状态的变化、推理或其他活动;
不同的框架可以共享一个槽值,可以将不同角度搜集得到的信息较好的协调起来;
框架表示法对于知识的描述非常完整和全面;基于框架的知识库质量非常高;且框架允许数值计算,这一点优于其它知识表示语言。但框架的构建成本非常高,对知识库的质量要求非常高;框架的表达形式不灵活,很难同其它形式的数据集相互关联使用。
2.4 语义网络*
语义网络利用节点和带标记的边结构的有向图描述事件、概念、状况、动作及客体之间的关系,带标记的有向图能十分自然的描述客体之间的关系;
采用语义网络表示的知识库的特征:
- 节点表示客体、客体性质、概念、事件、状况和动作
- 带标记的边描述客体之间的关系
- 知识库的修改是通过插入和删除客体及其相关的关系实现
语义网络的基本形式为(节点1, 弧, 节点2):
- 节点表示各种事物、概念、情况、属性、动作、状态等,每个节点可以带有若干属性;
- 弧表示各种语义联系,指明其连接的节点之间的某种语义关系;
- 节点和弧都必须带有标示,来方便区分不同对象以及对象间各种不同的语义联系;
语义网络本质上是将逻辑运算符和逻辑项映射到图中的元素,语义网络具有以下特点:
- 把各个节点之间的联系以明确、简洁的方式表示出来,是一种直观的表示方法;
- 着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间的关系,因此把自然语言转换成语义网络较为容易;
- 具有广泛的表示范围和强大的表示能力,用其他形式的表示方法能表达的知识几乎都可以用语义网络来表示;
- 把事物的属性以及事物间的各种语义联系显示地表示出来,是一种结构化的知识表示法;
语义网络缺点:
- 推理规则不十分明了,不能充分保证网络操作所得推论的严格性和有效性;
- 一旦节点个数太多,网络结构复杂,推理就难以进行;
- 不便于表达判断性知识与深层知识;
一些常见的基于语义网络的知识表示框架参考:知识图谱基础 之 二.知识表示与知识建模 | 来唧唧歪歪(Ljjyy.com) - 多读书多实践,勤思考善领悟;
三、知识抽取
知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱;
大体的任务分类与对应技术如下图所示:
知识抽取的子任务主要包括:
命名实体识别
- 检测: 北京是忙碌的城市。 [北京]:实体
- 分类:北京是忙碌的城市。 [北京]: 地名
术语抽取:从语料中发现多个单词组成的相关术语。
关系抽取:王思聪是万达集团董事长王健林的独子。[王健林] <父子关系> [王思聪]
事件抽取:从一篇新闻报道中抽取出触发词、时间、地点等信息。
- 共指消解:弄清楚在一句话中的代词的指代对象。
1.面向非结构化数据
1.1 实体抽取
实体抽取抽取文本中的原子信息元素,通常包含人名、组织/机构名、地理位置、时间/日期、字符值等标签,具体的标签定义可根据任务不同而调整;
单纯的实体抽取可作为一个序列标注问题,因此可以使用机器学习中的HMM、CRF、神经网络等方法解决;
1.2 实体识别与链接
实体识别即识别出句子或文本中的实体,链接就是将该实体与知识库中的对应实体进行链接;
实体链接的流程:
首先输入的是非结构化的文本数据,经由命名实体识别或词典匹配技术进行实体的指称识别;
由于刚刚识别出来的实体可能是实体的部分表示或另类表示,因此需要结束表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成;
经过上面步骤生成的实体可能有多个候选项,因此需要对候选实体进行消岐,此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法;
经过实体消岐后得到的唯一实体候选后就可以与知识库中的实体进行链接;
1.3 关系抽取
关系抽取是从文本中抽取出两个或多个实体之间的语义关系,按照方法的不同可以分为:
- 基于模板的方法
- 基于监督学习的方法
- 基于弱监督学习的方法
1.3.1 基于模板的方法
基于模板的方法在小规模数据集上容易实现且构建简单,缺点为难以维护、可移植性差、模板有可能需要专家构建;
主要有两种基于模板的方法:
- 基于触发词的模板:根据触发词找出关系,同时通过命名实体识别给出关系的参与方;
- 基于依存分析的模板:以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定,执行流程为
1.3.2 监督学习
在给定实体对的情况下,根据句子上下文对实体关系进行预测,执行流程为:
- 预先定义好关系的类别。
- 人工标注一些数据。
- 设计特征表示。
- 选择一个分类方法。(SVM、NN、朴素贝叶斯)
- 评估方法。
其优点为准确率高,标注的数据越多越准确。缺点为标注数据的成本太高,不能扩展新的关系。
1.3.3 半监督学习方法
监督学习的效果好但是获取有标注的数据集比较困难,可以借助半监督学习的方法,详情参考知识图谱基础 之 三.知识抽取 | 来唧唧歪歪(Ljjyy.com) - 多读书多实践,勤思考善领悟;
1.4 事件抽取
事件抽取即从自然语言中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
事件抽取任务包括:
- 识别事件触发词及事件类型
- 抽取事件元素同时判断其角色
- 抽出描述事件的词组或句子
- 事件属性标注
- 事件共指消解
详情参考知识图谱基础 之 三.知识抽取 | 来唧唧歪歪(Ljjyy.com) - 多读书多实践,勤思考善领悟;
2.面向结构化数据
结构化数据就是类似于关系库中表格形式的数据,往往各项目之间存在明确的对应关系,因此可以简单的将其转换为RDF或其他形式的知识库内容;
3.面向半结构化数据
半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据;
4.信息预处理*
信息预处理并不属于知识抽取的范畴,但是信息预处理对于知识抽取来说非常重要;
通常针对半结构化的网页和非结构化的文本等,首先需要对其进行预处理,完成停用词删除、乱码处理、文本去重、特征抽取和表示等一系列加工过程,为实现知识抽取做好准备和铺垫(这一系列的信息预处理过程实际上也是NLP文本分类等任务需要进行的,不仅仅只针对知识抽取,所以最后对其进行一个介绍);
4.1 停用词删除
停用词一般指使用极其广泛但是对文本特征表示区别影响极小的字符,为节省存储空间和提高搜索效率,通常在处理自然语言文本时将这类词过滤掉;
停用词去除的处理过程中首先准备停用词表,一般情况可以使用通用的停用词表,针对特定任务还可以设计特定的停用词表。接着逐一检索文本中的词是否存在于停用词表中,如果存在,则将该词删除,否则顺序检索下一个词;
4.2 文本特征抽取
文本的特征或特征项是用于表示文本的基本单位,因此文本特征提取是文本挖掘、信息检索、自然语言处理等任务的关键环节,特征提取的好坏对下游任务效果具有非常重要的影响;
文本特征提取主要分为:
- 基于统计的文本特征提取:由于中文文本与其它语言的差异性,中文文本需要先进行中文分词,采用分词后得到的字、词或短语作为表示文本的特征项;
- 基于深度学习的文本特征提取:基于深度学习的特征提取方式已经可以对句子、段落或整篇文章进行深度语义特征提取;
4.2.1 TF-IDF
词频TF是指一个词在文档中出现的次数,使用词频可以将词频统计结果中小于某一个阈值的词从特征集中删除,以此降低特征空间的维度;但词频方法只简单地考虑了词频高的特征词,然而词频低的特征词也可能包含更多特征信息;
文档频率DF是指在统计整个文本集当中包含特征词的文档数量,可以根据文档频率统计结果及其阈值去除文档频率过高或过低的特征词;某些稀有词具有某一类文本的高区分度,将其从候选特征集中删除对结果具有重要影响;
词频-逆文档频率TF-IDF中,逆文档频率用于计算某个词语区分文档的能力(某一特定文本内的高词频结合该词语在整个文档集合中的低文档频率可以产生权重较高的TF-IDF),TF-IDF倾向于过滤常见的词而保留重要的代表该文档文本特征的词
总结:有时用词频衡量文档中的一个词的重要性不够全面,有时重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,则可能需要使用word2vec等算法来支持。
4.2.2 深度学习
前馈神经网络FNN是最简单的基于深度学习的文本特征抽取模型之一,该模型将文本视作词袋,对每个词语使用嵌入模型学习文本特征向量;
基于循环神经网络RNN的模型将文本视为一个词序列,旨在捕获文本中词的相关性和文本结构;
4.2.3 LSTM
RNN模型可以学习前向信息,但是要学习的前向信息距离当前单词较远就可能出现“梯度消失”的问题,即前向信息会出现丢失,因此RNN保存的信息基本都是短期信息;
LSTM是RNN的变体,全称为长短期记忆,旨在更好的捕获长期依赖关系;
说明:能学到这里的读者差不多已经对知识图谱这门学科有一定的理解,之后就没有什么必要继续看理论知识,直接上手相关的项目,在实践中学习新知识并巩固旧知识。我的项目博客中也有与知识图谱相关的项目,感兴趣可以去看一看。每个人的学习方式都不同,一定不要按部就班的按照网上任何参考来规划自己的学习,适合自己的才是最好的。