金庸武侠知识图谱的构建和应用

 2022-05-27 22:23:27

论文总字数:26642字

摘 要

本文构建了以笑傲江湖为例的知识图谱,并尽可能地展示了其中复杂的人物关系与门派关系,在知识图谱的构建中展示了其中所涉及到的技术如前期的背景知识梳理与数据挖掘过程中所需要的自然语言处理。主要工作如下:

(1) 对于知识图谱的研究现状和国内外主流的研究背景进行阐述,并简述其中所需要的关键技术。

(2) 对于主要的知识抽取技术,分为以下步骤:通过网络爬虫采集数据,对数据进行初步的分割,对齐等处理;抽取关键字段出来作为知识图谱中成为节点的实体;抽取各个实体之间关系;抽取所有实体中的属性值,其中包括外部与内部属性。最后通过web中request协议设计面向页面的抽取方法。

(3) 在原有的知识表示方法中寻找原始模型,并尝试对其拓扑关系进行改进使之适合于本次金庸武侠小说的知识图谱构建。

(4) 寻找合适的数据库部署方案,完成知识图谱的构建与可视化,通过Neo4j进行最终的展示,同时对不同类型数据库的特点进行比较,对知识图谱由于不同需求所产生的不同问题进行分析。

(5) 将《笑傲江湖》中复杂的人物关系,人物本身属性以及人物与门派之间的关系进行系统构建,描述了实验中遇到的问题和解决方案,并对实验步骤进行了简要说明,在构建好的知识图谱中进行可视化查询的展示。

(6) 尝试通过利用一个开源的InteractiveGraph项目,将现有的知识图谱进行线上的部署。

关键词:知识图谱、知识抽取、neo4j图数据库、InteractiveGraph

ABSTRACT

This paper constructs a knowledge map with Swordsman as an example, and displays the complex relationship between the characters and the sects as much as possible. In the construction of the knowledge map, the technologies involved in the knowledge map, such as the background knowledge and data of the previous period, are displayed. Natural language processing required during the mining process. main tasks as follows:

(1) Explain the research status of knowledge graph and the mainstream research background at home and abroad, and briefly describe the key technologies needed.

(2) For the main knowledge extraction technology, it is divided into the following steps: collecting data through the network crawler, performing preliminary segmentation and alignment processing on the data; extracting the key segment as the entity that becomes the node in the knowledge map; extracting each entity Relationship; extracts attribute values ​​from all entities, including external and internal attributes. Finally, the page-oriented extraction method is designed through the web request protocol.

(3) Find the original model in the original knowledge representation method, and try to improve its topological relationship to make it suitable for the knowledge map construction of this Jin Yong martial arts novel.

(4) Find a suitable database deployment plan, complete the construction and visualization of the knowledge map, and finally display it through Neo4j, and compare the characteristics of different types of databases, and analyze the different problems generated by the knowledge map due to different needs.

(5) Systematic construction of the complex relationship between characters, the attributes of the characters and the relationship between the characters and the sects, describing the problems and solutions encountered in the experiment

(6) Try to deploy the existing knowledge map online by using an open source InteractiveGraph project.

KEY WORDS: knowledge Graph, knowledge extraction, neo4j graph database, InteractiveGraph

目 录

摘 要 Ⅰ

ABSTRACT Ⅱ

第一章 绪论 1

1.1 研究背景及研究目标 1

1.1.1 背景介绍 1

1.1.2 研究目标 2

1.2 研究背景 2

1.2.1 背景知识 2

1.2.2 知识图谱基础构架 3

1.2.3 中文知识图谱的研究现状 5

1.3 主要工作及贡献 6

第二章 知识抽取 7

2.1 知识抽取的概述 7

2.2 通用抽取方法 8

2.2.1 事实实体抽取 8

2.2.2 关系抽取 9

2.2.3 实体属性抽取 11

2.3 基于request函数的《笑傲江湖》知识抽取方法 11

2.3.1 任务分析 11

2.3.2 规则设计 12

第三章 模型建立与知识模型表示 14

3.1 模型建立 14

3.1.1 知识建模的意义 14

3.1.2 《笑傲江湖》知识建模分析 14

3.1.3 基于有向图的模型 15

3.2 模型表示 15

3.2.1 基于对象的知识表示方法 16

3.3.2 基于三元组的知识表示方法 17

第四章 知识存储 19

4.1 背景介绍 19

4.1.1 关系型数据库 19

4.1.2 非关系型数据库 20

4.2 Neo4j数据库 21

第五章 实验系统实现及知识可视化 22

5.1 网络数据爬取 22

5.1.1 基于 Requests 库的 HTTP 请求模块 22

5.1.2 基于 BeautifulSoup 库的HTML解析模块 22

5.2 数据存储与数据库准备 24

5.2.1 数据准备 24

5.2.2 数据导入阶段 25

5.3 数据查询和可视化 25

第六章 总结与反思 29

6.1 总结 29

6.2 缺陷与不足 29

参考文献 31

致 谢 32

第一章 绪论

1.1 研究背景及研究目标

1.1.1 背景介绍

谷歌公司于2010年收购了一项有关自然语言处理的核心技术,其目标是进行更加智能的语义搜索与联想识别,自此谷歌对于语义网络的研究就没有停止,最终谷歌公司于2012年发布了第一个知识图谱项目,该项目的核心内容包括从海量的网络百科类页面中抽取实体,并将从其他源的数据中提取到的和实体有关的信息以“属性值”的方式归类到该实体下,进一步的,该项目还将各个实体间关系进行抽取,最终建立语义网络从而构建一个和之前不同的搜索引擎,旨在提升大量数据下用户的搜索能力和在搜索过程中的用户体验,至此,知识图谱的雏形被建立起来,并在之后的研究中进一步的被完善和应用到更多的领域之中。谷歌用户和其他的开发者不要只看到字符串本身的意思,而是要获取字符串背后的事物及其各个体之间存在的联系,即:“Things,not strings”。

2014 年 8 月,基于概率模型构建的Web级知识库 Knowledge Vault 技术上线,该技术成功增强了进一步构建知识图谱的能力。不同于一般面向数据的数据库技术,Knowledge Vault 是以事实(fact)为对象,在互联网上自动地搜集信息并进行整合,从 而形成知识单元存入知识库[1]

剩余内容已隐藏,请支付后下载全文,论文总字数:26642字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;