论文总字数:28996字
摘 要
本文所实现的是于本体的数据挖掘算法,从RDF数据生成本体,在Depedia数据集上进行了分组数据测试。针对不同的测试数据集得到数据结果进行分析比对,测试算法响应时间和可伸缩性指标。
我们首先将包含在关联数据资源库中的实例数据通过SPARQL查询得到,这个步骤的结果是所有那些我们假设对应类和属性的 RDF 资源 URIs 。然后我们将其转化成一个合适大小的事务数据表。再将事务数据表通过关联规则挖掘得到OWL公理的数据集,在我们开始挖掘关联规则之前,我们必须为那些我们想让其变成本体部分的各类公理创建事务表,最后构建成本体。本文主要研究的公理有:以概念为中心的子集公理和相交性公理,,以属性为中心的子集公理和传递性公理,,域、范围限制公理,和属性相关性公理,。
关键词:本体,关联规则,公理,SPARQL
The realization and comparative analysis of
the ontology mining algorithm
Abstract
In this thesis,we have realized the data mining algorithm based on ontology.Constructing ontology from RDF data set ,testing the grouped data of Depedia data set.Analysing and comparing the experiment results,which acquire from different testing data set,observing the response time and the scalability of the algorithm.
First,we extract all concepts and instances used in the RDF data set by posing SPARQL queries to the repository’s endpoint.The result of this step is the URIs of all those RDF resources which we assume to correspond to classes and properties.Then translate the instance data contained in a Linked Data Repository into a suitable transaction table.Then we acquire the OWL axioms of the data set by mining the association rules in the transaction tables.Before we can mine the association rules,we have to construct transaction tables for the OWL axioms that we want become the part of the ontology.Finally,constructing the ontology.What this thesis concentrate on is these axioms:concept-centric axioms like concepts subsumption axiom and conjunction axiom,,property-centric axioms like property subsumption axiom and transitivity axiom ,,domain and range restrictions axioms
,,and concept-property axioms like,.
Keywords: Ontologies, Association Rule, axioms,SPARQL
目录
摘 要 1
Abstract 1
目录 III
第一章 绪论 1
1.1 研究背景 1
1.2 国内外研究和发展现状 2
1.2.1 起源和发展 2
1.2.2 研究机构 3
1.2.3 应用情况 3
1.3 论文研究内容意义及组织结构 3
第二章 相关概念 5
2.1 OWL 2 EL 6
2.2 关联规则挖掘 7
第三章 本体挖掘算法实现过程 11
3.1 获取术语集 11
3.2 构建事务表 13
3.3 关联规则挖掘 13
3.4 本体构建 14
第四章 算法具体代码实现 15
4.1 以概念为中心类公理代码实现过程 16
4.1.1 公理 16
4.1.2 公理 17
4.2 类属性连接性公理代码实现过程 17
4.2.1 公理 17
4.2.2 公理 18
4.3 域、范围限制公理代码实现过程 19
4.3.1 公理 19
4.3.2 公理 19
4.4 属性相交和传递性公理代码实现过程 20
4.4.1 公理 20
4.4.2 公理 20
第五章 实验结果及数据分析 21
5.1 实验环境与测试 21
5.2 实验结果分析 22
第六章 总结与未来展望 25
6.1 总结 25
6.2 展望 25
致谢 27
参考文献 29
绪论
研究背景
21世纪以来,随着互联网技术以及通信技术的飞速发展,网络使用更加普及化,多媒体信息量的快速增长,其中以图像,视频,音频信息为主。因为这些信息信息量大且多媒体信息和文本信息又有一个很大的不同,所以适用于文本信息的方法就难以用于描述多媒体信息。这使得难以很快准确找到他们需要的信息从大量多媒体信息里,从而给获取用户所需的多媒体信息一个极大的挑战。这就使得探求一种准确而又高效的检索方法成为了大数据时代的新目标。然而,许多方法只适用于特定人群,那些拥有一定的专业知识在图像信息领域,所以如何将一般用户搜索需求条件化,成为目前需要解决的问题。上世纪末本体论(ontology)的提出,在一定程度上解决了该问题。本体是描述一个目标实体,事件和它们之间相互关系的有效的方法,它不仅可以根据用户的要求表达精确和简洁,更重要的是,通过本体而建立的类层次关系提供了良好的关系机制为图像检索领域。
而另一方面,随着电子产品的更加平民化,网络使用越发普及,网络的电商之间的竞争也日益激烈,对用户的竞争从某种意义上来说也是对数据的竞争。为了吸引更多的用户使用他们的网站,我们常常会看到“猜您感兴趣的商品”这样的区域被开辟出来,而它是怎么知道我们可能会对这些东西无凭感兴趣的呢?这是因为网站采用了新的技术来了解顾客的潜在需求,如:从顾客浏览商品的记录和购买的情况来推断我们可能会对这些商品感兴趣。这样的信息对顾客来说是很有用的,因为网站的推荐并非漫无边际,而是有一定技术依据的,这种新技术就是数据挖掘技术。
以前的数据处理的方法一般是统计汇总和分析工具,尤其是当数据量大时,还需使用统计抽样方法,由局部个体情况分析整体状况。当前数据库系统已经能够有效地实施数据输入,查询,统计等功能,可以忠实完成记录的任务,但它不能发现这些数据之间的关系与规则的存在,更加不可以基于现有的数据预测未来的发展趋势,那就是说,大型数据库虽是一个很好的资源,但要想找到隐藏在数据中有用的信息,对于目前的技术来说就如同大海捞针,这一现象的主要原因是缺乏强大的数据挖掘手段,从而导致“数据爆炸但只是缺乏挖掘方法”的现象。
剩余内容已隐藏,请支付后下载全文,论文总字数:28996字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;