论文总字数:23615字
摘 要
近来,万维网上的语义数据的数量正在急剧的增加中。但是链接数据的吸收和消耗目前几乎完全限制于语义网社区。虽然链接数据对于不懂技术的网络用户的实用性是显而易见的,但是缺乏技术知识和对错综复杂的语义技术堆栈的理解限制了这些用户理解和使用网络数据的能力。克服这个障碍的一个关键的解决办法就是以一种连贯的清晰的方式来可视化链接数据,这样允许非本领域、本技术的受众很好的了解它的结构,进一步地去隐式的组合查询去识别资源和直观地发现新信息之间的联系。
本文对当前的语义网链接数据进行了广泛的调查和细致的研究,形成更有效的、更直观的与数据终端用户的交互的可视化方法。也就是本文将提到的链接数据可视化系统。该系统主要实现了链接数据——RDF的解析和存取,实现了RDF文件的可视化,给出相应的统计视图。
本可视化系统主要采用JSP技术、RDF数据、JSON数据、MySQL数据库、Bootstrap和D3的前台技术来实现前台页面和后台数据交互、数据分析、数据存储等功能。其中Bootstrap和D3负责绘制前台的界面,并将来自用户的请求发送给后台。JSP中用servlet来实现后台技术,负责接收前台传输的数据,并加以分析处理和结果返回。RDF和JSON数据主要是在数据传输和分析时候使用,MySQL组织了需要存储的RDF三元组的表结构,为解析后的结果提供了存储空间。
关键字:链接数据 可视化系统 语义网 RDF
Abstract
In the recent years, the amount of semantic data is increasing sharply. But the consumption and absorption of the linked data is almost totally restricted to the Semantic Web community currently. Although the utility of linked data to users who knows nothing about technology is obvious, the lack of technical knowledge and interpretation about semantic technology stack has restricted these users’ ability to understand and use wed data. One key solution to overcome this obstacle is visualizing linked data in a consistent and clear way. This has allowed non-domain and non-technical users to know its constructions well in order to discover links between new information and compose queries.
This paper have conducted a broad investigation and meticulous research to form a more effective and more visual ways to communicate with these end users, the linked data visualization system, which will be mentioned in my paper. The system mainly fulfills the analysis and the access of linked data—RDF, fulfills the visualization of RDF files and give the corresponding statistical views.
This visualization system mainly uses JSP, RDF, JSON, MySQL, Bootstrap, D3 to fulfill front and background functions, data analysis, data transfer and data storage and access. Among which, the Bootstrap and D3 is used to realize the front pages and send the requirements from users to the server-side. JSP uses servlet to fulfill the background-side and takes charges of receiving data from the front-side, meanwhile analyzes and return the results. RDF and JSON data is only usefull when it comes to data transfer and analysis. MySQL provides a data table structure whichis used to store RDF triples and supply enough space to store the results provided.
Keywords: Linked Data, Visualization System, Semantic Web, RDF
目录
摘要 1
Abstract 2
目录 3
第一章 绪论 4
1.1. 研究背景与意义 4
1.2. 国内外数据可视化的研究进展 5
1.3. 本文研究内容与目标 5
1.4. 本文的组织结构 6
1.5. 本章小结 6
第二章 链接数据可视化技术研究 7
2.1. 链接数据简介 7
2.2. 数据可视化技术简介 8
2.3. 数据可视化工具简介 8
2.4. 链接数据可视化系统相关的技术调查 9
2.5. 链接数据可视化系统相应的难点 10
2.6. 现有RDF可视化实现方式 10
第三章 链接数据可视化系统的设计 12
3.1. 链接数据可视系统的前台设计模块 12
3.2. 链接数据可视系统的后台设计模块 12
3.3. 链接数据可视系统结构图 12
第四章 链接数据可视化系统的实现 14
4.1. 链接数据可视系统的具体实现 14
4.2. 可视系统前台模块 14
4.3. 可视系统后台数据交互模块 17
4.4. RDF读写模块、解析模块以及存储模块 19
4.5. 可视系统打包模块 21
第五章 系统测试和结果分析 22
5.1. 测试环境 22
5.2. 测试数据 22
5.3. 测试结果及分析 23
5.3.1. Jena数据解析模块测试结果 23
5.3.2. 数据存取模块 23
5.3.3. 前后台数据交互模块 24
5.3.4. 可视系统界面总体运行情况 25
5.4. 本章小结 28
第六章 总结与展望 29
6.1. 总结 29
6.2. 展望 29
致谢 30
参考文献 31
绪论
研究背景与意义
传统的万维网的网页模型,并不能很好的表现网页中文字的语义,它只是机械的呈现了HTML标签而已。举个例子,网页A中的“苹果嫁接”提到的苹果和网页B中的“苹果手机”提到的苹果是否是同一事物,传统的万维网网页模型无法识别。而语义网则是用结构化的数据取代语义无法被计算机理解的自然语言。语义网采用了URI、RDF和OWL分别解决了指代问题、语言结构问题和概念定义这三个问题,使得计算机能够“从某种意义上”理解这种数据。
语义网不仅仅是将互联网上的数据以一种机器可理解的方式进行表达,它还需要将数据进行链接,构建规模巨大且链接丰富的数据网(The Web of Data),使人们在计算机辅助下获取信息和知识的过程更加智能化和精细化[1]。这代表着对象间的链接也由传统的超文本链接变成包含明确语义信息的RDF链接。而通过RDF语法构建的相互关联的数据集就是链接数据。
链接数据网络提供了一个大的、分布式的且相互关联的信息网络,该网络包含在不同的
数据集中并且由不同的数据发布商提供。对于web数据的兴趣已经在商业或者非商业的组织中引发了数据竞赛,他们也开始发布一种机器可读的数据—RDF并且把RDF与其他的外部数据链接在一起。史上第一次,这些链接的使用可以使复杂的查询得到答案,可以使得遍历在不同的、语义丰富的信息网络上完成。
这就是链接数据网的普及,它现在已经成长到一个令人惊讶的程度,38.5亿的三元组现在存放在中心连接云里面了。对于研究社区来说,理解这些数据是一次巨大的挑战。而且政府和社会机构的对终端用户消费的数据的推动也与这次挑战结合在了一起。很明显,无处不在的移动设备和减少生产传感器的成本会进一步升级这些挑战。同时越来越多的数据通过各种各样的形式发布,例如活动信息、建筑和城市中心的客流量。
在试图理解包含在网络信息中的含义的时候,网络数据的大小和规模就是一个挑战。数据网络的一个基础的可视化注重的是与其他数据具有很高出度关系的资源。这将呈现给观看者与资源相关的大量的边缘链接,会导致信息过载。一个终端用户如何理解响应的意思?他们怎么以有意义的方式来理解和解释数据?
链接数据的第三原则指出:当某人寻找一个URI的时候,使用标准来提供有用的信息。因此当一个URI被间接引用的时候,根据请求的参数来返回响应。这些参数可以请求一个XHTML(可扩展的超文本标记语言)作为资源的代表。在这种情况下,信息可以在浏览器中表示。可以在RDFa中或者在未完成的RDF中根据给定的序列化格式(例如XML)嵌入机器可读信息。在后者的情况下,如何使用这个格式和解释信息的知识的使用局限于懂技术的用户。在某些情况下,仅局限于那些知道语义网技术的用户。显然,常规的(可读的)网络用户,就是所说的普通用户,他们既不懂RDF,也不懂知识本体,限制了他们理解在查找URI时返回的数据的能力。
链接数据的自动生成和它交织成数据网络是以一种大的规模定期完成的。大规模的链接数据生成的一个中心问题就是和其他数据集的链接的完整性和准确性。使用数据集的孤立的RDF格式来识别这些链接限制了读者识别任何错误和不正确的链接的能力。链接数据社区认识到一个完全的解决这个挑战的方法是不存在的;然而,链接数据的可视化有助于解决这个问题,因为它使得识别这些问题更加容易。例如:图形可视化。这将很清晰地展示资源直接的链接,这些链接本来是不应该存在的,而且可以让观看者识别哪些本该存在但是却不见的链接。
明确和统一的链接数据的可视化系统将使得数据网络的使用成为可能,并且鼓励在语义网社区之外使用它。为了保证这样的领会,需要链接数据对于普通用户同样可用。通过提供接口和数据网络的浏览器来支持知识的理解和信息的探索和发现。此外,在语言的组合查询如SPARQL,虽然有用,但是需要对给定的查询语言的语法和理解,至少掌握基本的数据内容和结构。终端用户应该隐式的组合这些查询语句而不需要知道那些用来提出问题所需要的基本查询机制。
在本文中,我提供一个链接数据的可视化系统,在充分的调查和分析了现如今的存在着的可以使用的可视化方法后,对自己的可视化系统加以完善,实现了数据的可视化,RDF数据分析,存储,RDF信息的提取,以及基本的直方图,饼状图的数据展示。
国内外数据可视化的研究进展
自从20世纪50年代开始,数据可视化就开始了。20世纪80年代的时候,计算机可视化技术的应用领域越来越大,涉及到了气象学、太空探测、生物学、医学、海洋学等等很多的科学和工程领域。相应的可视化实验室、可视化教育、可视化专题讨论文、可视化国际会议也相应成立或者展开。同时与超级计算机、高性能图形工作站、高速网络和虚拟现实技术相结合,可视化技术又得到了进一步的发展。[2]
这几年来,数据挖掘、分布式计算、大数据的处理等等相应技术的兴起,可视化技术也在其中占有一席之地。利用分布式计算的强大计算能力,再结合相关的数据挖掘技术,将挖掘得到的数据制作成图形图表,给企业的决策提供支持。过去由于计算机硬件和软件的限制,数据可视化的技术往往局限于一些高端的行业和少部分人手中。但是现在随着互联网的发展,特别是电子商务平台的迅猛发展,数据可视化在关联分析、趋势分析、数据挖掘中起到了极大的作用。
随着数据可视化技术的发展,好多数据可视化软件相应的出现。例如Gruff、RDFViz 、RelFinder、Graphviz、RDF Gravity这些优秀的开源软件。这些开源软件可以帮助我们更好开发自己想要的可视化图形界面。
本文研究内容与目标
与传统的数据库数据不同,链接数据遵从开放世界假说,任何人可以使用自定义的本体描述链接数据中的概念和模型,并将自己的链接数据通过URIref与别人的链接数据关联起来。链接数据为数据挖掘提供了更为广阔的空间。[3]目前万维网中链接数据已经达到了海量的规模,而且这庞大的链接数据还在继续膨胀中。
所以,我们想将大量的链接数据以某种可视化的方式进行呈现,以帮助数据使用者进行抽象建模和知识发现。而恰好链接数据的结构较为规范、简单,非常适合于可视化的分析。例如,对于校园人群课外活动去处的分析。[4]当获得每个人每天什么时候去活动,在哪儿活动之后,就可以通过全局的视图将每个人的位置表现出来。这样就可以分析出每个人都和谁有过怎么样的接触。相对于链接数据就是分析出了链接数据之间的关系。
而对于数据及组织模型的存储,将采用语义网RDF模型。RDF使用XML语法和RDF Schema(RDFS)来将元数据描述成为数据模型。通过RDF,人们可以使用自己的词汇表描述任何资源,但人们更乐意将它用于描述Web站点和页面,由于使用的是结构化的XML数据[5]。因此RDF十分适合存储本课题中所涉及的数据及组织模型。同时由于使用了D3.js这个工具,所以还需要将RDF转化为json数据格式,方便D3.js接收数据
剩余内容已隐藏,请支付后下载全文,论文总字数:23615字
相关图片展示:
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;