高中地理“行星地球”知识问答系统设计与实现

 2022-05-21 22:16:48

论文总字数:31246字

摘 要

本文通过分析自然语言处理领域内智能问答系统的发展现状以及相关的技术手段,提出了一种高中地理行星地球知识领域的FAQ问答系统设计方案。

该系统基于服务端/客户端架构。服务器程序在eclipse上用Java语言进行开发,通过链接FAQ知识库,响应客户端请求并给出应答,实现与客户端的信息交互。运行在Android端的手机应用程序,在Android Studio的IDE环境下进行开发,能够动态显示问答数据。系统所选用的技术策略包括中文分词、文本向量化构造、余弦计算句子相似度等。在计算句子相似度时,本课题实现了对算法的优化与改进;在处理用户提出的、但FAQ知识库中不存在的问题时,系统能够给出推荐策略。

测试表明,该方案能够识别用户提交的问题并进行理解,而后通过相似度计算查找FAQ知识库中相关的问题及其对应的答案返回给用户并进行相关问题推荐。问答的准确率基本符合课题要求。在论文结尾处总结了本研究成果的不足并提出了改进方案。

关键词:自然语言处理、常见问题库、中文分词、文本向量化、句子相似度

Abstract

This paper proposes a method of FAQ files for High School Geography: Planet Earth by analyzing the related technical means of intelligent QA system in natural language processing.

The system is based on a server/client architecture. The server program is developed in Java language on eclipse. the information interaction with the client is realized by linking the FAQ files and responding the client request. The mobile android app is developed in the IDE of Android Studio and can dynamically display QA data. The technical strategies include Chinese words segmentation, text vectorization and cosine sentence similarity. When calculating the similarity, the system realizes the improvement of the algorithm; when dealing with the problems not in the FAQ files, the system can give the recommendation strategy.

The test shows that the system can identify and find the questions in the FAQ files .At the end of the paper, the shortcomings of the research are summarized and the improvement schemes are proposed.

KEY WORDS: NLP、FAQ Files、Chinese Words Segmentation、Text Vectorization、Cosine Similarity

目 录

第一章 绪论 1

1.1 研究背景与意义 1

1.2 国内外研究现状 2

1.3 主要工作内容 3

1.4 论文结构 4

第二章 相关概念及理论综述 5

2.1 中文分词(Chinese Words Segmentation) 5

2.1.1 中文分词基本概念 5

2.1.2 常用的中文分词算法及其原理 5

2.1.3 常用的中文分词引擎介绍 9

2.2 停用词过滤(Stop Words Filtering) 11

2.3 情感特征词提取(Emotional Feature Words Extraction) 11

2.4 文本向量化(Text Vectorization) 12

2.5 余弦相似度(Cosine Similarity) 13

2.6 本章小结 14

第三章 系统总体框架设计 15

3.1 系统研发目标 15

3.1 总体结构说明 15

3.2 功能需求分析 17

3.3 模块分析 19

第四章 系统详细设计 20

4.1 QA对构建 20

4.2 文本预处理Preprocessing 21

4.2.1 去空去重 DelEmptyNRepetition 21

4.2.2 中文分词 ChineseWordsSeg 21

4.2.3 停用词过滤 StopWordsFilter 22

4.2.4 文档整合 ResIntegration 23

4.3 文本向量化Vectorization 24

4.4 余弦相似度计算CosSimilarity 25

4.5 客户端与服务器通信 26

4.6 本章小结 27

第五章 系统运行与测试 28

5.1 运行结果 28

5.2 测试结果 30

5.2.1 准确率测试 31

5.2.2 召回率测试 32

第六章 总结与展望 35

6.1 总结 35

6.2 展望 36

参考文献 37

致 谢 38

第一章 绪论

1.1 研究背景与意义

随着科技的进步,人们的学习行为和习惯也发生了变化。过去的教学场景局限在教室内、教学手段和方法局限在单一的“师授生记”上、知识渠道局限于书本;在今天,无论是从内容上还是体验上,人们有着更多样化的学习需求,而传统的学习方式在面对新一轮信息技术革命时难免显得心余力绌。尤其是在教育资源分配不均的现状下——发达地区师资力量雄厚、硬件设施完善、人文关怀充裕而落后地区各方面欠缺,不同地区与不同教学水平间的差距无形间为构建“人人可学、处处可学”的学习型社会竖起了屏障。在这种情况下,网络教学平台、各种学习软件应运而生,技术的革命实现了互联网与教育的融合,用户可以不受时间、空间、设备的限制,通过网络,随时随地获取到自己感兴趣的知识。而无论是开放式的教学平台——如中国大学mooc网、网易公开课,还是学习应用软件或者微信小程序——如百度作业帮、扇贝单词,答疑服务都是其中的关键功能,如何确保答疑服务的高效、实时、精准与智能,成为近年来教育技术领域和人工智能领域研究的重点。

本课题针对高中地理“行星地球”知识领域,试图构建一个基于自然语言处理(Natural Language Processing,NLP)技术的知识问答系统,利用本地数据库和互联网资源相结合,构建常见问题知识库(Frequently-Asked Question,FAQ)。用户可以使用自然语言提出任何自己感兴趣的问题,系统将首先在知识库中通过一系列算法,查找到相似的问题,而后将最匹配的问题筛选出来,最终将该问题对应的答案返回给用户。本课题将在答疑的内容、获取方式、呈现方式上进行扩展和优化,使用户和该系统的交互更加高效和便捷,这对于教学质量和教学效果的改善和提高能够起到一定的促进作用。

剩余内容已隐藏,请支付后下载全文,论文总字数:31246字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;