论文总字数:25762字
摘 要
随着信息技术的飞速发展,媒体数据的模式已经从单一文本数据逐渐转变为表达形式更生动,内容更丰富的图片、视频、音频等多模态的数据。而各类数字化信息采集设备的普及和互联网的广泛使用,使得多模态数据正呈现出海量增长的趋势。如何有效的存储、访问、利用这些多模态数据,是摆在我们面前的一个巨大的挑战和亟待解决的问题。立足于此问题,提出基于关系数据库的多模态存储访问模型,以带关注机制的图片特征提取模型、基于TF-IDF技术的文本特征提取模型与基于词移距离技术的相似度计算模型为核心,针对多模态数据进行有效的处理与分析,完成了在关系数据库中多模态数据的存储、检索与提取等功能。通过具体示例对算法以及模型进行评测,以良好的表现证明了算法与模型的可行性与有效性。
关键词:多模态数据;图片特征提取;文本特征提取;关系数据库;深度学习
Multimodal storage and access based on relational database
09015235 LiuYuanjie
Advisor ChongZhihong
ABSTRCT
With the rapid development of information technology, the form of media data has gradually changed from single text data to multimodal data such as pictures, videos and audios with more vivid forms and richer content. The popularity of various digital information collection devices and the Internet has led to a massive increase in the number of multimodal data. How to effectively store, access, and use these multimodal data is a huge challenge and an urgent problem to be solved. Based on this problem, a multimodal storage and access model based on relational database is proposed. The image feature extraction model with attention mechanism, the text feature extraction model based on TF-IDF technology and the similarity calculation model based on word mover distance technology are the cores. For the effective processing and analysis of multi-modal data, the functions of storing, retrieving and extracting multimodal data in relational databases are completed. The algorithm and model are evaluated by specific examples, and the feasibility and effectiveness of the algorithm and model are proved by good performance of applications.
KEY WORDS:Multimodal; Picture feature extraction; Text feature extraction; Relational database; Deep learning
目录
摘要 I
ABSTRCT II
符号列表 IV
第一章 绪论 1
1.1 研究背景与意义 1
1.2 多模态信息的特点及挑战 1
1.3 多模态信息关键技术 3
1.4 论文主要工作 4
第二章 单模态数据分析相关工作 6
2.1 文本特征提取模型 6
2.1.1 文本特征词提取模型 6
2.1.2 文本相似度匹配模型 7
2.2 图片特征提取模型 8
2.2.1 图像描述常用模型 8
2.2.2 GAN的出现与变化 9
第三章 基于关系数据库的多模态存储访问 11
3.1 引言 11
3.2 基于关系数据库的存取模型 12
3.3 数据集介绍及数据库的构建 13
3.3.1 数据集介绍 13
3.3.2 数据库构建 14
3.4 文本信息处理模块 14
3.4.1 特征关键词提取 14
3.4.2 词组相似度检测 15
3.5 图片信息处理模块 16
3.5.1 编码器:使用InfoGAN进行图像特征提取 16
3.5.2 关注器:连续关注机制 17
3.5.3 解码器:长短期记忆网络LSTM 18
3.5.4 模型训练和测试 18
3.6 多模态数据处理模型 20
3.7 实验分析与结果展示 21
3.7.1 图片特征提取模块展示 21
3.7.2 关系数据库检索实例 22
3.8 本章小结 22
第四章 总结与展望 23
4.1 本文工作总结 23
4.2 困难与展望 24
参考文献(References) 25
致谢 27
符号列表
符号 | 含义 |
输入的描述性句子 | |
语句的第i个单词 | |
输入的图片 | |
由x和y指定的特征图中的一个位置 | |
以为中心的子矩阵 | |
LSTM在第t步的隐藏状态 | |
第t步LSTM的单元记忆 | |
单词嵌入网络 | |
表示为神经网络的函数 | |
, | 编码器及其参数 |
, | 关注器及其参数 |
, | 解码器及其参数 |
文本特征词组 | |
DataBase | 关系数据库 |
ImageModel | 图片特征提取模块模型 |
Extraction | 文本特征提取模块模型 |
Similarity | 文本相似度判断模型 |
绪论
1.1 研究背景与意义
纵观历史,人类社会实际上是一个信息化社会,人类的发展离不开信息的交流,传播。甚至可以说,信息是人类社会进步发展的基础。在漫长的历史发展长河之中,信息的内容、形式和传播方式经历过多次巨大的变革。第一次是口头语言的使用,语言的出现显著提高了人们之间发现知识与经验交流的效率,极大的促进了文化的交流和社会的进步。第二次信息革命是语言文字的创造,文字让人们拥有了记录、传递信息的载体,它打破了时间和空间的限制,让人们文化和知识更有延续性和持久性。第三次是印刷技术的发明,它让信息传递的速度急剧增加,信息的储存能力和传播能力得到加强,让信息的广泛共享得到实现。第四次信息革命是媒体设备如电话、广播、电视的使用,使人类进入了利用电磁波传播信息的时代,极大的扩展了人们信息交流的范围、速度和效率,使得人类文明得到了极大的发展。第五次信息革命就是如今的计算机互联网时代,21世纪,随着科学技术的迅猛发展,互联网的触角已深入到我们生活的方方面面,彻底打破了时间和空间的限制,信息能够传的更快更远,存储能力能够更加提高,互联交流能够更加广泛。今天,物联网、大数据、云计算、海储存,一批批新技术的蓬勃发展正在为我们描绘出更为绚丽的“信息化时代”[1]。
随着社交网络的迅速发展,多媒体信息呈现海量增长的趋势,尤其是最近几年,随着智能手机的大规模普及,用户对图片和视频的获取越来越方便,同时由于图片和视频在表达力上要明显优于文字信息,因此图片和视频数据在近几年中有井喷式增长的趋势。数据量的迅速增加对数据的挖掘,浏览和组织带来了极大的挑战,也向人们提出了很多新的问题。当各种各样的媒体信息如潮水般涌向我们的时候,如何在海量的信息中迅速、准确又正确的获取需要的信息,如何有效的利用各种媒体信息,形成有效的检索,浏览和分析,就成为了摆在我们面前的巨大挑战。
1.2 多模态信息的特点及挑战
在浩瀚的信息海洋中,信息的传递方式也是越来越多样与复杂,文本,图片,音频,视频,动画等等多种媒体信息更为大家喜闻乐见。因此,随着信息时代迅速的发展,我们对世界的体验是多模态的——我们通过眼睛看到物体,通过耳朵听到声音,通过触摸感觉到质感,通过鼻子闻到气味,通过嘴巴尝到味道。情态是指事物发生或者被体验的方式,当一个研究问题包含多种情态时,它被称为多模态[1]。在多模态领域,现今研究主要集中于三种模态: 既可以书面也可以口头的自然语言; 经常用图像或视频表示的视觉信号; 以及编码声音和类口头信息的声音信号,如韵律和声音表达。
剩余内容已隐藏,请支付后下载全文,论文总字数:25762字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;