基于深度学习的看图问答算法及实现

 2022-05-12 21:03:25

论文总字数:41352字

摘 要

本文首先介绍了视觉问答任务的概念,解释了视觉问答系统如何为盲人等视觉功能受损人群的生活带来便利,分析了视觉问答系统在其它涉及视觉和语言领域的广泛应用前景。然后对当前已有的各种视觉问答模型进行调研,分析了各模型的优点及局限。同时本文也对视觉问答模型所涉及的卷积神经网络、循环神经网络、注意力机制等各项重要模式识别技术进行了简单介绍。

通过对现有模型的优缺点进行分析,本文采用基于图像特征和问题特征间双线性交互的MUTAN方法来解决视觉问答任务。该方法采用了基于张量的Tucker分解将用于建模双线性交互的核心张量分解为三个可解释的矩阵以及一个更小的核心张量,缓解了双线性模型参数量过大的问题,同时我们在分解出的核心张量上施加低秩约束,进一步权衡了模型的表达性和复杂性。我们将MUTAN模型在VQA1.0数据集上进行训练,分析了不同秩约束对于模型性能的影响,采用数据增强、多层注意力机制等方法提高模型性能并与其它视觉问答模型进行对比。最后针对MUTAN模型在计数问题上的局限性进行分析找出原因,并给出了未来MUTAN模型的优化方向。

关键词:视觉问答,Tucker分解,低秩约束,注意力机制

Abstract

The concept of Visual Question Answering task is introduced first, it then explains how the Visual Question Answering system brings convenience to the life of visually impaired people such as the blind, and analyzes the wide application prospects of the Visual Question Answering system in other fields involving vision and language. Then it investigates the various Visual Question Answering models that are currently available, and analyzes the advantages and limitations of each model. At the same time, the important pattern recognition technology such as convolutional neural network, recurrent neural network and attention mechanism involved in the Visual Question Answering models are introduced.

By analyzing the advantages and disadvantages of existing models, it uses the MUTAN method based on bilinear interaction between image features and question features to solve the Visual Question Answering task. MUTAN uses a tensor-based Tucker decomposition to decompose the core tensor used to model the bilinear interaction into three interpretable matrices and a smaller core tensor, which alleviates the problem of excessively large parameters of the bilinear model. At the same time, we impose a low rank constraint on the decomposed core tensor, which further balances between the expressiveness and complexity of the model. It trains the MUTAN model on the VQA1.0 dataset, analyzes the impact of different rank constraints on the performance of the model, and uses data augmentation, multi-layer attention mechanism to improve the performance of the model and compares MUTAN with other Visual Question Answering models. Finally, the limitations of the MUTAN model on the counting problem are analyzed to find out the reason, and the optimization direction of the future MUTAN model is given.

KEY WORDS: Visual Question Answering, Tucker decomposition, low-rank constraint, attention mechanism

目 录

摘 要 I

Abstract II

第一章 介绍 1

1.1 视觉问答(VQA)介绍 1

1.2 应用前景 2

1.3 研究现状 2

第二章 理论基础 8

2.1 卷积神经网络 8

2.2 循环神经网络 11

2.3 注意力机制 14

第三章 基于MUTAN的视觉问答模型 17

3.1 基于神经网络的特征提取 17

3.2 基于MUTAN的多模态特征融合 19

3.2.1 张量的Tucker分解 20

3.2.2 多模态特征Tucker融合 21

3.2.3 张量稀疏化 21

3.3 基于注意力机制的特征选择 22

第四章 基于MUTAN的视觉问答算法性能分析 24

4.1 VQA数据集介绍 24

4.2 模型参数设置 25

4.3 对比实验 25

4.3.1 不同的特征融合方法对比 25

4.3.2 不同VQA模型的对比 26

4.4 数据增强 28

4.5 注意力机制与Glimpse数量影响 28

4.6 秩约束的影响 30

4.6.1 不同约束值R的影响 30

4.6.2 不同向量的影响 31

4.7 计数问题 33

第五章 总结 36

参考文献 37

致 谢 40

介绍

视觉问答(VQA)介绍

近年来人们对图像和文本表示学习进行了广泛的研究,伴随着大量样本集的出现和计算机硬件的飞速发展,人们在该领域不断取得突破,卷积神经网络(Convolutional Neural Networks)在图像的特征表达领域所向披靡,而循环神经网络(Recurrent Neural Network)在短语和语句的特征表达领域脱颖而出,这些网络结构的出现推动了计算机视觉(Computer Vision)和自然语言处理(Natural Language Processing)领域的发展,随着计算机在语言和视觉理解上的进步,人们逐渐开始对能够将视觉信息和语言信息紧密联系起来的新框架产生兴趣,这种新框架能够将两种模态的信息联合进行学习和推理,这种趋势也使得模式识别领域不断朝着更解决具有挑战性和更具有开放性的任务发展,重燃人们创建能够通过开放领域图灵测试机器的旧人工智能梦想。

剩余内容已隐藏,请支付后下载全文,论文总字数:41352字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;