商业医保发票字符识别系统的噪声处理及文字分割模块的设计与实现

 2022-01-29 19:01:43

论文总字数:28625字

摘 要

近几十年来,OCR(光学字符识别)技术的急速发展,使得发票自动处理系统广泛应用于税务、保险、金融等行业。本文主要针对医疗保险发票设计一个字符识别系统的模块,进行彩色发票的灰度化、二值化及降噪等处理,然后进行字符分割处理。

经过对于各阶段算法的讨论和实验,本文提出一套处理流程:选取24位彩色BMP图像作为源数据;在灰度化阶段采用“去红色”灰度化模型处理得到后续绝大多数兴趣字符的分割的数据,采用OpenCV灰度化模型处理得到用于定位发票表格框线的数据;在二值化阶段,使用调整参数的Sauvola算法进行处理;在兴趣区域分割阶段,采用水平竖直方向上的投影,统计黑色像素点的频数,来定位表格框线的坐标,然后对各兴趣区域进行定位分割;在噪声处理阶段,试验了形态学中的处理方法,最后决定在分割之前先做一次膨胀运算,再做一次腐蚀运算;字符分割阶段,提出了一种基于“始/终边”的栈式分割方法,同时结合形态学方法对于不同区域内、不同宽度的字符进行分割。

最终在25张发票图像的字符分割实验中,字符分割的准确率可以达到82.1%,基本达到字符识别系统对于字符分割模块的需求。

关键词:多模型的灰度化,水平垂直投影,形态学图像处理,栈式分割

DESIGN AND IMPLEMENTATION OF NOISE PROCESSING AND CHARACTER SEGMENTATION MODULE OF COMMERCIAL MEDICAL INSURANCE INVOICE CHARACTER RECOGNITION SYSTEM

Abstract

In recent decades, with the rapid development of OCR (Optical Character Recognition) technology, invoice automation system has been widely used in tax, insurance, finance and other industries. This paper mainly designed a module of character recognition system for medical invoice to convert color image to gray, convert gray image to binary image, process noise in the image and segment the characters.

After discussing and testing the algorithm of each period, this paper proposed a series of processing procedures. Firstly, we use 24-bit color BMP image as source data. Then use “Eliminating Red” image graying model to get the data to segment the most interest characters and use OpenCV model to get the data to locate the coordinates of table frame lines in the invoice image. In the binarization period, we use Sauvola algorithm after adjusting parameter values. Then we use horizontal and vertical projections to sum up the frequency of black pixels to locate the coordinates of table frame lines, and use the statistics to segment the interest regions. In processing noise period, we test the morphology methods, and finally decide to get the binary image dilated and corroded for one time before character segmentation. Finally, this paper proposed a stack segmentation method based on “start/end boundary”. Combined with morphology methods, we use this method to segment the characters with different width in different regions.

After testing this series of processing procedure with 25 invoice images, the accuracies of character segmentation reached 82.1%, which can satisfy the requirements of character segmentation module of character recognition system.

KEYWORDS: multiple image-graying models, horizontal and vertical projections count, morphology image processing, stack segment

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 发票图像处理及识别的研究现状 1

1.2 本文的主要研究内容及结构安排 1

第二章 发票版面分析及处理流程设计 3

2.1 商业医保发票的版面特点分析 3

2.2 图像处理流程设计 3

2.3 本章小结 4

第三章 图像预处理 5

3.1 图像类型选择及获取 5

3.2 灰度化处理 5

3.2.1 去红色灰度化模型 6

3.2.2 OpenCV灰度化模型 7

3.3 二值化 7

3.3.1 OTSU全局阈值法 7

3.3.2 Niblack局部阈值法 9

3.3.3 Sauvola局部阈值法 9

3.3.4 实验结果与分析 9

3.4 本章小结 12

第四章 兴趣区域定位及降噪 13

4.1 兴趣区域分割 13

4.1.1 发票表格直线定位 13

4.1.2 兴趣区域分割 15

4.2 噪声处理 19

4.2.1 均值滤波 19

4.2.2 中值滤波 19

4.2.3 数学形态学图像处理方法 19

4.2.4 实验结果与分析 20

4.3 本章小结 22

第五章 字符分割 23

5.1 基于“始/终边”的栈式分割方法 23

5.2 结合形态学方法改进的水平投影法 25

5.3 本章小结 26

第六章 结论 27

6.1 设计创新 27

6.2 待改进的 27

参考文献 28

致谢 29

第一章 绪论

目前,在医疗发票处理行业,发票的处理任务如整理、归档大多由人工完成,而有些企业还要求对商业医保中的发票进行统一电子化管理,海量发票的处理、录入、核对工作不仅耗费人力物力资源,处理效率低下,还可能存在人为失误等情况。从企业发展角度而言,如果始终采用人工处理发票的方式,企业在市场上的竞争力将大大地遭到限制。

剩余内容已隐藏,请支付后下载全文,论文总字数:28625字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;