更新時(shí)間:2021年05月14日17時(shí)38分 來源:傳智教育 瀏覽次數(shù):
光學(xué)字符識(shí)別(Optical Character Recognition,OCR)是指對(duì)包含文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的技術(shù)。一般包括以下幾個(gè)過程:
1.圖像輸入
針對(duì)不同格式的圖像,有著不同的存儲(chǔ)格式和壓縮方式。目前,用于存取圖像的開源項(xiàng)目有OpenCV和CxImage等。
2.預(yù)處理
預(yù)處理主要包括二值化、噪聲去除和傾斜較正。具體內(nèi)容如下:
(1)二值化:大多數(shù)情況下,使用攝像頭拍攝的圖像都是彩色圖像,彩色圖像包含的信息量非常豐富,需要進(jìn)行簡化??梢詫D像的內(nèi)容簡單地分為前景和背景,為了讓計(jì)算機(jī)更快、更好地識(shí)別文字,需要先對(duì)彩色圖像進(jìn)行處理,使圖像只剩下前景與背景信息,即簡單地定義前景信息為黑色,背景信息為白色,這就是二值化圖。彩色圖像和二值化圖像處理前后對(duì)比如下圖所示。
(2)噪聲清除:對(duì)于不同的文檔,噪聲的定義可以不同。根據(jù)噪聲的特征進(jìn)行消除處理,叫作噪聲去除。
(3)傾斜校正:通常情況下,用戶拍攝的照片比較隨意,拍照文檔很有可能會(huì)產(chǎn)生傾斜。
這時(shí),需要使用文字識(shí)別軟件進(jìn)行校正。
3.版面分析
將文檔圖片分段落、分行的過程叫作版面分析。由于實(shí)際文檔的多樣性和復(fù)雜性,目前沒有一個(gè)固定的、最好的切割模型。
4.字符切割
由于拍照條件的限制,經(jīng)常會(huì)造成字符粘連、斷筆等情況,因此極大地限制了識(shí)別系統(tǒng)的性能。此時(shí),就需要文字識(shí)別軟件具備字符切割功能。
5.字符識(shí)別
很早的時(shí)候就有模板匹配,后來是以特征提取為主。由于文字的位移、筆畫的粗細(xì)、斷筆、粘連、旋轉(zhuǎn)等因素的影響,極大地增加了提取的難度。
6.版面恢復(fù)
通常,人類希望識(shí)別后的文字,仍然按照原文檔圖片那樣排列著,保持段落不變、位置不變、順序不變,之后輸出到Word文檔或PDF文檔,這個(gè)過程就叫作版面恢復(fù)。
猜你喜歡:
北京校區(qū)