印刷體漢字識別系統
一、文字識別概述
從上一部分的介紹中我們可以知道,從識別技術的難度來說,手寫體識別的難度高于印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過了聯機手寫體識別。到目前為止,除了脫機手寫體數字的識別已有實際應用外,漢字等文字的脫機手寫體識別還處在實驗室階段。
與脫機手寫體和聯機手寫體識別相比,印刷體漢字識別已經實用化,而且在向更高的性能、更完善的用戶界面的方向發展。因為它有著廣泛的應用前景。目前,辦公自動化已成為信息社會不可避免的發展趨勢。雖然在計算機網絡飛速發展的今天,許多信息已經電子化,世界各地出現了許多“電子版”的報紙、雜志等出版物,但是我們可以看到印刷材料的數量也大大地增加了,一些專業單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,畢竟閱讀印刷材料更為符合人的自然閱讀習慣;同時,網絡信息資源的爆炸性增長以及網絡傳輸容量的限制,都是方便、快速地獲取這些信息的制約因素。電子化與印刷文本材料如同一枚硬幣的兩面,互相補充、互相促進,在未來的十幾年或更長的時間內將不會出現一者被另一者取代的情況。
 |
二、印刷體文字識別的研究歷程
印刷體文字的識別很早以前就是人們的夢想,早在1929年,Taushek就在德國獲得了一項有關OCR(光學字符識別)的專利。歐美國家為了將浩如煙海、與日俱增的大量報刊雜志、文件資料和單據報表等文字材料輸入計算機進行信息處理,從50年代就開始了西文OCR技術的研究,以便代替人工鍵盤輸入。
印刷體漢字的識別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了1,000個印刷體漢字。70年代以來,日本學者做了許多工作,其中有代表性的系統有1977年東芝綜合研究所研制的可以識別2000個漢字的單體印刷漢字識別系統;80年代初期,日本武藏野電氣研究所研制的可以識別2300個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識別系統。這些系統在方法上,大都采用基于數字變換的匹配方案,使用了大量專用硬件,其設備有的相當于小型機甚至大型機,價格極其昂貴,沒有得到廣泛應用。
我國對印刷體漢字識別的研究始于70年代末80年代初,大致可以分為三大階段:
(1) 第一階段從70年代末期到80年代末期,主要是算法和方案探索。
(2) 第二階段是90年代初期,中文OCR由實驗室走向市場,初步實用。
(3) 第三階段也就是目前,主要是印刷體漢字識別技術和系統性能的提高,包括漢英雙語混排識別率的提高和穩定性的增強。
同國外相比,我國的印刷體漢字識別研究起步較晚。但由于我國政府對漢字自動識別輸入的研究從80年代開始給予了充分的重視和支持,經過科研人員十多年的辛勤努力,印刷體漢字識別技術的發展和應用,有了長足進步:從簡單的單體識別發展到多種字體混排的多體識別,從中文印刷材料的識別發展到中英混排印刷材料的雙語識別。各個系統可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析,同時漢字識別率已達到了98%以上。
清華大學電子工程系、中國科學院計算所智能中心、北京信息工程學院、沈陽自動化研究所等單位分別研制開發出實用化的印刷體漢字識別系統。尤其是由清華大學電子工程系研制的清華TH-OCR產品,始終處于技術與產品發展的最前沿,并占據著最大的市場份額,代表著中文OCR技術發展的潮流。
這一成就,是對中華文化寶貴遺產的繼承和發揚,在世界電腦發展史上,必將留下光輝的一頁,同時,這也是造福子孫千秋萬代的大事。國家高技術研究發展“863"計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對這一研究課題予以極大的重視和大力的支持。
三、結論與展望
總體來說,近幾年來國內對印刷體漢字識別的研究還是相當深入的,也取得了很大成績,使系統的識別率不斷上升。目前印刷體漢字識別系統的應用已經相當成熟。例如,剛剛通過國家教委鑒定的清華TH-OCR97綜合集成漢字識別系統,對中等質量的樣本,識別率已經可以達到99%左右或更高。不過,這些系統還存在著一些可改進之處:
1、從識別角度
(1) 漢字識別率總是漢字識別中最重要的指標,應該達到更新的高度,從而最大程度地減少用戶校對、修改的工作量。
(2) 印刷體漢字識別的魯棒性(Robustness)還不夠強。Robust在英文中是“健壯的”或“強的”之意。魯棒性可以理解為識別系統對于不同質量、不同字號、不同字體的文本圖象表示出來的適應性。在文字識別中,識別系統的魯棒性尤其反應在隨著印刷質量的下降,系統誤識率的上升趨勢上。
目前的OCR系統都對掃描圖象的質量有一定要求,掃描亮度不能太暗也不能太亮,保證文字的圖象即不會暗成一個黑塊也不會亮得筆畫發生很多斷裂。這就對用戶的使用提出了較高要求。
印刷文本的質量可能千差萬別,一般用戶對掃描儀的操作也可能不夠合適,這往往造成識別圖象的質量不佳,為使任何未經訓練的用戶都能用好OCR系統,系統的魯棒性必須不斷提高。
(3) 漢英混排文本的切分仍不夠成熟。與識別技術相比,對切分的理論和方法還缺乏系統的研究和有效的成果。隨著漢字識別率的上升以及漢英混排文本的增多,切分錯誤在所有錯誤中所占的比重不斷上升,怎樣使文字正確分割變成了另一個還未很好解決的問題。
2、用戶界面和自動化程度方面
(1) 掃描儀自動亮度調節,無須用戶選擇門限,自動隨文本種類、印刷質量不同選擇合適的掃描儀亮度門限,以保證識別率。
(2) 版面的自動分析,無需人工干預,可以將印刷文本材料,如報紙、雜志等,上面有各種插圖、表格、花邊,且同時存在橫、豎版面等加以區分和作相應的標記,以便分別處理。
(3) 中文印刷表格的自動錄入,對于中文印刷表格,可以進行框線的自動檢測、欄目自動切分,直至將各欄目中的內容識別出來,并且可以和數據庫直接相連,完成印刷表格自動錄入至數據庫的任務。
(4) 版面自動恢復,僅有文字識別往往不能滿足實際需要。能夠保持原來的排版形式、字體信息、表格和插入的圖形圖象,以便在Word、北大方正等排版軟件中直接修改,一直是許多用戶的夢想。
(5) 系統提供用戶自學習功能,使用戶自由地擴大專業識別字符集;以及適用于各種應用環境的漢字識別系統。例如:MS-DOS環境、Windows環境和UNIX環境下中文OCR版本,滿足不同用戶的需求。
3、其它方面
(1) 系統總體性能的進一步提高。解決像報紙這種欄目多而位置排列復雜的印刷文本材料的版面自動理解;利用自然語言理解知識進行識別后處理;進一步提高英文的識別率和適應性,降低系統的誤識率,等等。
(2) Internet/Intranet上的網絡版本。充分利用網絡上的資源及計算能力,提高系統的性能,使用戶能夠更方便地協同工作。
(3) 系統固化以及系統各部分的質量和性能的穩定提高。
(4) 擴大OCR核心技術的應用范圍,開發更多的應用系統,并將研究成果迅速轉化為產品,提高軟件的商品化水平,使之能大量地走出國門,走向全世界。
這些都是漢字識別系統急待解決的問題,也是漢字識別技術今后努力發展的重要方向。
[上一頁] [下一頁]
|