" />
尚書六號表格文字識(shí)別系統(tǒng)可以對彩色、灰度圖像文件直接進(jìn)行識(shí)別;尚書六號支持更多的掃描文件格式,例如tiff、bmp和jpg格式;與此同時(shí),尚書六號完善了表格識(shí)別功能,各式各樣的表格幾乎都可以原封不動(dòng)的由圖片格式轉(zhuǎn)變?yōu)榭梢宰杂删庉嫷奈淖指袷健?span style="display:none">9iE紅軟基地
尚書六號支持TIFF、BMP和JPG格式等掃描。
OCR也就是文字識(shí)別技術(shù),運(yùn)用電腦或者掃描儀來識(shí)別圖片或者數(shù)字圖片文件里的文字內(nèi)容,方便文字錄入,提高工作效率。
使用只需要用本軟件打開要識(shí)別的文字的圖片,點(diǎn)擊識(shí)別即可,識(shí)別率非常高,即便是有嚴(yán)重劃痕和干擾的圖片,也能達(dá)到驚人的98.5%!
按書寫方式區(qū)分,漢字識(shí)別可分為手寫漢字識(shí)別和印刷體漢字識(shí)別兩大類。按工作方式區(qū)分,則可分為聯(lián)機(jī)漢字識(shí)別和脫機(jī)漢字識(shí)別兩種方式。前者為實(shí)時(shí)識(shí)別,書寫者在專用書寫書寫的漢字即時(shí)送入計(jì)算機(jī)進(jìn)行識(shí)別;后者為非實(shí)時(shí)識(shí)別,打印或已寫好的書面文字經(jīng)光電轉(zhuǎn)換裝置(如掃描儀等)變?yōu)殡娦盘柡笏腿胗?jì)算機(jī)進(jìn)行識(shí)別,通常把這種設(shè)備叫做光電閱讀機(jī)(optical character reader),記為 OCR。
漢字識(shí)別是模式識(shí)別的一個(gè)分支。漢字是一種特殊的模式,其特點(diǎn)是字?jǐn)?shù)多,字形復(fù)雜,有的字形十分相似,印刷體漢字又有多種字體(仿宋、宋、黑、楷書與打印體等)和多種大小不同的字號。因而漢字識(shí)別是一個(gè)相當(dāng)困難的問題。
和一般的模式識(shí)別相同,漢字識(shí)別的基本方法主要有統(tǒng)計(jì)法和結(jié)構(gòu)法兩種。漢字由筆劃組成,具有較嚴(yán)格的拓?fù)浣Y(jié)構(gòu),包含豐富的結(jié)構(gòu)信息,因而結(jié)構(gòu)法較適用于漢字識(shí)別。中國和日本學(xué)者先后提出若干以結(jié)構(gòu)信息為主的統(tǒng)計(jì)與結(jié)構(gòu)法相結(jié)合的新算法,選用了-些分類能力強(qiáng)、抗畸變和干擾性能好的特征,較好地解決了多子體多字號混合排印的印刷體漢字脫機(jī)識(shí)別和限制性手寫漢字聯(lián)機(jī)識(shí)別問題。研制成功幾種識(shí)別系統(tǒng),并已付諸應(yīng)用。
漢字識(shí)別系統(tǒng)大體上可分為預(yù)處理、特征提取與識(shí)別和后處理三部分,見圖。在脫機(jī)識(shí)別系統(tǒng)中,掃描儀將打印或書寫在紙上的漢字文稿,轉(zhuǎn)換為電信號輸入計(jì)算機(jī),經(jīng)版面分析、逐字分割和歸一化等漢字識(shí)別預(yù)處理后,獲得版面上各個(gè)漢字的二維點(diǎn)陣圖形。特征提取和識(shí)別部分的任務(wù)是提取識(shí)別特征,并將它和存儲(chǔ)在識(shí)別字典內(nèi)的每個(gè)特征模板逐一進(jìn)行比較、判別,得出識(shí)別結(jié)果。漢字識(shí)別后處理部分利用詞組或上下文關(guān)系糾正識(shí)別結(jié)果中的一些錯(cuò)誤,以提高整個(gè)系統(tǒng)的正確識(shí)別率。
漢字識(shí)別的用途十分廣泛。用聯(lián)機(jī)手寫漢字識(shí)別代替擊鍵打字的方式,實(shí)時(shí)地把漢字輸入計(jì)算機(jī),比較符合人處理文字資料的習(xí)慣。脫機(jī)印刷體漢字識(shí)別可用于辦公室自動(dòng)化、郵件分揀、機(jī)器翻譯和盲人機(jī)助閱讀等方面。脫機(jī)手寫漢字識(shí)別的困難較大,處于研究階段。采用人工神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究正越來越得到各方面的重視,并已取得一些進(jìn)展。