TryOCR 簡單易用,支持文檔識別、框選識別、多行識別三種模式,另外還有額外的文字識輔助別功能,包括二值化、旋轉校正、版面分析、邊框去除、噪聲去除等,而且還是免費軟件,避免了版權風險。" />
TryOCR(識別看看)是由 nice 推薦的一款比較好用的 OCR 軟件 ,TryOCR 是國產優(yōu)秀免費軟件,可以將一般圖片中的文字識別、抄錄出來,從而省去不必要的打字時間,且有比較好的識別率和識別速度,有大量掃描圖像或文檔時特別有用。 TryOCR 簡單易用,支持文檔識別、框選識別、多行識別三種模式,另外還有額外的文字識輔助別功能,包括二值化、旋轉校正、版面分析、邊框去除、噪聲去除等,而且還是免費軟件,避免了版權風險。
“識別看看”是一款優(yōu)秀的ocr文字識別軟件,使用識別看看,您可以輕松的將一般圖片中的文字抄錄出來,這將省去您大量的打字時間,識別率相當高,識別速度也非?。
TryOCR(中文名:識別看看)是由起點推薦的一款比較好用的 OCR 軟件,TryOCR 是國產優(yōu)秀免費ocr文字識別軟件,可以將一般圖片中的文字識別、抄錄出來,從而省去不必要的打字時間,且有比較好的識別率和識別速度,有大量掃描圖像或文檔時特別有用。
不論圖片清淅與模糊,版面不論簡單與復雜,TryOCR 的識別率和速度都表現得相當出色,而且是免費的,應該是目前國內比較好的 OCR 工具。
測試發(fā)現 TryOCR 簡單易用,支持文檔識別、框選識別、多行識別三種模式,另外還有額外的文字識輔助別功能,包括二值化、旋轉校正、版面分析、邊框去除、噪聲去除等,而且還是免費軟件,避免了版權風險。
TryOCR 與其他 ocr文字識別軟件的對比
對ocr文字識別軟件現狀有如下體會:ABBYY FineReader 對清淅、版面簡單的圖片識別率還不錯,可惜如果圖片模糊點,版面復雜點,識別率就差了;目前國內較好的 OCR 軟件有 TryOCR(識別看看)、漢王 OCR、紫光 OCR 等,對于清析圖片、版面簡單的,三者識別率差不多,而對于中等、模糊、版面復雜的圖片,TryOCR 有較高的識別率和識別速度,而且只有 TryOCR 是完全免費的。不信?那就識別看看。
1、文檔識別:像書集,報紙,名片等含有文字的圖片,都可以稱之為文檔,都可以用這個工具按鈕來進行識別
2、框選識別:從文檔中框選出一個文字區(qū)域進行識別,就叫做“框選識別”,為了使識別率更高,速度更快,您最好不要將非文字區(qū)域框選進來
3、簡單多行文檔識別:如果您的文檔只存在一列文字,沒有復雜的背景,不含其它插圖等非文字信息,那么您可以選該工具進行識別,它將使這種圖片的識別結果更準確,速度更快
4、二值化圖片:將彩色的或者灰色圖片變成只有黑白兩色的圖片
5、文檔傾斜較正:由于一般用戶拍攝文檔圖片比較隨意,造成文檔中的文字行存在一定的傾斜,為了識別,我們可以先將其進行較正
6、文檔版面分析:我們對整個文檔的識別過程中,需要對文檔先切割成一行行文字,這一過程就叫做版面分析
1、打開要識別的圖片。
2、開始文檔識別。
3、保存識別結果到指定位置即可。
支持文檔識別及框選識別、旋轉校正。與同類軟件相比,識別看看的識別率遠高于同類軟件,整體的識別率高出同類OCR軟件,對于模糊及斷筆、粘連的圖片,也具有明顯的優(yōu)勢。文字識別之后可以保存為TXT文本文檔。
經小編試用后發(fā)現,識別看看在識別文檔的時候,CPU的占用率比較高,在實際測試時CPU占用率高達50%。
在最近幾年中,ocr識別技術隨著掃描儀的普及得到了飛速的發(fā)展,掃描、識別軟件的性能不斷強大并向智能化不斷升級 發(fā)展。但是要想快速地獲取正確的掃描結果,得到高效率的文字錄入,必須認真學習有關知識,結合實踐經驗,摸索出自己的全套解決方案。有時我們在作文字識別 工作時識別率非常低,根本達不到軟件所說的95%以上,請先不要責怪硬件或軟件,其實這是沒有掌握好掃描及ocr識別技巧的原因。
下面是文字識別操作中經常用到了一些方法和技巧。
1.分辨率的設置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結果。但也 不是掃描分辨率設得越高識別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識別,設置掃描分辨率時千萬不 要超過掃描儀的光學分辨率,不然會得不償失。下面是部分典型設置,僅供參考。
(1)1、2、3號字的文章段,推薦使用200dpi。
(2)4、小4、5號字的文章段,推薦使用300dpl
(3)小5、6號字的文章段,推薦使用400dpl
午(4)7、8號字的文章段,推薦使用600dpi。
2. 掃描時適當地調整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度值的設定以觀察掃描后的圖像中漢字的筆畫較細但又不 斷開為原則。進行識別前,先看看掃描得到的圖像中文字質量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應該增加 亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減小亮度后再試試。
3.選好掃描軟件。選一款好的適合自己的ocr軟件是作好文字識別工作的基礎,一般不要使用掃描儀自帶的oem軟 件,oem的ocr軟件的功能少、效果差,有的甚至沒有中文識別,經過比較,我認為清華紫光ocr2003專業(yè)版和尚書ocr6.0文本自動識別輸入系統 的識別能力與使用功能更突出一些。再選一個圖像軟件,ocr軟件不是有掃描接口嗎?為什么還找圖像軟件?第一,ocr軟件不能識別所有的掃描儀;第二,也 是最關鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理;一般選用photoshop。
4.如果要進行的文本是帶有格式的,如粗體、斜體、首行縮進等,部分ocr軟件識別不出來,會丟失格式或出現亂碼。 如果必須掃描帶有格式的文本,事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關閉樣式識別系統,使軟件集中注意力查找正確的字符,不再顧及字體 和字體格式。
5.在掃描識別報紙或其他半透明文稿時,背面的文字透過紙張混淆文字字形,對識別會造成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時,增加掃描對比度,即可減少背面模糊字體的影響,提高識別正確率,
6.一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設置時卻常將掃描模式設為灰度模式。特別是在原稿質量較差時, 使用灰度模式掃描,并在掃描軟件處理完后再繼續(xù)識別,這樣會得到較好的識別正確率。值得注意的是ocr識別軟件可以自己確定閥值,幾個百分點的閥值差異, 可能就會影響識別的正常進行。當然,得到的圖像文件的大小會比黑白文件大很多。在進行大批量文稿掃描時,必須對原稿進行測試,找到最佳的閥值百分比。
7.遇到圖文混排的掃描原稿,首先明確使用的識別軟件是否支持自動分析圖文這一功能。如果支持的話,在進行這類掃描識別時,ocr軟件會自動計算出文本的內容、位置和先后順序。文字部分可以按照標示順序正常識別。
8.手動選取掃描區(qū)域會有更好識別效果。設置好參數后,先預覽一下,然后開始選取掃描區(qū)域。不要將要用的文章一股腦 兒選在一個區(qū)域內,因為現在的文章排版為了追求更好的視覺效果,使用圖文混排的較多,掃成一幅圖像會影響ocr識別。因此,要根據實際情況將版面分成n個 區(qū)域,怎么劃分區(qū)域呢?每一區(qū)域內的文字字體、字號最好一致,沒有圖形、圖像,每一行的寬度一致,遇到長短不一,再細分,一般一次最多可掃描10個選區(qū)。 根據不同情況,合理地設置識別區(qū)域的順序。不要嫌這個過程太煩,那可是提高識別率的有效手段。注意各識別區(qū)域不能有交叉,做到一切覺得完好以后再進行識 別。這樣一般的識別率會在95%以上,對于識別不正確的文字進行校對后,就可以進入相應的文字處理軟件進行所需的處理了。
9.在放置掃描原稿時,把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由于光學透鏡導致的失真。同時應保護掃描儀玻璃的干凈和不受損害。
文字有一定角度的傾斜,或者是原稿文字部分為不正規(guī)排版,必須在掃描后使用旋轉工具,進行糾正;否則ocr識別軟件會將水平筆劃當做斜筆劃處理,識別正確率會下降很多。建議用戶盡量將掃描原稿放正,用工具旋轉糾正會降低圖像質量,使字符識別更加困難。
10.先”預覽”整體版面,選定要掃描的區(qū)域,再用”放大預覽”工具,選擇一小塊進行放大顯示到全屏幕,觀察其文字的對比度,文字的深淺濃度,據情況調整”閥值”的大小,最終要求文字清晰,不濃(文字成團),不淡(文字斷筆伐),一般在”閥值”80左右為宜,最后再掃描。
11.用工具擦掉圖像污點,包括原來版面中的不需要識別的插圖、分隔線等,使文字圖像中除了文字沒有一點多余的東西;這可以大提高識別率并減少識別后的修改工作。
12.如果要掃描印刷質量稍微差一些的文章,比如說報紙,掃描的結果將不會黑白分明,會出現大量的黑點,而且在字體 的筆畫上也會出現粘連現象,這兩項可是漢字識別的大忌,將嚴重影響漢字識別的正確率。為獲得較好的識別結果,必須仔細進行色調調節(jié),反復掃描多次才能獲得 比較理想的結果。另外由于報紙很薄且大部分紙質不高,導致掃描儀上蓋板不能完全壓住報紙(有縫隙),所以一般情況下報紙的掃描識別效果沒有雜志的效果好。 解決辦法是在報紙上壓一至兩本16k的雜志,效果還是不錯的。