這是chi_sim.traineddata.gz下載,tesseract-ocr中英文數(shù)據(jù)包chi_sim.traineddata.gz eng.traineddata.gz.初期Tesseract引擎由HP實驗室研發(fā),后來貢獻給了開源軟件業(yè),后經(jīng)由Google進行改進。
chi_sim.traineddata.gz我用不了那么多字,然后就按官方和網(wǎng)上的資料自己做了一個識別庫,這個庫只能識別訓練過的文字。速度生成的文件應該跟訓練的字數(shù)有關的,我實驗了幾個字,只有100多k。 但是發(fā)現(xiàn)一個很明顯的問題是,默認的識別速度比較慢。識別四個很明顯的字需要將近兩秒。
為什么用3.05呢?
從官方文檔上看4.0版本(windows版本于2017年1月30號發(fā)布)顯著的提高了識別率,同時也加大了性能的消耗。理論上我是應該用4.0。但這不是重點。重點是有windows的版本有詭異的bug! 花了好久沒有解決。
不過還好,4.0支持3.05版本的所有語法。換而言之,下面的所有內容在4.0都是可以用的。
•大多數(shù)比較老,有部分內容已經(jīng)不適用。
•大部分只是就英文的訓練進行探索,很少針對中文的訓練。
接下來盡可能詳細的介紹自己tesseract訓練中文識別的經(jīng)驗。