程序使用自定義生成字庫特征,可以減小誤識(shí)率,加快識(shí)別速度。在使用2688個(gè)常用字庫,T6600 2.2GHz處理器,WIN7下可達(dá)350字/秒,XP比WIN7更快一點(diǎn)。它每次只識(shí)別一種字體多種大小的字。
程序使用模糊匹配的識(shí)別方法,所以對一些字跡斷裂的PDF文檔有一定識(shí)別率。一些識(shí)別軟件識(shí)別率為零的地方,也可以達(dá)到50%。對靠很近的文字未做處理,是需要改進(jìn)的地方,文字靠很近的情況(如記事本,字很大時(shí))不會(huì)很多,文字靠很近本身看著就不舒服。程序?qū)ξ淖址指钍仟?dú)立的,一個(gè)字分割錯(cuò)誤,不帶入下一個(gè)字。你可以在畫圖板零亂輸入幾個(gè)漢字,它依然可以識(shí)別出來。
主程序下三個(gè)目錄說明: .DataPath 字特征庫保存目錄, 文件類型.idb .RtfPath 識(shí)別結(jié)果保存目錄,文件類型.rtf .CutPicture 截圖識(shí)字圖片暫放目錄,文件類型.bmp
部分菜單功能: 文字識(shí)別 字庫-讀取字庫,文件-打開圖片,識(shí)別-識(shí)別文字 特征創(chuàng)建 支持系統(tǒng)所有語種、字型,可3分鐘內(nèi)生成2500常用字庫。 不同字號(hào)大小的漢字,輸出到屏幕上,并不是等比縮放,所以一個(gè)字不是一個(gè)特征那么簡單。 字號(hào)大小 指定最小值,在點(diǎn)確定后所看到就是最小尺寸。最大值可填很大,如100,程序自動(dòng)截?cái)嘧畲笾?建議英文字母最小值設(shè)為20,漢字最小值設(shè)為12。 字號(hào)間隔 尺寸大小間隔,值越小,特征數(shù)據(jù)庫越大,一般取2-5即可 字符寬度 漢字存儲(chǔ)空間,占兩個(gè)字節(jié),所以字符寬度填2。英語和數(shù)字則填1, 截圖識(shí)字 全局快捷鍵Ctrl+I,右鍵開始,再次右鍵Cut,左鍵撤銷選擇,再次左鍵退出。 識(shí)別方案 設(shè)置識(shí)別速度等,程序中有完整說明 背景分離 識(shí)別-識(shí)別方案,點(diǎn)拾色器拾取文字顏色,并填入紅綠藍(lán)浮動(dòng)范圍 然后預(yù)處理-背景分離 其他功能 如反色處理,文字放大,傾斜度調(diào)整,偶爾也會(huì)用到