字體識(shí)別軟件,有沒有識(shí)別字體的軟件

本文目錄一覽

1,有沒有識(shí)別字體的軟件

自動(dòng)識(shí)別圖片中的文字,用“尚書”。我用過的是尚書6,照片中的文字也可以轉(zhuǎn)的,只要清晰度夠就行。
沒有這樣的軟件, 你見的字體多了,自然會(huì)識(shí)別出來, 不過不能一一識(shí)別,其實(shí)知道點(diǎn)常用的也就可以了。

有沒有識(shí)別字體的軟件

2,文字識(shí)別軟件是什么

文字識(shí)別(OCR)軟件通常是從掃描儀掃描的文字材料中把圖像文字變?yōu)榫幋a的文字,說白了就是圖片變文字,我用過較好的文字識(shí)別(OCR)軟件是尚書七號(hào)和漢王文本王 文豪7600 簡潔全功能專業(yè)版,我認(rèn)為最好的是漢王文本王文豪7600 簡潔全功能專業(yè)版,另外還有一款非常小巧實(shí)用的綠色OCR軟件也不錯(cuò),就是mimiocr(OCR文字識(shí)別軟件)綠色版。另外還有一些文字識(shí)別軟件也比較好用,不過與其叫它們文字識(shí)別軟件,還不如叫文字抓取軟件更好,我們?cè)跒g覽網(wǎng)頁的時(shí)候或在電腦屏幕的某些區(qū)域有一些文字材料需要摘取下來,但可能它們又不讓我們選擇復(fù)制,比如工具菜單上的文字,和一些PDF電子書中的文字,以及一些限制網(wǎng)頁上的資料,就可以用這類軟件把它們抓到下來。最好用的是Aqua Deskperience
文字識(shí)別軟件簡單說就是通過手機(jī)攝像頭拍攝圖片文本,軟件能夠快速識(shí)別、提取圖片中的文字信息,實(shí)現(xiàn)信息快速的錄入。我經(jīng)常用云脈技術(shù)的文檔識(shí)別和云脈慧眼,在移動(dòng)端OCR技術(shù)上,云脈技術(shù)還有好多文字識(shí)別的應(yīng)用。大家可以到各個(gè)app市場下載試試看
OCR文字識(shí)別OCR文字識(shí)別是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是OCR最重要的課題的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。光學(xué)文字識(shí)別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。而最早對(duì)印刷體漢字識(shí)別進(jìn)行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識(shí)別的文章,采用了模板匹配法識(shí)別了1000個(gè)印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識(shí)別方法研究為主,且識(shí)別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識(shí)別理論,初期以數(shù)字為對(duì)象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識(shí)別系統(tǒng),識(shí)別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。20世紀(jì)70年代初,日本的學(xué)者開始研究漢字識(shí)別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別進(jìn)行研究,70年代末開始進(jìn)行漢字識(shí)別的研究,到1986年漢字識(shí)別的研究進(jìn)入一個(gè)實(shí)質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識(shí)別率及產(chǎn)品化等多方面的因素,未能達(dá)到實(shí)際要求。同時(shí),由于硬件設(shè)備成本高,運(yùn)行速度慢,也沒有達(dá)到實(shí)用的程度。只有個(gè)別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展,在漢字建模和識(shí)別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺(tái)式掃描儀的廣泛應(yīng)用,以及我國信息自動(dòng)化和辦公自動(dòng)化的普及,大大推動(dòng)了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識(shí)別正確率、識(shí)別速度滿足了廣大用戶的要求。編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動(dòng)軟件即可。因此,OCR軟件主要是由下面幾個(gè)部分組成。圖像輸入、預(yù)處理:圖像輸入:對(duì)于不同的圖像格式,有著不同的存儲(chǔ)格式,不同的壓縮方式。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對(duì)攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對(duì)于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計(jì)算機(jī)更快的,更好的識(shí)別文字,我們需要先對(duì)彩色圖進(jìn)行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。噪聲去除:對(duì)于不同的文檔,我們對(duì)燥聲的定義可以不同,根據(jù)燥聲的特征進(jìn)行去燥,就叫做噪聲去除傾斜較正:由于一般用戶,在拍照文檔時(shí),都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識(shí)別軟件進(jìn)行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實(shí)際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個(gè)固定的,最優(yōu)的切割模型。字符切割:由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識(shí)別系統(tǒng)的性能,這就需要文字識(shí)別軟件有字符切割功能。字符識(shí)別:這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細(xì),斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。版面恢復(fù):人們希望識(shí)別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復(fù)。后處理、校對(duì):根據(jù)特定的語言上下文的關(guān)系,對(duì)識(shí)別結(jié)果進(jìn)行較正,就是后處理。編輯本段工作流程一個(gè)OCR識(shí)別系統(tǒng),其目的很簡單,只是要把影像作一個(gè)轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計(jì)算機(jī)文字,使能達(dá)到影像資料的儲(chǔ)存量減少、識(shí)別出的文字可再使用及分析,當(dāng)然也可節(jié)省因鍵盤輸入的人力與時(shí)間。從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對(duì)識(shí)別、最后經(jīng)人工校正將認(rèn)錯(cuò)的文字更正,將結(jié)果輸出。目前國內(nèi)最有實(shí)力的OCR公司有:云脈OCR, 漢王OCR及文通OCR
光學(xué)文字識(shí)別光學(xué)文字識(shí)別 即OCR (Optical Character Recognition)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。光學(xué)文字識(shí)別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。而最早對(duì)印刷體漢字識(shí)別進(jìn)行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識(shí)別的文章,采用了模板匹配法識(shí)別了1000個(gè)印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識(shí)別方法研究為主,且識(shí)別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識(shí)別理論,初期以數(shù)字為對(duì)象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識(shí)別系統(tǒng),識(shí)別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式?!?0世紀(jì)70年代初,日本的學(xué)者開始研究漢字識(shí)別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別進(jìn)行研究,70年代末開始進(jìn)行漢字識(shí)別的研究,到1986年漢字識(shí)別的研究進(jìn)入一個(gè)實(shí)質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識(shí)別率及產(chǎn)品化等多方面的因素,未能達(dá)到實(shí)際要求。同時(shí),由于硬件設(shè)備成本高,運(yùn)行速度慢,也沒有達(dá)到實(shí)用的程度。只有個(gè)別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展,在漢字建模和識(shí)別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺(tái)式掃描儀的廣泛應(yīng)用,以及我國信息自動(dòng)化和辦公自動(dòng)化的普及,大大推動(dòng)了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識(shí)別正確率、識(shí)別速度滿足了廣大用戶的要求。[1]編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動(dòng)軟件即可。因此,OCR軟件主要是由下面幾個(gè)部分組成。圖像輸入、預(yù)處理:圖像輸入:對(duì)于不同的圖像格式,有著不同的存儲(chǔ)格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項(xiàng)目 。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對(duì)攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對(duì)于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計(jì)算機(jī)更快的,更好的識(shí)別文字,我們需要先對(duì)彩色圖進(jìn)行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。噪聲去除:對(duì)于不同的文檔,我們對(duì)燥聲的定義可以不同,根據(jù)燥聲的特征進(jìn)行去燥,就叫做噪聲去除傾斜較正:由于一般用戶,在拍照文檔時(shí),都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識(shí)別軟件進(jìn)行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實(shí)際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個(gè)固定的,最優(yōu)的切割模型。字符切割:由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識(shí)別系統(tǒng)的性能,這就需要文字識(shí)別軟件有字符切割功能。字符識(shí)別:這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細(xì),斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。版面恢復(fù):人們希望識(shí)別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復(fù)。后處理、校對(duì):根據(jù)特定的語言上下文的關(guān)系,對(duì)識(shí)別結(jié)果進(jìn)行較正,就是后處理。編輯本段工作流程一個(gè)OCR識(shí)別系統(tǒng),其目的很簡單,只是要把影像作一個(gè)轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計(jì)算機(jī)文字,使能達(dá)到影像資料的儲(chǔ)存量減少、識(shí)別出的文字可再使用及分析,當(dāng)然也可節(jié)省因鍵盤輸入的人力與時(shí)間。從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對(duì)識(shí)別、最后經(jīng)人工校正將認(rèn)錯(cuò)的文字更正,將結(jié)果輸出。影像輸入欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器,如影像掃描儀、傳真機(jī)或任何攝影器材,將影像轉(zhuǎn)入計(jì)算機(jī)。科技的進(jìn)步,掃描儀等的輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對(duì)OCR有相當(dāng)大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率?!∮跋袂疤幚恚河跋袂疤幚硎荗CR系統(tǒng)中,須解決問題最多的一個(gè)模塊,從得到一個(gè)不是黑就是白的二值化影像,或灰階、彩色的影像,到獨(dú)立出一個(gè)個(gè)的文字影像的過程,都屬于影像前處理。包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理,及圖文分析、文字行與字分離的文件前處理。在影像處理方面,在學(xué)理及技術(shù)方面都已達(dá)成熟階段,因此在市面上或網(wǎng)站上有不少可用的鏈接庫;在文件前處理方面,則憑各家本領(lǐng)了;影像須先將圖片、表格及文字區(qū)域分離出來,甚至可將文章的編排方向、文章的提綱及內(nèi)容主體區(qū)分開,而文字的大小及文字的字體亦可如原始文件一樣的判斷出來?!∥淖痔卣鞒槿。簡我宰R(shí)別率而言,特征抽取可說是 OCR的核心,用什么特征、怎么抽取,直接影響識(shí)別的好壞,也所以在OCR研究初期,特征抽取的研究報(bào)告特別的多。而特征可說是識(shí)別的籌碼,簡易的區(qū)分可分為兩類:一為統(tǒng)計(jì)的特征,如文字區(qū)域內(nèi)的黑/白點(diǎn)數(shù)比,當(dāng)文字區(qū)分成好幾個(gè)區(qū)域時(shí),這一個(gè)個(gè)區(qū)域黑/白點(diǎn)數(shù)比之聯(lián)合,就成了空間的一個(gè)數(shù)值向量,在比對(duì)時(shí),基本的數(shù)學(xué)理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細(xì)線化后,取得字的筆劃端點(diǎn)、交叉點(diǎn)之?dāng)?shù)量及位置,或以筆劃段為特征,配合特殊的比對(duì)方法,進(jìn)行比對(duì),市面上的線上手寫輸入軟件的識(shí)別方法多以此種結(jié)構(gòu)的方法為主?!?duì)比數(shù)據(jù)庫:當(dāng)輸入文字算完特征后,不管是用統(tǒng)計(jì)或結(jié)構(gòu)的特征,都須有一比對(duì)數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對(duì),數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識(shí)別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對(duì)比識(shí)別這是可充分發(fā)揮數(shù)學(xué)運(yùn)算理論的一個(gè)模塊,根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),較有名的比對(duì)方法有,歐式空間的比對(duì)方法、松弛比對(duì)法(Relaxation)、動(dòng)態(tài)程序比對(duì)法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對(duì)、HMM(Hidden Markov Model)…等著名的方法,為了使識(shí)別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(Experts System)被提出,利用各種特征比對(duì)方法的相異互補(bǔ)性,使識(shí)別出的結(jié)果,其信心度特別的高。 字詞后處理:由于OCR的識(shí)別率并無法達(dá)到百分之百,或想加強(qiáng)比對(duì)的正確性及信心值,一些除錯(cuò)或甚至幫忙更正的功能,也成為OCR系統(tǒng)中必要的一個(gè)模塊。字詞后處理就是一例,利用比對(duì)后的識(shí)別文字與其可能的相似候選字群中,根據(jù)前后的識(shí)別文字找出最合乎邏輯的詞,做更正的功能。 字詞數(shù)據(jù)庫:為字詞后處理所建立的詞庫。人工校正OCR最后的關(guān)卡,在此之前,使用者可能只是拿支鼠標(biāo),跟著軟件設(shè)計(jì)的節(jié)奏操作或僅是觀看,而在此有可能須特別花使用者的精神及時(shí)間,去更正甚至找尋可能是OCR出錯(cuò)的地方。一個(gè)好的OCR軟件,除了有一個(gè)穩(wěn)定的影像處理及識(shí)別核心,以降低錯(cuò)誤率外,人工校正的操作流程及其功能,亦影響OCR的處理效率,因此,文字影像與識(shí)別文字的對(duì)照,及其屏幕信息擺放的位置、還有每一識(shí)別文字的候選字功能、拒認(rèn)字的功能、及字詞后處理后特意標(biāo)示出可能有問題的字詞,都是為使用者設(shè)計(jì)盡量少使用鍵盤的一種功能,當(dāng)然,不是說系統(tǒng)沒顯示出的文字就一定正確,就像完全由鍵盤輸入的工作人員也會(huì)有出錯(cuò)的時(shí)候,這時(shí)要重新校正一次或能允許些許的錯(cuò),就完全看使用單位的需求了。結(jié)果輸出有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和輸入文件一模一樣,所以有原文重現(xiàn)的功能、有人注重表格內(nèi)的文字,所以要和Excel等軟件結(jié)合。無論怎么變化,都只是輸出檔案格式的變化而已。如果需要還原成原文一樣格式,則在識(shí)別后,需要人工排版,耗時(shí)耗力。編輯本段中文識(shí)別資料錄入文獻(xiàn)資料的數(shù)字化錄入,一般分為: 1.純圖像方式?!?.目錄文本、正文圖像方式?!?.全文本方式?!?.全文索引方式。文本方式和圖像方式的混合體。識(shí)別過程書本級(jí):中文,英文;簡體,繁體; 版式級(jí):豎排,橫排;有無分欄; 行切分 字切分 識(shí)別:真正的OCR識(shí)別過程,圖像信息還原成文本信息 后處理:人工干預(yù),主要集中在前四個(gè)階段。識(shí)別結(jié)果決定因素1.圖片的質(zhì)量,一般建議150dpi以上 2.顏色,一般對(duì)彩色識(shí)別很差,黑白的圖片較高,因此建議ocr的為黑白tif格式 3.最重要的就是字體,如果是手寫識(shí)別率很低。 國內(nèi)OCR識(shí)別簡體差錯(cuò)率為萬分之三,如果要求更高的精度需要投入更大的人工干預(yù)。繁體識(shí)別由于繁體字庫的不統(tǒng)一性(民國時(shí)期的字庫和現(xiàn)在繁體字庫不統(tǒng)一),導(dǎo)致識(shí)別困難,在人工干預(yù)下,精度能達(dá)到90%以上(圖文清晰情況下)。編輯本段識(shí)別技巧1.分辨率的設(shè)置是文字識(shí)別的重要前提。一般來講,掃描儀提供較多的圖像信息,識(shí)別軟件比較容易得出識(shí)別結(jié)果。但也不是掃描分辨率設(shè)得越高識(shí)別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識(shí)別,設(shè)置掃描分辨率時(shí)千萬不要超過掃描儀的光學(xué)分辨率,不然會(huì)得不償失。下面是部分典型設(shè)置,僅供參考?!?1)1、2、3號(hào)字的文章段,推薦使用200dpi?!?2)4、小4、5號(hào)字的文章段,推薦使用300dpl (3)小5、6號(hào)字的文章段,推薦使用400dpl (4)7、8號(hào)字的文章段,推薦使用600dpi。 2. 掃描時(shí)適當(dāng)?shù)卣{(diào)整好亮度和對(duì)比度值,使掃描文件黑白分明。這對(duì)識(shí)別率的影響最為關(guān)鍵,掃描亮度和對(duì)比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。進(jìn)行識(shí)別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果圖像存在黑點(diǎn)或黑斑時(shí)或文字線條很粗很黑,分不清筆畫時(shí),說明亮度值太小了,應(yīng)該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時(shí),說明亮度值太大了,應(yīng)減小亮度后再試試?!?.選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識(shí)別工作的基礎(chǔ),一般不要使用掃描儀自帶的OEM軟件,OEM的OCR軟件的功能少、效果差,有的甚至沒有中文識(shí)別?!≡龠x一個(gè)圖像軟件,第一,OCR軟件不能識(shí)別所有的掃描儀;第二,也是最關(guān)鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理?!?.如果要進(jìn)行的文本是帶有格式的,如粗體、斜體、首行縮進(jìn)等,部分OCR軟件識(shí)別不出來,會(huì)丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識(shí)別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識(shí)別系統(tǒng),使軟件集中注意力查找正確的字符,不再顧及字體和字體格式?!?.在掃描識(shí)別報(bào)紙或其他半透明文稿時(shí),背面的文字透過紙張混淆文字字形,對(duì)識(shí)別會(huì)造成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時(shí),增加掃描對(duì)比度,即可減少背面模糊字體的影響,提高識(shí)別正確率, 6.一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設(shè)置時(shí)卻常將掃描模式設(shè)為灰度模式。特別是在原稿質(zhì)量較差時(shí),使用灰度模式掃描,并在掃描軟件處理完后再繼續(xù)識(shí)別,這樣會(huì)得到較好的識(shí)別正確率。值得注意的是OCR識(shí)別軟件可以自己確定閥值,幾個(gè)百分點(diǎn)的閥值差異,可能就會(huì)影響識(shí)別的正常進(jìn)行。當(dāng)然,得到的圖像文件的大小會(huì)比黑白文件大很多。在進(jìn)行大批量文稿掃描時(shí),必須對(duì)原稿進(jìn)行測試,找到最佳的閥值百分比。 7.遇到圖文混排的掃描原稿,首先明確使用的識(shí)別軟件是否支持自動(dòng)分析圖文這一功能。如果支持的話,在進(jìn)行這類掃描識(shí)別時(shí),OCR軟件會(huì)自動(dòng)計(jì)算出文本的內(nèi)容、位置和先后順序。文字部分可以按照標(biāo)示順序正常識(shí)別。 8.手動(dòng)選取掃描區(qū)域會(huì)有更好識(shí)別效果。設(shè)置好參數(shù)后,先預(yù)覽一下,然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個(gè)區(qū)域內(nèi),因?yàn)楝F(xiàn)在的文章排版為了追求更好的視覺效果,使用圖文混排的較多,掃成一幅圖像會(huì)影響OCR識(shí)別。因此,要根據(jù)實(shí)際情況將版面分成N個(gè)區(qū)域,怎么劃分區(qū)域呢?每一區(qū)域內(nèi)的文字字體、字號(hào)最好一致,沒有圖形、圖像,每一行的寬度一致,遇到長短不一,再細(xì)分,一般一次最多可掃描10個(gè)選區(qū)。根據(jù)不同情況,合理地設(shè)置識(shí)別區(qū)域的順序。不要嫌這個(gè)過程太煩,那可是提高識(shí)別率的有效手段。注意各識(shí)別區(qū)域不能有交叉,做到一切覺得完好以后再進(jìn)行識(shí)別。這樣一般的識(shí)別率會(huì)在95%以上,對(duì)于識(shí)別不正確的文字進(jìn)行校對(duì)后,就可以進(jìn)入相應(yīng)的文字處理軟件進(jìn)行所需的處理了。9.在放置掃描原稿時(shí),把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由于光學(xué)透鏡導(dǎo)致的失真。同時(shí)應(yīng)保護(hù)掃描儀玻璃的干凈和不受損害。文字有一定角度的傾斜,或者是原稿文字部分為不正規(guī)排版,必須在掃描后使用旋轉(zhuǎn)工具,進(jìn)行糾正;否則OCR識(shí)別軟件會(huì)將水平筆劃當(dāng)做斜筆劃處理,識(shí)別正確率會(huì)下降很多。建議用戶盡量將掃描原稿放正,用工具旋轉(zhuǎn)糾正會(huì)降低圖像質(zhì)量,使字符識(shí)別更加困難?!?0.先"預(yù)覽"整體版面,選定要掃描的區(qū)域,再用"放大預(yù)覽"工具,選擇一小塊進(jìn)行放大顯示到全屏幕,觀察其文字的對(duì)比度,文字的深淺濃度,據(jù)情況調(diào)整"閥值"的大小,最終要求文字清晰,不濃(文字成團(tuán)),不淡(文字?jǐn)喙P伐),一般在"閥值"80左右為宜,最后再掃描?!?1.用工具擦掉圖像污點(diǎn),包括原來版面中的不需要識(shí)別的插圖、分隔線等,使文字圖像中除了文字沒有一點(diǎn)多余的東西;這可以大提高識(shí)別率并減少識(shí)別后的修改工作?!?2.如果要掃描印刷質(zhì)量稍微差一些的文章,比如說報(bào)紙,掃描的結(jié)果將不會(huì)黑白分明,會(huì)出現(xiàn)大量的黑點(diǎn),而且在字體的筆畫上也會(huì)出現(xiàn)粘連現(xiàn)象,這兩項(xiàng)可是漢字識(shí)別的大忌,將嚴(yán)重影響漢字識(shí)別的正確率。為獲得較好的識(shí)別結(jié)果,必須仔細(xì)進(jìn)行色調(diào)調(diào)節(jié),反復(fù)掃描多次才能獲得比較理想的結(jié)果。另外由于報(bào)紙很薄且大部分紙質(zhì)不高,導(dǎo)致掃描儀上蓋板不能完全壓住報(bào)紙(有縫隙),所以一般情況下報(bào)紙的掃描識(shí)別效果沒有雜志的效果好。解決辦法是在報(bào)紙上壓一至兩本16K的雜志,效果還是不錯(cuò)的。目前國內(nèi)最有實(shí)力的OCR公司有:云脈(www.yunmai.cn), 漢王(www.hangwang.com.cn), 文通(www.wintone.com.cn)
文字識(shí)別就是將掃描的不能復(fù)制編輯的文字識(shí)別成可以復(fù)制編輯的文字。 我空間有這種文字識(shí)別軟件下載的
經(jīng)常用掃描儀的朋友可能對(duì)OCR并不陌生.OCR即Optiotd Character Recognition.中文含義就是光學(xué)字符識(shí)別的意思,就是將圖像作一個(gè)轉(zhuǎn)換,使圖像內(nèi)的圖形繼續(xù)保存.將文字識(shí)別出來.這樣使人們從繁重的鍵盤錄入的勞動(dòng)中解脫出來。目前幾乎所有掃描儀都附帶有OCR識(shí)別軟件.但遺憾的是即使是同一個(gè)OCR軟件識(shí)別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號(hào)。 掃描儀的一個(gè)重要功能就是通過OCR軟件(即文字識(shí)別軟件)將掃描后的文字圖像轉(zhuǎn)換成文本格式的文件,使文字處理軟件能夠調(diào)用處理。這樣可以大大提高文字錄入速度,極大地提高工作效率。目前,文字識(shí)別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過,我們?cè)谶M(jìn)行文字識(shí)別時(shí)經(jīng)常會(huì)遇到識(shí)別率低的問題,其原因除了被識(shí)別稿件有問題外,主要還是我們沒有掌握好掃描及OCR識(shí)別軟件的使用技巧。那么進(jìn)行文字識(shí)別時(shí)有哪些技巧呢? 一、根據(jù)識(shí)別稿的質(zhì)量進(jìn)行處理 進(jìn)行掃描識(shí)別時(shí),在可能的情況下應(yīng)盡量選擇清晰度與潔凈度都很高的識(shí)別稿,識(shí)別稿的清晰度與潔凈度的不同會(huì)使掃描后的識(shí)別率有很大差距。對(duì)一般的印刷稿、打印稿等質(zhì)量較好的文稿進(jìn)行識(shí)別,只要掌握好方法與技巧,其識(shí)別率一般可達(dá)到98%以上。而對(duì)報(bào)紙、雜志等清晰度不佳的原稿進(jìn)行識(shí)別,無論使用何種識(shí)別軟件都難以達(dá)到很高的識(shí)別率。 1.對(duì)一些帶有下劃線、分隔線等符號(hào)的文本原稿,有些OCR軟件是識(shí)別不出的,一般會(huì)出現(xiàn)亂碼。如果必須掃描帶有這些符號(hào)的原稿,一是要確保使用的識(shí)別軟件能夠識(shí)別這些符號(hào)。二是使用工具擦掉這些特殊符號(hào),使識(shí)別軟件能正確識(shí)別這些文字。 如果掃描后的文檔中含有OCR軟件不能識(shí)別的圖像、圖形和一些特殊符號(hào),可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號(hào)擦除,同時(shí)將圖像上一些雜點(diǎn)也一并去除。使圖像中除了文字沒有多余的東西,這可以大大提高識(shí)別率并減少識(shí)別后的修改工作。 2.在掃描識(shí)別報(bào)紙或紙張較薄的文稿時(shí),掃描時(shí)稿件背面的文字通常會(huì)透過紙張?jiān)斐慑e(cuò)字或亂碼,使識(shí)別率大大降低。在對(duì)這類原稿掃描時(shí),我們可以在原稿的背面覆蓋一張黑紙,在進(jìn)行正式掃描時(shí),適當(dāng)增加掃描對(duì)比度或亮度,即可有效提高識(shí)別率。 3.對(duì)于一些圖文混排的原稿,掃描成一幅圖像進(jìn)行全區(qū)識(shí)別會(huì)嚴(yán)重影響OCR軟件的識(shí)別率。我們可以根據(jù)實(shí)際情況將掃描后的版面切分成多個(gè)區(qū)域后再識(shí)別,切分區(qū)域的原則是:將圖形、圖像排除在區(qū)域之外(圖1),盡量把文字字體、字號(hào)一致的劃在一個(gè)區(qū)域內(nèi),不要嫌這個(gè)過程煩瑣而選用自動(dòng)切分區(qū)域,手動(dòng)選取掃描區(qū)域會(huì)有更好識(shí)別效果,還應(yīng)注意各識(shí)別區(qū)域不能有交叉情況。 二、掃描識(shí)別稿的操作技巧 1.首先要保持工作環(huán)境的清潔,掃描儀的玻璃板以及若干個(gè)反光鏡片及鏡頭,其中任何一部分臟污都會(huì)影響掃描文字圖像的效果。因此,保持掃描儀的清潔是確保文字圖像掃描質(zhì)量及識(shí)別率較高的重要前提。 2.掃描儀在剛開啟時(shí),光源的穩(wěn)定性較差,而且光源的色溫也沒有達(dá)到正常工作所需的色溫,所以開始掃描以前最好先讓掃描儀預(yù)熱一段時(shí)間。 3.在放置掃描原稿時(shí),把掃描的文字材料擺放在掃描起始線正中,可以最大限度地避免由于光學(xué)透鏡導(dǎo)致的失真而影響識(shí)別率。 4.掃描后的文字圖像經(jīng)常會(huì)有一定角度的傾斜,出現(xiàn)這種情況必須在掃描后使用自動(dòng)或手動(dòng)旋轉(zhuǎn)工具進(jìn)行糾正,OCR軟件一般都設(shè)有自動(dòng)糾偏和手動(dòng)糾偏工具。否則OCR識(shí)別軟件會(huì)將水平筆畫當(dāng)作斜筆畫處理,識(shí)別率會(huì)下降很多。如果掃描后的文字圖像傾斜角度超過15°,傾斜校正會(huì)產(chǎn)生較大的失真和誤差,從而嚴(yán)重影響識(shí)別率,這種情況建議擺正原稿重新掃描。 三、掃描參數(shù)的設(shè)置 掃描參數(shù)的設(shè)置主要包括分辨率的設(shè)置及亮度和對(duì)比度的設(shè)置。 1.一般來講,分辨率越高識(shí)別率也就會(huì)越高。但這也不是絕對(duì)的,對(duì)于一些過大過粗的字體,設(shè)置過高的分辨率,識(shí)別率可能會(huì)降低,而且設(shè)置高分辨率后,掃描速度會(huì)大大降低。根據(jù)實(shí)際經(jīng)驗(yàn),1、2、3號(hào)字的文稿推薦使用200dpi,4、小4、5號(hào)字的文稿推薦使用300dpi,小5、6號(hào)字的文稿推薦使用400dpi,7、8號(hào)字的文稿推薦使用600dpi 2.掃描時(shí)適當(dāng)?shù)卣{(diào)整好亮度和對(duì)比度值,對(duì)識(shí)別率的高低影響很大,在進(jìn)行掃描亮度和對(duì)比度的設(shè)定時(shí)(圖3),以掃描后的圖像中文字的筆畫較細(xì)、均勻,且沒有明顯斷點(diǎn)為準(zhǔn)。如果掃描后的文字圖像存在黑點(diǎn)、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時(shí),說明亮度值太大,應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿,比如報(bào)紙,掃描出的圖像可能會(huì)出現(xiàn)大量的黑點(diǎn),而且在字體的筆畫上也會(huì)出現(xiàn)粘連現(xiàn)象,為獲得較好的識(shí)別結(jié)果,必須仔細(xì)進(jìn)行亮度和對(duì)比度值的調(diào)整,反復(fù)掃描多次才能獲得比較理想的效果。 四、識(shí)別后的處理工作 1.文字校正 文字校正是OCR識(shí)別工作中比較煩瑣的一步。一般OCR軟件對(duì)可能出現(xiàn)錯(cuò)誤的文字,會(huì)顯示出藍(lán)色標(biāo)記,請(qǐng)用戶確認(rèn)。但在沒有提示出錯(cuò)的地方,也有可能出錯(cuò)。所以大家在校對(duì)時(shí)應(yīng)該通讀一遍,以提高文字錄入的準(zhǔn)確率。 2.識(shí)別后文本的保存 如果把識(shí)別后的文本簡單復(fù)制粘貼到Word中保存處理,就需要去掉多余的硬回車,這樣會(huì)非常麻煩。正確方法是:先將識(shí)別后的文本存盤,在存盤時(shí)設(shè)置為軟回車就行了。對(duì)于《紫光OCR》,則需要在識(shí)別完成后,選擇文件菜單下的導(dǎo)出命令,將存儲(chǔ)類型選為TXT,段內(nèi)回車字符選為無。注意:一定不要直接存盤,否則不能自動(dòng)去掉文章的硬回車。《尚書OCR》、《漢王OCR》和《紫光OCR》都提供了段內(nèi)去除硬回車的功能。

文字識(shí)別軟件是什么

推薦閱讀

茅臺(tái)酒真?zhèn)舞b別軟件(茅臺(tái)酒真?zhèn)巫R(shí)別軟件)
熱文