字體識別軟件，有沒有識別字體的軟件

發(fā)表于 2023年1月19日 00:18

本文目錄一覽

1，有沒有識別字體的軟件
2，文字識別軟件是什么

1，有沒有識別字體的軟件

自動識別圖片中的文字，用“尚書”。我用過的是尚書6，照片中的文字也可以轉的，只要清晰度夠就行。

沒有這樣的軟件，你見的字體多了，自然會識別出來，不過不能一一識別，其實知道點常用的也就可以了。

有沒有識別字體的軟件

2，文字識別軟件是什么

文字識別(OCR)軟件通常是從掃描儀掃描的文字材料中把圖像文字變?yōu)榫幋a的文字，說白了就是圖片變文字，我用過較好的文字識別(OCR)軟件是尚書七號和漢王文本王文豪7600 簡潔全功能專業(yè)版，我認為最好的是漢王文本王文豪7600 簡潔全功能專業(yè)版，另外還有一款非常小巧實用的綠色OCR軟件也不錯，就是mimiocr(OCR文字識別軟件)綠色版。另外還有一些文字識別軟件也比較好用，不過與其叫它們文字識別軟件，還不如叫文字抓取軟件更好，我們在瀏覽網(wǎng)頁的時候或在電腦屏幕的某些區(qū)域有一些文字材料需要摘取下來，但可能它們又不讓我們選擇復制，比如工具菜單上的文字，和一些PDF電子書中的文字，以及一些限制網(wǎng)頁上的資料，就可以用這類軟件把它們抓到下來。最好用的是Aqua Deskperience

文字識別軟件簡單說就是通過手機攝像頭拍攝圖片文本，軟件能夠快速識別、提取圖片中的文字信息，實現(xiàn)信息快速的錄入。我經(jīng)常用云脈技術的文檔識別和云脈慧眼，在移動端OCR技術上，云脈技術還有好多文字識別的應用。大家可以到各個app市場下載試試看

OCR文字識別OCR文字識別是指電子設備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題的友好性，產品的穩(wěn)定性，易用性及可行性等。光學文字識別的概念是在1929年由德國科學家Tausheck最先提出來的，后來美國科學家Handel也提出了利用技術對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數(shù)字為對象，直至1965至1970年之間開始有一些簡單的產品，如印刷文字的郵政編碼識別系統(tǒng)，識別郵件上的郵政編碼，幫助郵局作區(qū)域分信的作業(yè)；也因此至今郵政編碼一直是各國所倡導的地址書寫方式。20世紀70年代初，日本的學者開始研究漢字識別，并做了大量的工作。中國在OCR技術方面的研究工作起步較晚，在70年代才開始對數(shù)字、英文字母及符號的識別進行研究，70年代末開始進行漢字識別的研究，到1986年漢字識別的研究進入一個實質性的階段，不少研究單位相繼推出了中文OCR產品.早期的OCR軟件，由于識別率及產品化等多方面的因素，未能達到實際要求。同時，由于硬件設備成本高，運行速度慢，也沒有達到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產品。進入20世紀90年代以后，隨著平臺式掃描儀的廣泛應用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術的進一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。編輯本段軟件結構由于掃描儀的普及與廣泛應用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。圖像輸入、預處理：圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式。預處理：主要包括二值化，噪聲去除，傾斜較正等二值化：對攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對于圖片的內容，我們可以簡單的分為前景與背景，為了讓計算機更快的，更好的識別文字，我們需要先對彩色圖進行處理，使圖片只前景信息與背景信息，可以簡單的定義前景信息為黑色，背景信息為白色，這就是二值化圖了。噪聲去除：對于不同的文檔，我們對燥聲的定義可以不同，根據(jù)燥聲的特征進行去燥，就叫做噪聲去除傾斜較正：由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產生傾斜，這就需要文字識別軟件進行較正。版面分析：將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復雜性，因此，目前還沒有一個固定的，最優(yōu)的切割模型。字符切割：由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。字符識別：這一研究，已經(jīng)是很早的事情了，比較早有模板匹配，后來以特征提取為主，由于文字的位移，筆畫的粗細，斷筆，粘連，旋轉等因素的影響，極大影響特征的提取的難度。版面恢復：人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復。后處理、校對:根據(jù)特定的語言上下文的關系，對識別結果進行較正，就是后處理。編輯本段工作流程一個OCR識別系統(tǒng)，其目的很簡單，只是要把影像作一個轉換，使影像內的圖形繼續(xù)保存、有表格則表格內資料及影像內的文字，一律變成計算機文字，使能達到影像資料的儲存量減少、識別出的文字可再使用及分析，當然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正，將結果輸出。目前國內最有實力的OCR公司有：云脈OCR, 漢王OCR及文通OCR

光學文字識別光學文字識別即OCR （Optical Character Recognition）是指電子設備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題，ICR（Intelligent Character Recognition）的名詞也因此而產生。衡量一個OCR系統(tǒng)性能好壞的主要指標有：拒識率、誤識率、識別速度、用戶界面的友好性，產品的穩(wěn)定性，易用性及可行性等。光學文字識別的概念是在1929年由德國科學家Tausheck最先提出來的，后來美國科學家Handel也提出了利用技術對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數(shù)字為對象，直至1965至1970年之間開始有一些簡單的產品，如印刷文字的郵政編碼識別系統(tǒng)，識別郵件上的郵政編碼，幫助郵局作區(qū)域分信的作業(yè)；也因此至今郵政編碼一直是各國所倡導的地址書寫方式?！?0世紀70年代初，日本的學者開始研究漢字識別，并做了大量的工作。中國在OCR技術方面的研究工作起步較晚，在70年代才開始對數(shù)字、英文字母及符號的識別進行研究，70年代末開始進行漢字識別的研究，到1986年漢字識別的研究進入一個實質性的階段，不少研究單位相繼推出了中文OCR產品.早期的OCR軟件，由于識別率及產品化等多方面的因素，未能達到實際要求。同時，由于硬件設備成本高，運行速度慢，也沒有達到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產品。進入20世紀90年代以后，隨著平臺式掃描儀的廣泛應用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術的進一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。[1]編輯本段軟件結構由于掃描儀的普及與廣泛應用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。圖像輸入、預處理：圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式，目前有OpenCV,CxImage等開源項目。預處理：主要包括二值化，噪聲去除，傾斜較正等二值化：對攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對于圖片的內容，我們可以簡單的分為前景與背景，為了讓計算機更快的，更好的識別文字，我們需要先對彩色圖進行處理，使圖片只前景信息與背景信息，可以簡單的定義前景信息為黑色，背景信息為白色，這就是二值化圖了。噪聲去除：對于不同的文檔，我們對燥聲的定義可以不同，根據(jù)燥聲的特征進行去燥，就叫做噪聲去除傾斜較正：由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產生傾斜，這就需要文字識別軟件進行較正。版面分析：將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復雜性，因此，目前還沒有一個固定的，最優(yōu)的切割模型。字符切割：由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。字符識別：這一研究，已經(jīng)是很早的事情了，比較早有模板匹配，后來以特征提取為主，由于文字的位移，筆畫的粗細，斷筆，粘連，旋轉等因素的影響，極大影響特征的提取的難度。版面恢復：人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復。后處理、校對:根據(jù)特定的語言上下文的關系，對識別結果進行較正，就是后處理。編輯本段工作流程一個OCR識別系統(tǒng)，其目的很簡單，只是要把影像作一個轉換，使影像內的圖形繼續(xù)保存、有表格則表格內資料及影像內的文字，一律變成計算機文字，使能達到影像資料的儲存量減少、識別出的文字可再使用及分析，當然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正，將結果輸出。影像輸入欲經(jīng)過OCR處理的標的物須透過光學儀器，如影像掃描儀、傳真機或任何攝影器材，將影像轉入計算機?？萍嫉倪M步，掃描儀等的輸入裝置已制作的愈來愈精致，輕薄短小、品質也高，對OCR有相當大的幫助，掃描儀的分辨率使影像更清晰、掃除速度更增進OCR處理的效率。　影像前處理：影像前處理是OCR系統(tǒng)中，須解決問題最多的一個模塊，從得到一個不是黑就是白的二值化影像，或灰階、彩色的影像，到獨立出一個個的文字影像的過程，都屬于影像前處理。包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理，及圖文分析、文字行與字分離的文件前處理。在影像處理方面，在學理及技術方面都已達成熟階段，因此在市面上或網(wǎng)站上有不少可用的鏈接庫；在文件前處理方面，則憑各家本領了；影像須先將圖片、表格及文字區(qū)域分離出來，甚至可將文章的編排方向、文章的提綱及內容主體區(qū)分開，而文字的大小及文字的字體亦可如原始文件一樣的判斷出來。　文字特征抽?。簡我宰R別率而言，特征抽取可說是 OCR的核心，用什么特征、怎么抽取，直接影響識別的好壞，也所以在OCR研究初期，特征抽取的研究報告特別的多。而特征可說是識別的籌碼，簡易的區(qū)分可分為兩類：一為統(tǒng)計的特征，如文字區(qū)域內的黑/白點數(shù)比，當文字區(qū)分成好幾個區(qū)域時，這一個個區(qū)域黑/白點數(shù)比之聯(lián)合，就成了空間的一個數(shù)值向量，在比對時，基本的數(shù)學理論就足以應付了。而另一類特征為結構的特征，如文字影像細線化后，取得字的筆劃端點、交叉點之數(shù)量及位置，或以筆劃段為特征，配合特殊的比對方法，進行比對，市面上的線上手寫輸入軟件的識別方法多以此種結構的方法為主?！Ρ葦?shù)據(jù)庫：當輸入文字算完特征后，不管是用統(tǒng)計或結構的特征，都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進行比對，數(shù)據(jù)庫的內容應包含所有欲識別的字集文字，根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別這是可充分發(fā)揮數(shù)學運算理論的一個模塊，根據(jù)不同的特征特性，選用不同的數(shù)學距離函數(shù)，較有名的比對方法有，歐式空間的比對方法、松弛比對法（Relaxation）、動態(tài)程序比對法（Dynamic Programming，DP），以及類神經(jīng)網(wǎng)絡的數(shù)據(jù)庫建立及比對、HMM（Hidden Markov Model）…等著名的方法，為了使識別的結果更穩(wěn)定，也有所謂的專家系統(tǒng)（Experts System）被提出，利用各種特征比對方法的相異互補性，使識別出的結果，其信心度特別的高?！∽衷~后處理：由于OCR的識別率并無法達到百分之百，或想加強比對的正確性及信心值，一些除錯或甚至幫忙更正的功能，也成為OCR系統(tǒng)中必要的一個模塊。字詞后處理就是一例，利用比對后的識別文字與其可能的相似候選字群中，根據(jù)前后的識別文字找出最合乎邏輯的詞，做更正的功能?！∽衷~數(shù)據(jù)庫：為字詞后處理所建立的詞庫。人工校正OCR最后的關卡，在此之前，使用者可能只是拿支鼠標，跟著軟件設計的節(jié)奏操作或僅是觀看，而在此有可能須特別花使用者的精神及時間，去更正甚至找尋可能是OCR出錯的地方。一個好的OCR軟件，除了有一個穩(wěn)定的影像處理及識別核心，以降低錯誤率外，人工校正的操作流程及其功能，亦影響OCR的處理效率，因此，文字影像與識別文字的對照，及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認字的功能、及字詞后處理后特意標示出可能有問題的字詞，都是為使用者設計盡量少使用鍵盤的一種功能，當然，不是說系統(tǒng)沒顯示出的文字就一定正確，就像完全由鍵盤輸入的工作人員也會有出錯的時候，這時要重新校正一次或能允許些許的錯，就完全看使用單位的需求了。結果輸出有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和輸入文件一模一樣，所以有原文重現(xiàn)的功能、有人注重表格內的文字，所以要和Excel等軟件結合。無論怎么變化，都只是輸出檔案格式的變化而已。如果需要還原成原文一樣格式，則在識別后，需要人工排版，耗時耗力。編輯本段中文識別資料錄入文獻資料的數(shù)字化錄入，一般分為：　1．純圖像方式。　2．目錄文本、正文圖像方式?！?．全文本方式。　4．全文索引方式。文本方式和圖像方式的混合體。識別過程書本級：中文，英文；簡體，繁體；　版式級：豎排，橫排；有無分欄；　行切分　字切分　識別：真正的OCR識別過程，圖像信息還原成文本信息　后處理：人工干預，主要集中在前四個階段。識別結果決定因素1．圖片的質量，一般建議150dpi以上　2．顏色，一般對彩色識別很差，黑白的圖片較高，因此建議ocr的為黑白tif格式　3．最重要的就是字體，如果是手寫識別率很低。　國內OCR識別簡體差錯率為萬分之三，如果要求更高的精度需要投入更大的人工干預。繁體識別由于繁體字庫的不統(tǒng)一性（民國時期的字庫和現(xiàn)在繁體字庫不統(tǒng)一），導致識別困難，在人工干預下，精度能達到90%以上（圖文清晰情況下）。編輯本段識別技巧1．分辨率的設置是文字識別的重要前提。一般來講，掃描儀提供較多的圖像信息，識別軟件比較容易得出識別結果。但也不是掃描分辨率設得越高識別正確率就越高。選擇300dpi或400dpi分辨率，適合大部分文檔掃描。注意文字原稿的掃描識別，設置掃描分辨率時千萬不要超過掃描儀的光學分辨率，不然會得不償失。下面是部分典型設置，僅供參考?！?1)1、2、3號字的文章段，推薦使用200dpi?！?2)4、小4、5號字的文章段，推薦使用300dpl　(3)小5、6號字的文章段，推薦使用400dpl　(4)7、8號字的文章段，推薦使用600dpi?！?．掃描時適當?shù)卣{整好亮度和對比度值，使掃描文件黑白分明。這對識別率的影響最為關鍵，掃描亮度和對比度值的設定以觀察掃描后的圖像中漢字的筆畫較細但又不斷開為原則。進行識別前，先看看掃描得到的圖像中文字質量如何，如果圖像存在黑點或黑斑時或文字線條很粗很黑，分不清筆畫時，說明亮度值太小了，應該增加亮度值在試試；如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴重殘缺時，說明亮度值太大了，應減小亮度后再試試?！?．選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識別工作的基礎，一般不要使用掃描儀自帶的OEM軟件，OEM的OCR軟件的功能少、效果差，有的甚至沒有中文識別。　再選一個圖像軟件，第一，OCR軟件不能識別所有的掃描儀；第二，也是最關鍵的，利用圖像軟件的掃描接口掃描出來的圖像便于處理?！?．如果要進行的文本是帶有格式的，如粗體、斜體、首行縮進等，部分OCR軟件識別不出來，會丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本，事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關閉樣式識別系統(tǒng)，使軟件集中注意力查找正確的字符，不再顧及字體和字體格式。　5．在掃描識別報紙或其他半透明文稿時，背面的文字透過紙張混淆文字字形，對識別會造成很大的障礙。遇到該類掃描，只要在掃描原稿的背面附。蓋一張黑紙，掃描時，增加掃描對比度，即可減少背面模糊字體的影響，提高識別正確率，　6．一般文本掃描原稿都為黑、白兩色原稿，但是在掃描設置時卻常將掃描模式設為灰度模式。特別是在原稿質量較差時，使用灰度模式掃描，并在掃描軟件處理完后再繼續(xù)識別，這樣會得到較好的識別正確率。值得注意的是OCR識別軟件可以自己確定閥值，幾個百分點的閥值差異，可能就會影響識別的正常進行。當然，得到的圖像文件的大小會比黑白文件大很多。在進行大批量文稿掃描時，必須對原稿進行測試，找到最佳的閥值百分比。　7．遇到圖文混排的掃描原稿，首先明確使用的識別軟件是否支持自動分析圖文這一功能。如果支持的話，在進行這類掃描識別時，OCR軟件會自動計算出文本的內容、位置和先后順序。文字部分可以按照標示順序正常識別?！?．手動選取掃描區(qū)域會有更好識別效果。設置好參數(shù)后，先預覽一下，然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個區(qū)域內，因為現(xiàn)在的文章排版為了追求更好的視覺效果，使用圖文混排的較多，掃成一幅圖像會影響OCR識別。因此，要根據(jù)實際情況將版面分成N個區(qū)域，怎么劃分區(qū)域呢？每一區(qū)域內的文字字體、字號最好一致，沒有圖形、圖像，每一行的寬度一致，遇到長短不一，再細分，一般一次最多可掃描10個選區(qū)。根據(jù)不同情況，合理地設置識別區(qū)域的順序。不要嫌這個過程太煩，那可是提高識別率的有效手段。注意各識別區(qū)域不能有交叉，做到一切覺得完好以后再進行識別。這樣一般的識別率會在95%以上，對于識別不正確的文字進行校對后，就可以進入相應的文字處理軟件進行所需的處理了。9．在放置掃描原稿時，把掃描的文字材料一定要擺放在掃描起始線正中，以最大限度地減小由于光學透鏡導致的失真。同時應保護掃描儀玻璃的干凈和不受損害。文字有一定角度的傾斜，或者是原稿文字部分為不正規(guī)排版，必須在掃描后使用旋轉工具，進行糾正；否則OCR識別軟件會將水平筆劃當做斜筆劃處理，識別正確率會下降很多。建議用戶盡量將掃描原稿放正，用工具旋轉糾正會降低圖像質量，使字符識別更加困難?！?0．先"預覽"整體版面，選定要掃描的區(qū)域，再用"放大預覽"工具，選擇一小塊進行放大顯示到全屏幕，觀察其文字的對比度，文字的深淺濃度，據(jù)情況調整"閥值"的大小，最終要求文字清晰，不濃(文字成團)，不淡(文字斷筆伐)，一般在"閥值"80左右為宜，最后再掃描?！?1．用工具擦掉圖像污點，包括原來版面中的不需要識別的插圖、分隔線等，使文字圖像中除了文字沒有一點多余的東西；這可以大提高識別率并減少識別后的修改工作?！?2．如果要掃描印刷質量稍微差一些的文章，比如說報紙，掃描的結果將不會黑白分明，會出現(xiàn)大量的黑點，而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象，這兩項可是漢字識別的大忌，將嚴重影響漢字識別的正確率。為獲得較好的識別結果，必須仔細進行色調調節(jié)，反復掃描多次才能獲得比較理想的結果。另外由于報紙很薄且大部分紙質不高，導致掃描儀上蓋板不能完全壓住報紙(有縫隙)，所以一般情況下報紙的掃描識別效果沒有雜志的效果好。解決辦法是在報紙上壓一至兩本16K的雜志，效果還是不錯的。目前國內最有實力的OCR公司有：云脈(www.yunmai.cn), 漢王（www.hangwang.com.cn), 文通（www.wintone.com.cn）

文字識別就是將掃描的不能復制編輯的文字識別成可以復制編輯的文字。我空間有這種文字識別軟件下載的

經(jīng)常用掃描儀的朋友可能對OCR并不陌生．OCR即Optiotd Character Recognition．中文含義就是光學字符識別的意思，就是將圖像作一個轉換，使圖像內的圖形繼續(xù)保存．將文字識別出來．這樣使人們從繁重的鍵盤錄入的勞動中解脫出來。目前幾乎所有掃描儀都附帶有OCR識別軟件．但遺憾的是即使是同一個OCR軟件識別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號。掃描儀的一個重要功能就是通過OCR軟件（即文字識別軟件）將掃描后的文字圖像轉換成文本格式的文件，使文字處理軟件能夠調用處理。這樣可以大大提高文字錄入速度，極大地提高工作效率。目前，文字識別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過，我們在進行文字識別時經(jīng)常會遇到識別率低的問題，其原因除了被識別稿件有問題外，主要還是我們沒有掌握好掃描及OCR識別軟件的使用技巧。那么進行文字識別時有哪些技巧呢？一、根據(jù)識別稿的質量進行處理進行掃描識別時，在可能的情況下應盡量選擇清晰度與潔凈度都很高的識別稿，識別稿的清晰度與潔凈度的不同會使掃描后的識別率有很大差距。對一般的印刷稿、打印稿等質量較好的文稿進行識別，只要掌握好方法與技巧，其識別率一般可達到98％以上。而對報紙、雜志等清晰度不佳的原稿進行識別，無論使用何種識別軟件都難以達到很高的識別率。 1.對一些帶有下劃線、分隔線等符號的文本原稿，有些OCR軟件是識別不出的，一般會出現(xiàn)亂碼。如果必須掃描帶有這些符號的原稿，一是要確保使用的識別軟件能夠識別這些符號。二是使用工具擦掉這些特殊符號，使識別軟件能正確識別這些文字。如果掃描后的文檔中含有OCR軟件不能識別的圖像、圖形和一些特殊符號，可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除，同時將圖像上一些雜點也一并去除。使圖像中除了文字沒有多余的東西，這可以大大提高識別率并減少識別后的修改工作。 2.在掃描識別報紙或紙張較薄的文稿時，掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼，使識別率大大降低。在對這類原稿掃描時，我們可以在原稿的背面覆蓋一張黑紙，在進行正式掃描時，適當增加掃描對比度或亮度，即可有效提高識別率。 3.對于一些圖文混排的原稿，掃描成一幅圖像進行全區(qū)識別會嚴重影響OCR軟件的識別率。我們可以根據(jù)實際情況將掃描后的版面切分成多個區(qū)域后再識別，切分區(qū)域的原則是：將圖形、圖像排除在區(qū)域之外（圖1），盡量把文字字體、字號一致的劃在一個區(qū)域內，不要嫌這個過程煩瑣而選用自動切分區(qū)域，手動選取掃描區(qū)域會有更好識別效果，還應注意各識別區(qū)域不能有交叉情況。二、掃描識別稿的操作技巧 1.首先要保持工作環(huán)境的清潔，掃描儀的玻璃板以及若干個反光鏡片及鏡頭，其中任何一部分臟污都會影響掃描文字圖像的效果。因此，保持掃描儀的清潔是確保文字圖像掃描質量及識別率較高的重要前提。 2.掃描儀在剛開啟時，光源的穩(wěn)定性較差，而且光源的色溫也沒有達到正常工作所需的色溫，所以開始掃描以前最好先讓掃描儀預熱一段時間。 3.在放置掃描原稿時，把掃描的文字材料擺放在掃描起始線正中，可以最大限度地避免由于光學透鏡導致的失真而影響識別率。 4.掃描后的文字圖像經(jīng)常會有一定角度的傾斜，出現(xiàn)這種情況必須在掃描后使用自動或手動旋轉工具進行糾正，OCR軟件一般都設有自動糾偏和手動糾偏工具。否則OCR識別軟件會將水平筆畫當作斜筆畫處理，識別率會下降很多。如果掃描后的文字圖像傾斜角度超過15°，傾斜校正會產生較大的失真和誤差，從而嚴重影響識別率，這種情況建議擺正原稿重新掃描。三、掃描參數(shù)的設置掃描參數(shù)的設置主要包括分辨率的設置及亮度和對比度的設置。 1.一般來講，分辨率越高識別率也就會越高。但這也不是絕對的，對于一些過大過粗的字體，設置過高的分辨率，識別率可能會降低，而且設置高分辨率后，掃描速度會大大降低。根據(jù)實際經(jīng)驗，1、2、3號字的文稿推薦使用200dpi，4、小4、5號字的文稿推薦使用300dpi，小5、6號字的文稿推薦使用400dpi，7、8號字的文稿推薦使用600dpi 2.掃描時適當?shù)卣{整好亮度和對比度值，對識別率的高低影響很大，在進行掃描亮度和對比度的設定時（圖3），以掃描后的圖像中文字的筆畫較細、均勻，且沒有明顯斷點為準。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑，分不清筆畫，說明亮度值太小，應該增加亮度值再重新掃描。如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴重殘缺時，說明亮度值太大，應減小亮度后再重新掃描。如果要掃描質量比較差的文稿，比如報紙，掃描出的圖像可能會出現(xiàn)大量的黑點，而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象，為獲得較好的識別結果，必須仔細進行亮度和對比度值的調整，反復掃描多次才能獲得比較理想的效果。四、識別后的處理工作 1.文字校正文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟件對可能出現(xiàn)錯誤的文字，會顯示出藍色標記，請用戶確認。但在沒有提示出錯的地方，也有可能出錯。所以大家在校對時應該通讀一遍，以提高文字錄入的準確率。 2.識別后文本的保存如果把識別后的文本簡單復制粘貼到Word中保存處理，就需要去掉多余的硬回車，這樣會非常麻煩。正確方法是：先將識別后的文本存盤，在存盤時設置為軟回車就行了。對于《紫光OCR》，則需要在識別完成后，選擇文件菜單下的導出命令，將存儲類型選為TXT，段內回車字符選為無。注意：一定不要直接存盤，否則不能自動去掉文章的硬回車?！渡袝鳲CR》、《漢王OCR》和《紫光OCR》都提供了段內去除硬回車的功能。

文字識別軟件是什么

字體識別軟件，有沒有識別字體的軟件

本文目錄一覽

1，有沒有識別字體的軟件

2，文字識別軟件是什么

推薦閱讀

熱文

字體識別軟件，有沒有識別字體的軟件

本文目錄一覽

1，有沒有識別字體的軟件

2，文字識別軟件是什么

推薦閱讀

熱文

字體識別軟件，有沒有識別字體的軟件

1，有沒有識別字體的軟件

2，文字識別軟件是什么