[懶人包]抓取PDF文件上的文字-OCR光學字元識別


這一次的主題是OCR

世界上最遙遠的距離,莫過於坐在電腦螢幕前,但開啟的PDF檔案上文字無法複製RRR~ 小編ㄟ速經歷過此狀況(淚)。所以今天就要教大家如何利用文電通的OCR功能來讓PDF浴火重生,節省大大們寶貴的時間~

有一種PDF是掃描後產生的,實際只是一張「照片」,所以無法變更裡面的字。

OCR(光學字元識別)

快來試試看文電通專業版內建的OCR

阿文連載第3話: 什麼是OCR?

至https://store.gaaiho.com/download/suite.aspx下載PDF文電通4專業版試用

開始安裝檔案

依照指示完成安裝

開啟Gaaiho Doc

按一下「繼續試用」按鈕

將介紹如何使用「進階」標籤內的「OCR」功能來辨識單一檔案。

在「進階」底下選擇「OCR」再按一下「目前檔案(C)」以開啟「OCR辨識文字」視窗

在「語言與解析度」選擇「中文(繁體) 」、「300 dpi」。

按一下左側工具欄的箭頭圖示後即可選取文字

在已選取的文字按一下滑鼠右鍵,再按一下「複製(C)」即可複製。

「尋找可疑元素」能檢視是否有 OCR 引擎無法正確識別的文字,並以手動方式修正。

「進階」底下的「尋找可疑元素」,接著按一下「第一個OCR可疑元素(F)」,即會跳出「尋找元件」視窗。

您可使用「非文字(N) 」、「接受並尋找(A)」按鈕處理可疑元素。

OCR處理完成之後,即能利用「基本」內的「尋找」功能搜尋其上的文字。

在「尋找(F):」欄位輸入文字後,按一下「下一個(N)」按鈕或按輸入鍵,即可移⾄下⼀個相符的結果。

0 意見: