PDF文件是不同的-一個(gè)已知的秘密?當(dāng)你選擇將PDF文件轉(zhuǎn)換成文本的軟件時(shí),記住這個(gè)事實(shí)是非常重要的。讓我們?cè)囍鴮?duì)PDF文件進(jìn)行分類。
1-可編輯的PDF

它們也被稱為“普通”、“真實(shí)”、“真實(shí)”和“原生”pdf以及其他名稱。這類PDF僅指文本文檔(如*。doc或*。html)轉(zhuǎn)換成PDF格式。在合適的閱讀器中打開這類PDF文件時(shí),只需用光標(biāo)選擇文本。
雙掃描PDF
他們也被稱為“包裝”甚至“死”的PDF。這種PDF類型包括掃描文本。當(dāng)您在閱讀器中打開掃描的PDF時(shí),您不能選擇文本-它是圖像。
3-帶文本圖像的可編輯PDF
有些PDF文件是可編輯的;但是,它們可能包含一些帶有文本的圖表或圖形。
有關(guān)系嗎?
是?。〔⒎撬械腜DF轉(zhuǎn)換器都支持掃描的PDF;要轉(zhuǎn)換只包含圖像文本的掃描PDF文件,您應(yīng)該使用OCR(光學(xué)字符識(shí)別)工具來(lái)分析每個(gè)字符的圖像,并嘗試將其轉(zhuǎn)換為文本格式。
同樣,使用OCR轉(zhuǎn)換可編輯的PDF可能會(huì)有負(fù)面影響,因?yàn)樗粫?huì)被視為文本,而是作為它試圖檢測(cè)的繪圖字符!
所以,簡(jiǎn)而言之,當(dāng)您選擇PDF轉(zhuǎn)換器時(shí),請(qǐng)仔細(xì)檢查其功能,以確定它是否適合您需要轉(zhuǎn)換為文本的特定PDF文件類型。