PDF2Text Tools Survey
Thursday, May 8, 2008 by Unknown
做實驗時的 corpus 來源不會只有一種,有時也包括難纏的 PDF,這邊不討論 Acrobat SDK 和用 OCR 所成的 PDF 檔案怎麼轉成文字檔,這篇的目的只是把我試用一些工具與設定和最後萃取的結果供作參考。
一般我在處理的 PDF 類型多為學術發表的文章,不管是 Journal 還是 Conference 都算,這類的文章有制式的結構,試用的工具不管是 Open Source 還是 Commercial 版本大部分都可擷取出其中的文字,差異只是在於最後的結果漂不漂亮,例如是否可以把段落切的清楚,會不會把文字折行等,但目前遇到比較麻煩的就是中日韓統一表意文字(CJK characters)的文件。這邊測試的範例為李明儒先生(黑暗執行緒)所撰寫的ASP.NET 防駭指南一文。工具的部分我就沒有全列了,列出兩個個人覺得最好用的工具和最後的文字檔比較,也說明一下怎麼設定工具的一些字形參數。
[Open Source]Xpdf 3.02
由於目標檔案是有正體中文,所以除了下載xpdf-3.02pl2-win32 之外,還要下載xpdf-chinese-traditional.tar.gz 語言包一起服用。
- 解壓縮檔案。
假設根目錄為 c:\xpdf,目錄結構如下:
- 設定 xpdfrc 檔案。 在根目錄下會有一個 sample-xpdfrc 檔案,直接把 sample- 去掉後打開檔案,接著把語言包資料夾裡面的 add-to-xpdfrc 檔案內容貼上去,讓程式可以正確的判讀該語系的文件內容。
- xpdf command
這是可以配合的參數列表,這邊要記得設定 "-enc Big5",這樣 output 的檔案才能正確顯示正體中文。
- 輸出的文字檔範例。