PDF2Text Tools Survey

做實驗時的 corpus 來源不會只有一種,有時也包括難纏的 PDF,這邊不討論 Acrobat SDK 和用 OCR 所成的 PDF 檔案怎麼轉成文字檔,這篇的目的只是把我試用一些工具與設定和最後萃取的結果供作參考。

一般我在處理的 PDF 類型多為學術發表的文章,不管是 Journal 還是 Conference 都算,這類的文章有制式的結構,試用的工具不管是 Open Source 還是 Commercial 版本大部分都可擷取出其中的文字,差異只是在於最後的結果漂不漂亮,例如是否可以把段落切的清楚,會不會把文字折行等,但目前遇到比較麻煩的就是中日韓統一表意文字(CJK characters)的文件。這邊測試的範例為李明儒先生(黑暗執行緒)所撰寫的ASP.NET 防駭指南一文。工具的部分我就沒有全列了,列出兩個個人覺得最好用的工具和最後的文字檔比較,也說明一下怎麼設定工具的一些字形參數。

[Open Source]Xpdf 3.02 由於目標檔案是有正體中文,所以除了下載xpdf-3.02pl2-win32 之外,還要下載xpdf-chinese-traditional.tar.gz 語言包一起服用。

  1. 解壓縮檔案。 假設根目錄為 c:\xpdf,目錄結構如下:
  2. 設定 xpdfrc 檔案。 在根目錄下會有一個 sample-xpdfrc 檔案,直接把 sample- 去掉後打開檔案,接著把語言包資料夾裡面的 add-to-xpdfrc 檔案內容貼上去,讓程式可以正確的判讀該語系的文件內容。
  3. xpdf command 這是可以配合的參數列表,這邊要記得設定 "-enc Big5",這樣 output 的檔案才能正確顯示正體中文。
  4. 輸出的文字檔範例。
[Commercial Version]PDFlib TET 2.3 PDFlib TET除了支援Unicode與CJK之外,對於有表格的文件結構,個人也覺得他的表現很好,很不錯的商業軟件。下載安裝完後之後我是選擇dotNET\examples\csharp來做實驗,這邊就不贅述使用方式,和剛剛一樣也是用命令列給input和output參數就可以,實際結果請參閱下圖。

這邊可以發現,他連程式碼都能顯示的這麼漂亮,實在是很不錯。 以上,僅供有需要的朋友做參考囉。 ^_^

0 comments: