請教一下是否有軟體能夠擷取文件檔內容並彙整呢?

首先假設我有一萬筆PDF檔案
但是我只需要這些檔案內的某些資訊
比方說固定要第三行的內容就好
並且要抓取到EXCEL檔或者其他文件檔做整理

是否有軟體能完成上述的工作內容呢?
還請各位電腦前輩指點迷津

rods2012 wrote:
首先假設我有一萬筆PDF檔案
但是我只需要這些檔案內的某些資訊
比方說固定要第三行的內容就好
並且要抓取到EXCEL檔或者其他文件檔做整理

是否有軟體能完成上述的工作內容呢?
還請各位電腦前輩指點迷津


經過一個周末加上另外兩天的研究發現PDF是一個很鳥的東西.

他是屬於post script的一種東西,人眼睛看到的部分完全是adobe程式算好顯示出來給人看的,直接用開啟文字檔方式來讀取的話,那就是讀出一堆沒有意義的亂碼.

用各種程式語言的第三方套件都可以開啟pdf檔案的內容,並讀取他的文字部分.但是這些別人寫好的程式碼在合法的使用情況下大部分都要錢,不要錢的又不好用. Orz

我目前的解決方案是使用一個叫做simpopdf2text的軟體(http://www.simpopdf.com/pdf-to-text.html)把大量的PDF轉換成TXT.

大量可以多大量我還不確定,因為我沒有那麼多PDF檔案,只有測試過一次轉10來個沒有問題,應該可以一次100個或者是1000個或者更多.

轉成TXT檔之後就很簡單了,寫一個小小的Java程式專門讀取需要的欄位,一行一行的掃下去,每個文字檔都掃,最後再把所有要的資料寫入到一個"結果.TXT",接著用Excel開啟,Excel的精靈會問你要怎麼把資料切割成為適當的欄位,切好後就是你要的東西了.

原本有考慮用iText可是想想還是不要好了,我還是太懶惰了,不想去學新的第三方的library.
---------------------------------------------------------------------
結果.TXT會有像是下面這種東西: (因為隱私權的關係,資料做過修正已經過,但結果是正確的,符合原本PDF的資料)

雄子市 田過區 高雅子段 01400124 建號 總面積 239.97 平方公尺
雄子市 田過區 高雅子段 01400124 建號 所有權人 高苓勝
----------------------------------------------------------------------
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!