PDFだったらそのままPDFでリンクだけ張っちゃろうかい! なんて思うこともあるが
そういうわけにも行かず、PDFファイルからテキストをコピー&ペーストしてセコセコHTMLファイルにするのだが、
中にはセキュリティ上の問題かテキストが選択できないPDFファイルもある。
だからって、プリントアウトして文字入力なんて非生産的なことはできない。
そんなときに使えるツールを発見しました。
□xdoc2txt − PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
「xdoc2txt」は、各種ファイルからテキストを抽出するツールです。
その中にPDFファイルも含まれていて、上記テキスト選択ができないファイルからもテキスト抽出できます。
このツール、基本的にはコマンドプロンプトでの作業になるのですが、
ちょっとした設定でファイルをドラッグ&ドロップすることでテキスト抽出させる方法もあります。
以下、その手順をお教えしましょう。
1. 上記サイトからxdoc2txtをダウンロードします。
2. 解凍後、本体「xdoc2txt.exe」のショートカットを作成します。デスクトップでいいでしょう。
3. ショートカットを右クリックでプロパティ表示にします。
4. リンク先の末尾に「-f」と入力します。
以上でOK!
PDFファイルをドラッグ&ドロップすればデスクトップに抽出されたテキストファイルができるはずです。
■3月17日追記
xdoc2txtより強力なツールの紹介です。
編集不可のPDFファイルから本文をコピーする方法を教えてください。目的は英語の論文に翻訳ソフトを使用したいのです。.. - 人力検索はてな
http://www.bravaviewer.jp/reader.htmつまり、セキュリティが解除された状態でPDFを開くことができるツールのようです。
Brava! Reader
このビューアを使えば、編集不可のpdfから、テキストをコピーすることができます。pdfを表示した後、「編集」→「選択」の後、矩形領域を選び、CTRL-Cまたは「編集」→「コピー」により、テキストをコピーします。
これはある意味バグ?なのでは。。
xdoc2txtはdos窓のコマンドラインでないと動かないと思います。それに、少なくとも日本語のpdfでは、空白やタブが無視され、ベタのテキストになってしまいます。と、それぞれの問題点を説明しています。
pdf表示→画面コピーは解像度が低く、これまで試した限りでは、ocrでは満足する結果が出ていません。拡大表示すればよいのですが、手間がかかり過ぎて...
実際に、組織の展覧会は、通常、<タイトル="ナイキエアマックスskyblineは"href ="http://www.footcheap.com/nice-nike-air-max-skybline-shoes.htm 目標を持っている優秀な場所です= "_blank">ナイキエアマックスskybline </ a>の消費者。