2003年11月25日

PDFやOffice文書、HTMLなどからテキストだけを抜き出す

xdoc2txt
http://plaza3.mbn.or.jp/~h_ishida/xdoc2txt.html

PDFやOffice文書、HTMLなどからテキストだけを抜き出すことができるフリーソフトです。
PDFファイルなどからテキストだけを使用する場合などに役立ちそうです。
Officeなどの元のソフトがなくてもテキストを抜き出せるのでファイル内容を読むことだけでも使えそうです。dllや元のソフトがなくても抜き出せるという点は大きい。

◆対応している拡張子は以下の通り

.rtf       リッチテキスト
.doc      Microsoft WORD ver5.0/95/97/2000
.xls       Microsoft Excel ver5.0/95/97/2000
.ppt      Microsoft PowerPoint 97/2000
.jaw/jtw    一太郎 ver5
.jbw/juw    一太郎 ver6
.jfw/jvw    一太郎 ver7
.jtd/jtt     一太郎 ver8/9/10/11/12
.oas/oa2/oa3  OASYS/Win
.bun       新松/松5/松6
.wj2/wj3/wk3/wk4/123  Lotus 123
.wri       Windows3.1 Write
.pdf       Adobe PDF
.mht      Webアーカイブ
.html      HTML

◆使い方は、フリーソフトとしてはちょっと特殊なので簡単な使い方を説明します。

解凍したら、適当な場所に置いてまずこのexeファイルのショートカットを作成します。
そのショートカットを選択し、右クリックメニューからプロパティを選択します。
ショートカットタブの中のリンク先の欄にexeファイルへのアドレスが入力されていると思います。その最後に半角の空白をあけて -f と入力してokボタンを押します。
(下図参照)

これで準備完了です。
あとは、テキストを取り出したいファイルをこのショートカットアイコンにドラッグすれば、元のファイルと同じ場所にテキストファイルができるはずです。
アイコンをドラッグするだけなので手軽ですね。

詳しくはこちらでも紹介されています。
窓の杜
http://www.forest.impress.co.jp/article/2003/11/19/xdoc2txt.html

厳選フリーソフト | 2003年11月25日 21:26 | トラックバック
コメント
コメントする









名前、アドレスを登録しますか?