📋PDFテキスト抽出

PDFから本文テキストのみ.txtに抽出。検索・翻訳機・ChatGPTに入れるときに便利。会議録整理、論文引用準備、長いレポート要約の事前作業によく使われます。スキャン本PDF(画像)は抽出できない場合があります。

🔒 ブラウザ内処理✓ ウォーターマークなし✓ 登録不要

使い方

スキャン本PDFも抽出されますか?+

スキャン本は画像なのでテキストがなく抽出されません。OCR(光学文字認識)が必要ですが、このツールはOCR機能がありません。

文字は抽出されたが改行がおかしいです。なぜ?+

PDFは表示位置基準で文字を保存します。2段組・脚注・ヘッダーのようなレイアウトがあると抽出時に順序が乱れたり改行が不自然になることがあります。

表や図の中の文字も抽出されますか?+

表内のテキストは通常抽出されます。ただし表の構造(セル境界)は失われて改行されたプレーンテキストになります。図(画像)は抽出できません。

日本語・漢字・英語・絵文字が混在してもOK?+

はい。UTF-8で保存されるのでどんな文字もそのまま保持されます。

パスワード付きPDFは?+

現在非対応です。ロックを解除してお試しください。

結果を検索用データとして使うには?+

抽出された.txtファイルはプレーンテキストなのでコードエディタ・検索ツール(grep、ripgrepなど)で直接検索できます。キーワード抽出には[単語頻度分析]ツールが有用です。