忍者ブログ

素人翻訳

適当に翻訳する。

man pdftohtml、日本語、linux

「PDFTOHTML(1) 日本語試訳」

翻訳にあたって大いに参考にしたサイト


-------------------------------------------
PDFTOHTML(1)

名前
pdftohtml - PDF ファイルを HTML、XML、PNG 画像に変換するプログラム

書式
pdftohtml [options] <PDF-file> [<HTML-file> <XML-file>]

説明
  このマニュアル・ページでは pdftohtml コマンドについて簡単に説明する。このマニュアル・ページは Debian GNU/Linux 配布系のために書かれたものである。元のプログラムにはマニュアル・ページが付属していなかった。

  pdftohtml は PDF 文書を HTML に変換するプログラムである。同プログラムの出力は、実行時点の作業ディレクトリに作成される。

オプション
オプションの概要は以下の通り。

-h, -help
オプションの概要を表示する。

-f <int>
変換処理を始めるページ。

-l <int>
変換処理を終えるページ。

-q
如何なるメッセージやエラーも表示しない

-v
著作権と版の情報を表示する

-p
.pdf のリンクを .html で置き換える

-c
1 頁が 1 HTML 文書となる複合型出力(complex output)を生成。

-s
全頁を含んだ単一の HTML 文書を生成する

-i
画像を無視する

-noframes
フレーム無しの HTML。複合型出力(complex output)では無視される。

-stdout
標準出力を使用する

-zoom <fp>
PDF 文書を拡大する(初期設定は 1.5)

-xml
後処理に使える XML を出力する

-enc <string>
出力文字列の符号化方式の名前

-opw <string>
所有者パスワード(暗号化されたファイルの場合)

-upw <string>
ユーザ・パスワード(暗号化されたファイルの場合)

-hidden
非表示のテキストの抽出を強制する

-dev
Ghostscript の出力デバイスの名前(png16m、jpeg など)。このオプション指定がなければ、スプラッシュを使用する。

-fmt
スプラッシュ出力用の画像ファイルの形式(png あるいは jpg)。複数 HTML を用いる複合型出力を選択し、且つ、-fmt も -dev も指定しなかった場合、-fmt png を指定したものと見做される。

-nomerge
段落を繫げない

-nodrm
文書のDRM(デジタル著作権管理)設定を上書きする


開発者
  Gueorgui Ovtcharov と Rainer Dorsch が pdftohtml を開発した。このプログラムは Derek Noonburg の xpdf パッケージを基にしており、同パッケージに負うところ大である。
  Søren Boll Overgaard <boll@debian.org> がこのマニュアル・ページを執筆してくれた。このマニュアルは Debian GNU/Linux システムを想定したものだが、他のシステムでも使えるだろう。

----------------------------------------

PR

日本語のPDF文書を pdftohtml で変換する際、-enc に UTF-8 を指定

漢字等を含んだPDF文書に対して pdftohtml を実行すると、出来上がった html 文書に「â€」「Ã」などの文字が現れる。

このサイトを参考にして解決。

man pdftohtml によると、

...
-enc <string>
     output text encoding name
...

とういことなので、-enc に utf8、utf-8 などを渡してみると、

[悪い例@localhost ~]$ pdftohtml -s -enc utf8 aaa.pdf
Error: Couldn't find unicodeMap file for the 'utf8' encoding
[悪い例@localhost ~]$ pdftohtml -s -enc utf-8 aaa.pdf
Error: Couldn't find unicodeMap file for the 'utf-8' encoding

と出てしまう。

man pdftohtml 曰く、

...
AUTHOR
Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch. It is based and benefits a lot from Derek Noonburg's xpdf package.
(訳)
(pdftohtml の開発者は、Gueorgui Ovtcharov と Rainer Dorsch の二人である。Derek Noonburg の xpdf パッケージを基にしており、同パッケージに負うところが大きい。)
...

man xpdf 曰く、

...
-enc encoding-name
Sets the encoding to use for text output. The encoding-name must be defined with the unicodeMap command (see xpdfrc(5)). This defaults to "Latin1" (which is a built-in encoding). [config file: textEncoding]
(訳)
(文の出力に用いる符号化方式を指定する。符号化方式の名前は、unicodeMap コマンド(xpdfrc(5) を見よ)で定義したものでなければならない。初期状態では「Latin1」に設定されている(これはビルトインの符号化方式である)。[config file: textEncoding])
...

man xpdfrc 曰く、

...
unicodeMap encoding-name map-file
...
The Latin1, ASCII7, Symbol, ZapfDingbats, UTF-8, and UCS-2 encodings are predefined.
(訳)
(符号化方式は Latin1、ASCII7、Symbol、ZapfDingbats、UTF-8、及び UCS-2 が予め定義されている。)
...

UTF8 を指定する場合は「UTF-8」を渡す。

[良い例@localhost ~]$ pdftohtml -s -enc UTF-8 aaa.pdf

カレンダー

12 2025/01 02
S M T W T F S
1 2 4
5 6 7 8 9 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

最新コメント

[09/07 NONAME]
[08/18 NONAME]
[05/18 NONAME]
[04/09 NONAME]
[03/21 NONAME]

最新記事

(01/10)
(01/03)
(12/20)
(12/08)
(11/20)
(10/30)
(10/24)
(09/20)
(09/16)
(09/11)
(09/03)
(09/02)
(08/27)
(08/17)
(07/31)
(07/30)
(07/19)
(07/13)
(05/02)
(03/17)
(11/01)
(07/20)
(05/17)
(04/20)
(03/10)

ブログ内検索

広告

バーコード

広告