忍者ブログ

素人翻訳

適当に翻訳する。

日本語のPDF文書を pdftohtml で変換する際、-enc に UTF-8 を指定

漢字等を含んだPDF文書に対して pdftohtml を実行すると、出来上がった html 文書に「â€」「Ã」などの文字が現れる。

このサイトを参考にして解決。

man pdftohtml によると、

...
-enc <string>
     output text encoding name
...

とういことなので、-enc に utf8、utf-8 などを渡してみると、

[悪い例@localhost ~]$ pdftohtml -s -enc utf8 aaa.pdf
Error: Couldn't find unicodeMap file for the 'utf8' encoding
[悪い例@localhost ~]$ pdftohtml -s -enc utf-8 aaa.pdf
Error: Couldn't find unicodeMap file for the 'utf-8' encoding

と出てしまう。

man pdftohtml 曰く、

...
AUTHOR
Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch. It is based and benefits a lot from Derek Noonburg's xpdf package.
(訳)
(pdftohtml の開発者は、Gueorgui Ovtcharov と Rainer Dorsch の二人である。Derek Noonburg の xpdf パッケージを基にしており、同パッケージに負うところが大きい。)
...

man xpdf 曰く、

...
-enc encoding-name
Sets the encoding to use for text output. The encoding-name must be defined with the unicodeMap command (see xpdfrc(5)). This defaults to "Latin1" (which is a built-in encoding). [config file: textEncoding]
(訳)
(文の出力に用いる符号化方式を指定する。符号化方式の名前は、unicodeMap コマンド(xpdfrc(5) を見よ)で定義したものでなければならない。初期状態では「Latin1」に設定されている(これはビルトインの符号化方式である)。[config file: textEncoding])
...

man xpdfrc 曰く、

...
unicodeMap encoding-name map-file
...
The Latin1, ASCII7, Symbol, ZapfDingbats, UTF-8, and UCS-2 encodings are predefined.
(訳)
(符号化方式は Latin1、ASCII7、Symbol、ZapfDingbats、UTF-8、及び UCS-2 が予め定義されている。)
...

UTF8 を指定する場合は「UTF-8」を渡す。

[良い例@localhost ~]$ pdftohtml -s -enc UTF-8 aaa.pdf
PR

Amazon、qid、URL、意味

Amazon の URL に見られる qid は、検索実行時点の UNIX Timestamp である。

(1)著者・販売者が Amazon にログインする、あるいは自社の IP アドレスから Amazon に接続する。
(2)その状態で自分の商品を検索して、ある時刻の qid を含む商品ページの URL を生成する。
(3)その URL を知人に教えたり、ブログに掲載したりする。
(4)その URL を踏んだ誰かが、そのままログインして、その商品にレビューを投稿する。
(5)レビュー投稿者と著者・販売者の関係が疑われ、Amazon はレビューを削除する。

備忘録-------------------
accountStatusPolicy=
bbn=
channel=detail-glance、レビューへの「コメント」に出現。

field-feature_eight_browse-bin=、例えば、数字。
fst=

id=、例えば、数字。スポンサープロダクトで見かける。
ie=UTF8

keywords、検索に用いた語。

m、

node=
nodeId=

openid.assoc_handle=jpflex、ログイン画面、日本
openid.claimed_id=
openid.identity=
openid.mode=
openid.ns=
openid.ns.pape=
openid.pape.max_auth_age=0
openid.return_to=

page=2、検索結果の2ページ目。
pageId=、例えば、webcs-yourorder

pf_rd_i=、例えば、desktop
pf_rd_m=
pf_rd_p=
pf_rd_r=
pf_rd_s=
pf_rd_t=

psc=、例えば、1

qid=、UNIX Timestamp。UNIX時刻。

qualifier=、例えば、数字。スポンサープロダクトで見かける。

redirect=true、年齢確認あなたは18歳以上ですか、などで飛ぶページに出現。

ref=
ref=cm_cr_dp_abuse_voteyn、商品へのレビューに対して「違反を報告」。
ref=cm_cr_dp_cmt、商品へのレビューに対して「コメント」。
ref=cm_cr_dp_voteyn_no、商品へのレビューが役に立ったか「いいえ」。
ref=cm_cr_dp_voteyn_yes、商品へのレビューが役に立ったか「はい」。
ref=cm_cr_dp_pdp、商品ページに表示されているレビュー投稿者名から投稿者のページヘ移動。
ref=dp_sp_detail_2、「この商品に関連するスポンサープロダクト」の2番めの商品。
ref=lp_XXXX_1_2、
ref=pd_bxgy_121_img_2、「よく一緒に購入されている商品」の 2 番目の商品。
ref=pd_cp_121_2、「この商品を見た後に買っているのは?」の 2 番目の商品。
ref=pd_sim_121_2、「この商品を買った人はこんな商品も買っています」の 2 番目の商品。
ref=sr_1_2、検索結果中で表示順位が 2 番目のものであることを示す。
ref=sr_1_sc_2、検索実行時に指定したものとは異なる検索語を用いた場合、その検索結果中で表示順位が 2 番目の商品であることを示す。
ref=sr_pg_2、検索結果の2ページ目

refRID=、

rh=
rnid=

s、カテゴリ。例えば、s=books、s=music など。

search-alias=、例えば、electronics

showRmrMe=1

sr=1-2-spell、検索実行時に指定したものとは異なる検索語を用いた場合、その検索結果中で表示順位が 2 番目の商品であることを示す。
sr=8-2 は、全てのカテゴリーからの検索が実行された場合に、その検索結果中で表示順位が 2 番目のものであることを示す。

target=、レビューが役に立ったか「はい」「いいえ」「違反を通報」。「はい」と「いいえ」では同じ値。「はい」「いいえ」と「違反を通報」とでは最初の69桁が一致。

url=、

voteAnchorName=、RXXXXXXXXXXXXX.2115.Helpful.Reviews もしくは RXXXXXXXXXXXXX.2115.Inappropriate.Reviews であり、RXXXXXXXXXXXXX はレビューの識別文字列。2115 以外あるか?
voteSessionID=、レビューが役に立ったか、xxx-xxxxxxx-xxxxxxx、数字。

widgetName=、例えば、sp_detail2。スポンサープロダクトで見かける。
-------------------------
飽きたのでこれ以上は調べない。

カレンダー

04 2024/05 06
S M T W T F S
1 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

最新コメント

[08/18 NONAME]
[05/18 NONAME]
[04/09 NONAME]
[03/21 NONAME]
[03/20 NONAME]

最新記事

(05/02)
(03/17)
(11/01)
(07/20)
(05/17)
(04/20)
(03/10)
(03/04)
(02/26)
(02/20)
(01/05)
(08/04)
(05/17)
(10/20)
(07/20)
(04/08)
(04/08)
(03/02)
(10/05)
(12/06)
(09/18)
(07/08)
(04/13)
(04/04)
(04/04)

ブログ内検索

広告

バーコード

広告