dune <FZH01112@...> さん wrote.
> -enc EUC-JP と -enc Shift-JIS、enc ISO-2022-JP、-eucjp と総
> 当たり試したのですが読めないようです。
> もしやと思い、PDFJ で作られた文書(元データが SJIS で書かれ
> ていて、pdf に変換するときも文字コード 'SJIS' が指定されてい
> る)を混ぜて試したら、その文書だけは読めるようになりました。
まず dune さんが get された xpdf のセットは日本語パッチが当たっていない
のではないかという可能性が……うちでは大体読めています。
> pdf をどうやって作ったのかで違ってくるようです。pdf を作ると
> きは PDFJ でお願いします>みなさん(笑)
確かに PDF フォーマットは全ての文字をビットマップ画像化して組み込むこと
ができるので(フォントを持っていない環境でも Ok なようにするなどのため)、
この場合 xpdf では読めても pdftotext では文字化けします。昔 dvips と
ps2pdf で作ったのなんかこれ(でも、例外的なはず)。
--
本田博通(閑舎)
テキストとスクリプトの http://rakunet.org/TSNET/