作者: 藤岡和夫
日時: 2008/6/29(10:50)
On Sun, 29 Jun 2008 09:33:49 +0900 (JST)
wtnabe@... (ねこ丸) さんwrote:

 再度コメントありがとうございます。

> 藤岡和夫 writes:
> 
> > http://www.rwds.net/kuroita/program/Perl_unicode.html
> > 
> > が、うまくまとめてますね。
> > 
> >  これでほぼ自在に取り扱えそうです。
> 
>   どういう結論になったのか分からないですが、自分としては
> 
> use open
> binmode
> 
>   でいいような気がします。TSabc ですしね :-)

 なるほどね。方法論は別にして、僕がなぜ大体わかったと思ったのかは、Bruce.
さんへの返答に書きましたので省略しますが、コマンドラインオプションで選択
できるとスクリプトのポータビリティが上がりますね。特に出力のエンコーディ
ングを設定できるとうれしいです。ここで言ってもしかたがないかもしれないけ
ど・・・

>   ただ、なぜこれが必要なのかを説明するためには UTF8 フラグを理解しない
> といけないわけですが。

 これまでは、僕はUTF-8フラグを一切立てずにスクリプトを書いてきて、HTML/XML/RDF
の処理だから問題なかったのですが、でびさんの問題のように本来の日本語の処
理をしようとすると、やはりUTF-8フラグを無視できないねと考え始めていたの
で、グッドタイミングなテーマではありました。

>   正直この Perl のUTF-8周りは面倒なだけじゃんと自分も思いまし
> た。という話は以下に書いてあります。
> 
> 結局日本語周りをまとめた - あーありがち (2007-08-03)
> http://aligach.net/diary/20070803.html#p02
> 
>   たどりついてもらえなかったのが残念です :-)

 Googleで「UTF-8フラグ」を検索すると2ページ目に出てきますね(^^)見逃して
すみません^^;)よく整理されているし、要点が押さえられているのでわかりやす
いですね。

TSperl
http://text.world.coocan.jp/TSNET/?TSperl

にリンクを置きました。

>   以下余談。
> 
>   正確に「内部エンコーディング」と呼べるものを持っていない PHP 5.x 以下
> も藤岡さんの要望には合うかも。UTF-8 なら preg で処理できるし。ただ 6 だ
> と「内部エンコーディング」ができちゃうとか?  よく調べてませんけど。
> 
> ※ 5.x までの PHP の mbstring.internal_encoding は様々な変換などの処理
>    でデフォルトのエンコーディングとして働くだけで、PHP の内部的に何か特
>    別な意味があるわけではありません。特別な意味があるように見えるのはこ
>    れをもとにいろんなフィルタが自動で働くからです。

 PHPはPukiwikiを使っているので、勉強すればもっと高度な使い方ができるの
かもと思いながら、まだ触る機会を得ないという感じです。

 少しずつでも話題になれば勉強していきたいと考えています^^)

藤岡 和夫
kazuf@...
日曜プログラマのひとりごと http://homepage1.nifty.com/kazuf/renewal.html