作者: Bruce.
日時: 2007/1/14(00:25)
Bruce.です。

藤岡和夫 さんは書きました (2007/01/13 17:52):
>  Feedだったら、encodingを見て判断するということで大体いいと思うのですけ
> ど、実際にはencoding属性を書いていないものも結構多いので、わからない場合
> はUTF-8と見做すということでやっています。それで今のところ問題は出ていま
> せん。300サンプル程度の実績。最近はほとんどが、UTF-8を使っていると思いま
> すしね。

ちょっと神経質かもしれませんが、utf-8としてvaildなものかどうか
チェックしておいても良いかもしれません。先に書いたようにutf-8は
lead-byte と trail-byte で明確に異なるビットパターンを持ちます
ので、vaild かどうかのチェックはしやすいと思います。

-- 
木村浩一
  I thought what I'd do was, I'd pretend I was one of those deaf-mutes.
  mail kbk@...
        web  www.kt.rim.or.jp/~kbk/zakkicho/
             homepage3.nifty.com/farstar/