トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS   ログイン

TOP>Sjis.pm

Perl | install_japerl_Framework.bat | japerl.bat | jacode.pl | Char.pm | Perl-Exactly | Strict-Perl | Modern-Open | Fake-Our | Fake-Encode | Stable-Module | SjisTk | DBD-mysqlPPrawSjis | DBD-PgPPSjis | Sjis.pm | EUCJP.pm | UTF2.pm

404 Flag Not Found

     楽できて普遍的な方法を探していますか?

Sjisソフトウェアは日本語情報処理のための Perl プログラムです(JPerlのような使い心地を目指しています)。 JA.pm(日本語ドキュメント) English Version

インストール方法

以下のファイルを @INC に含まれるディレクトリ、例えば C:\Perl\site\lib にコピーするとインストール完了です。もちろん ppm や cpanminus を使っても大丈夫です。

使い方

スクリプト先頭に以下の記述をします。そうするとスクリプトをシフトJISで記述でき、正規表現をはじめとしてPerlの動作もシフトJISによる日本語文字列に対応するようになります。最近ではjaperl.batを使う方法もあります。この方法だと"use Sjis;"を書かずに済むので、将来、本流に戻るときに有利かもしれません。

use Sjis;
print "こんにちは、並行世界!\n";

Sjisソフトウェアの概要

※1 ここでいう文字、文字列は利用者およびperl処理系にとってのそれであって、perlインタプリタにとってはバイト列に見えています。モダンPerl用語での文字列ではありません。以降に出現する「文字」「文字列」も同様とします。

データはバイト列として扱うこともでき、文字列として扱うこともできます。
バイト列であるか文字列であるかは、UTF8フラグが決めることではなく、私たち人間
が決めることです。なぜならセマンティックスを扱うためには心が必要だからです。
心を持たないコンピュータはシンタックスしか処理することができません。

「文字を扱っている」のは、コンピュータではなく、人間です。それは最も単純な構
成の ASCII コードでさえそうです。日本語情報処理の場合(例えばシフトJISで対応
する場合など)は、1.数値の桁を増やす、2.数値の桁数が可変となることに対応する、
だけなのでこの基本的な原理は変わりません。

だから「文字列」という用語はインタプリタのためではなく、人間のためにあった方
がよいと考えます。このソフトウェアは「文字列」という用語を私たちのために取り
戻します。

つまり、私たちが文字列だと思っているものが文字列です。

Perlはグルー言語(glue language)のひとつであり、異質なものを結びつけるのを得意
としています。しかしながら、UTF8フラグを使用すると外部文字列と内部文字列の区別
ができ、その結びつけをアプリケーションプログラマが行うことになってしまいます
(ツールの仕事がいつの間にかあなたの仕事に!?)。

既存の言葉の意味を変えなければならないのは、その手法が適切でないことを暗示
していると思われるのです。

Sjisソフトウェアの詳細

このソフトウェアは JPerl on the Modern Perl です。perl を JPerl のようにすることが
でき、日本語をモダンに処理します。ここでいうモダンは、アプリケーションプログラマが
上方に位置する解くべき問題に注力でき、下方に位置するインタプリタの実装都合に煩わ
されない、ということを意味しています。例えば文字コード変換は要件として上方に位置し、
デコードやエンコードはインタプリタの実装都合として下方に位置します。

その一方で、このソフトウェア自身の実装方法は?というとモダンPerlではなくてスタン
ダードPerlです。使うひとにやさしい反面、このソフトウェアを実装・保守する方法は前
近代的、そして標準的です。橋は両岸にかからなければ、その役目を果たせないからです。
近代的なスクリプトは前近代的なインタプリタ上で実行することができません。時間を敵
と考えず、味方と捉えることができれば、過去からも未来からも支持されるソフトウェア
になります。

シフトJISをそのまま処理し、かつ値が [\x80-\xFF] のオクテットは Latin-1 を表すことが
ないため、もはやUTF8フラグは使用しません。

シフトJISは第2オクテットに 

            @ [ ¥ ] ^ ‘ { | } 

など、ダブルクォート文字列や正規表現で特別な役割を果たす 1 オクテット文字と同じ値が
使われています。それに加えてPerlの q qq qx qw m s tr y qr は任意の文字をデリミタに
できるため、クォートしたい文字の第2オクテットがデリミタの値と同じになることがありま
す。このソフトウェアはそれらのオクテットの直前に chr(0x5c) を入れることでエスケー
プし、本来使用したかった2オクテット文字をバイト指向の perl 上で使用できるようにしま
す。なお、インターネット上には「直後」と書かれた資料もありますが、正しくは「直前」で
す。そうでなければエスケープすることができません。 

このエスケープ処理によって文字コードが UTF-8 に変換されることはありません。従来同様、
バイト列はすなわちオクテット列であり、かつ文字列でもあるため、オクテット列として
操作するのか文字列として操作するのかは、必要がない限りperl処理系に指示せずにすみ
ます。

外部コードはそのままの値で内部コードになります。もとい、内部コードとして設計され
たシフトJISを内部コードとして使用することができます。

もとよりマッピングテーブルがない仕組みなので、システムに固有な外字コードを扱う場合
でもマッピングテーブルを追加作成する必要がありません。

ファイル名、ディレクトリ名をシフトJISで取り扱っている環境においてはそれらをファイル
の内容と同様に扱うことができます。これはファイルの中に記述したファイル名をそのまま
perl の組込み関数や演算子に渡せることを意味しています。DOS/Windows 風の OS の場合
はパスの区切り文字として \ が使われているため、それらをうまく扱うためのルーチン も
ランタイムルーチンである Esjis.pm に含まれています。

このソフトウェアが提供する環境では、文字列の長さや文字列中の文字の位置を表すときは
これまで通り 1 オクテットを 1 と数えます。それにより、今までのスクリプトとこれからの
スクリプトは互換性が保たれ、新旧互いにコードを貼りつけあい、実装を継承することに
よって機能を継承することができます。

文字単位で数える関数は Sjis::* という名前で用意されています。例えば文字数を調べる
関数は Sjis::length です。これは言ってみれば関数名のエスケープです。 

このソフトウェアはperl5.00503で書かれているため、現在jperlを利用している人でも気軽に
試すことができます。もし思っていたものと違った場合でも Sjis.pm と Esjis.pm を削除
すればアンインストール完了です。

またPurePerl?なのでXSを利用できない状況でもこのソフトウェアを利用することができます。
XSを使っていないおかげで、バイナリ互換問題に煩わされることがなく、perlインタプリタ
を perl5.8, perl5.10, perl5.12, perl5.14, perl5.16, perl5.18, perl5.20, perl5.22,
64ビット版へと移行するのも容易です。

いままでに蓄積されたデータ、スクリプト、ノウハウを今後も利用できるようにし、シンプ
ルな日本語情報処理モデルを提供することがこのソフトウェアの目標です。  

このソフトウェアが使われる領域

長さの単位が文字よりもバイトのほうがよい理由

 このソフトウェアが想定しているスケジュール

 西暦2015年 -- スクリプトはシフトJISで書かれ、外部データは複数の符号化方式が使われている
   use Sjis;
   require 'jacode.pl';

         西暦2025年 -- あまり状況が変わっていないが、Unicodeの私用面にJIS漢字を(区点順に)割当てるひと達が出現する
               -- そうなると4バイト固定長のほうが分かりやすいのでUTF-8でありながらNULパディングによってどの文字も4バイトで扱う技法が普及し始める
               -- これまでのNULの機能は4バイト版のNULNULNULNUL(通称NUL4)によって実現する
               -- それらによりDIS10646第1版で考えていたことが形を変えてある程度叶う
           use Sjis;
           require 'jacode2.pl'; # 'p15jis' がサポートされる

             西暦2030年 -- 内部コードのはずが、いつか見た光景のように外部コードとしても使われだしてしまう
                   -- 当事者間の私的な合意なのでそれを禁止することができない
                   -- その一方で IVS はめったに使われず、使わないことがあたかも合意されているかのようである

 ※ 個人的な妄想です

参考情報

TODO/DONEリスト

ina (2012-02-10 (金) 23:20:37)
・m??, ?? のサポート
・バイト指向の正規表現を実現する /b 修飾子のサポート

ina (2012-03-31 (土) 20:08:00)
・\F と fc() のサポート
Perl 5.16 new features
perl5160delta
perl-5.16 ビギナーズセッション(5分?) akiym
・2012-05-25にバージョン0.81としてリリースしました

ina (2012-06-20 (水))
・Sjis 0.81 が Strawberry Perl 5.16.0 および ActivePerl 5.16.0 にて全テストパスしました。
・正規表現中の文字列クラス m/[here]/ 内に変数が記述できるようにする。

ina (2012-07-29 (日))
・Sjis 0.82 リリースしました。

ina (2012-08-14 (火))
・Sjis 0.82 が Strawberry Perl 5.16.1.1 のテストにて PASS しました。

ina (2012-09-13 (木))
・!~ と s/// を組合せて記述した場合のバグに現在対処中で、テストを進めています。

ina (2012-09-29 (土))
・Sjis 0.83 をリリースしました。

ina (2012-10-24 (水))
・${^WIN32_SLOPPY_STAT} に対応していない件をドキュメントに書く。
・起動時のコマンドラインパラメータをエスケープ後のスクリプト実行時に引き継ぐ部分の見直し中。
・ドキュメントの見直し中。

ina (2012-10-30 (火))
・ニーズが分からず実装も面倒なので、正規表現のクロイスタ(?s)(?i)をサポートせずにいます。
 (?s) は /s 修飾子と .(ドット) と \N で記述できます。
 (?i) は \F ~ \E で工夫して記述する必要があります。

ina (2012-11-29 (木))
・-Duseithreads にてコンパイルされた perl 5.17.x では m?? が正しく動作しません。[perl #115080] m?? doesn't only once match on -Duseithreads
http://www.nntp.perl.org/group/perl.perl5.porters/2012/09/msg193258.html
perl 5.18 までに解決されるといいのですが。
https://rt.perl.org:443/rt3//Public/Bug/Display.html?id=115080
解決されました。

ina (2012-12-12 (水))
・Win32s 環境では動作しませんでした。
・Microsoft Windows 95 で動作確認しました(command.com に対応する箇所、一箇所の変更が必要です)。
・Microsoft Windows NT 4.0 で動作確認しました。

ina (2012-12-23 (日))
・Sjis::getc を作成しました。

ina (2013-01-27 (日))
・Sjis::getc(BAREWORD) のバグを修正しました。

ina (2013-03-22 (金))
・perl 5.14.4 での動作確認しました。
・perl 5.16.3 での動作確認しました。
・Win32モジュールがなくともEsjis::chdirが動作するようにしました。

ina (2013-05-01 (水))
・正規表現で32,767オクテット以上の文字列を扱えるように改良し、ver.0.88をリリースしました。

ina (2013-05-12 (日))
・ver.0.88 での改良は Perl5.10.0 では利用できないようなので、対象をPerl5.10.1以降に変更して、再度 ver.0.89 としてリリースしました。
・Perl 5.18.0-RC1 で全テストがPASSしました。
・Perl 5.18.0-RC2 で全テストがPASSしました。
・Perl 5.18.0-RC3 で全テストがPASSしました。
・Perl 5.18.0-RC4 で全テストがPASSしました。

ina (2013-05-19 (日))
・Perl 5.18.0 で全テストがPASSしました。

ina (2013-06-03 (月))
・Sjis::substr() の lvalue 対応版を作成し、リリース準備完了。

ina (2013-06-08 (土))
・ver.0.90をリリースしました。
・Perl 5.19.0 で全テストがPASSしました。
・ver.0.89での改良をsplit()関数にも適用しました。

ina (2013-07-07 (日))
・ver.0.91をリリースしました。

ina (2013-07-10 (水))
・JIS8、TIS-620、Arabic、Hebrewの作成中。
・MSWin32版PerlでUTF2とOldUTF8のテストがPASSしないことへの対処中。

ina (2013-07-18 (木))
・ver.0.92をリリースしました。

ina (2013-07-26 (金))
・eval "string"; の string 部分をエスケープする方法を検討中。

ina (2013-07-29 (月))
ver.0.88での対応がPerl本体に反映されるならうれしいことです。

ina (2013-08-06 (火))
・Perl 5.18.1-RC1 で全テストがPASSしました。
・Perl 5.18.1-RC2 で全テストがPASSしました。

ina (2013-08-10 (土))
・Perl 5.18.1-RC3 で全テストがPASSしました。

ina (2013-08-13 (火))
・Perl 5.18.1 で全テストがPASSしました。

ina (2013-08-21 (水))
StrawberryPerl 5.18.1(32ビット) で全テストがPASSしました。

ina (2013-09-03 (火))
ユーザ交流の場を作りました。

ina (2013-09-27 (金))
ActivePerl 5.18(32ビット実行形式) で全テストがPASSしました。
ActivePerl 5.18(64ビット実行形式) で全テストがPASSしました。

ina (2013-12-07 (土))
・表面化していなかったファイルテスト演算子部分のバグの修正・テスト中。
Win95Cmd.exeへの対応を検討中。Win95Cmd.exeが日本語に対応していないのでだめでした。
・Perl 5.18.2-RC1 で全テストがPASSしました。
・Perl 5.18.2-RC2 で全テストがPASSしました。

ina (2013-12-25 (水))
・Perl 5.18.2-RC3 で全テストがPASSしました。
・Perl 5.18.2-RC4 で全テストがPASSしました。
・まもなくver.0.93をリリースします。

ina (2013-12-29 (日))
・ver.0.93をリリースしました。

ina (2014-01-07 (火))
・Perl 5.18.2 で全テストがPASSしました。
・UTF2,OldUTF8の fc() をUnicode6.3に対応させ、テスト中です。

ina (2014-01-13 (月))
・ver.0.94をリリースしました。

ina (2014-03-31 (月))
・Perl5.20のsignaturesへの対応を準備する。

ina (2014-04-26 (土))
・ver.0.96をリリースしました。

ina (2014-05-17 (土))
・Perl 5.20.0-RC1 で全テストがPASSしました。

ina (2014-05-27 (火))
・Perl 5.20.0 で全テストがPASSしました。

ina (2014-08-27 (水))
・EUC-TWを作成中です。

ina (2014-09-01 (月))
・yada-yada 演算子をサポートして ver.1.00 をリリースしました。

ina (2014-09-18 (木))
・Strawberry Perl 5.20.1 で全テストがPASSしました。が、t/212_dbmopen.t にて libgdbm_compat-4_.dll、libdb-6.1_.dll、libgdbm-4_.dll のコンポーネントが見つからないというメッセージボックスが表示されました。

ina (2014-11-27 (木))
ActivePerl 5.20.1 でテストがPASSしました。

ina (2014-11-30 (日))
・eval "string" は eval Sjis::escape("string") という方法でサポートするようにし、現在テスト中です。

ina (2014-12-24 (水))
・今のペースだとリリースは来年になりそうです。eval Sjis::escape("string") のシンタックスシュガー、Sjis::eval("string") も使えるように考えています。

ina (2015-01-01 (木))
・Sjis::eval をサポートして ver.1.02 をリリースしました(この機能を実現するのに1年半もかかりました!)。
・Perl 5.21.7 で全テストがPASSしました。

ina (2015-01-05 (月))
・Sjis::eval のおかげでSjisソフトウェアファミリーをひとつに統合できるのではないかと検討を始めました。

ina (2015-01-12 (月))
・統合後の名前はChar.pmにしようと考えています。続きはChar.pmで。

ina (2015-02-18 (水))
・Perl 5.20.2 で全テストがPASSしました。

ina (2015-03-05 (木))
・Strawberry Perl 5.20.2 で全テストがPASSしました。

ina (2015-05-04 (月))
ActivePerl 5.20.2(32ビット実行形式) で全テストがPASSしました。
・エスケープ時の実行速度改善を予定しています。

ina (2015-06-02 (火))
・Perl 5.22.0 の対応準備をしています。

ina (2015-06-14 (日))
・まもなくver.1.05をリリースします。

ina (2015-06-15 (月))
・ver.1.05をリリースしました。

ina (2015-06-25 (木))
・ダブルクォートライクの文字列、正規表現はその中に文字列を(それがダブルクォートライクであれば再帰的に)含むことができるので、それらを扱えるように計画中。


Last-modified: 2023-12-14 (木) 22:31:45