[TShack:58]から移動しました。
極悪さんのホームページではn-gramについての新たな展開が行われてきていて、
興味深く思っていました。そうこうするうち、私はSelf-Organizing Maps(SOM)
というのものに引かれて、自然言語処理関係の文献を調べているうちにn-gramと
いう言葉を見つけました。
n-gramについて詳しいことは極悪さんのページから辿って欲しいですけど、テ
キスト中の文字の並びに生起するn個の文字からなる文字列の頻度をカウントし
て、そのテキストの特徴として捉えるテキストの解析手法です。二つの文書を比
較するためにはn-gramまでで十分です。多数のテキストを比較→分類するために
は、n-gramで得られたパターンの類似性を評価する必要が出てきます。これを自
動的にやろうというのが、SOMです。
私が最初に知ったn-gramが載っているSOMの文献は、ホームページでも紹介し
たTimo HonkelaのPhD論文"Self-Organizing Maps in Natural Language
Processing"、
http://www.cis.hut.fi/~tho/thesis/
ですが、その引用文献にあるScholtesやMerklのものはインターネット上には公
開されていないみたい、随分探したんだけど(^^;)。Hyotyniemi,1996だけは、
http://saato014.hut.fi/Hyotyniemi/publications/96_step_3.ps
にある。
Research on N-Grams in Information Retrieval、
http://www.cs.umbc.edu/ngram/
にはUS特許が8件も載っている。うーむ、ビジネスに使わなければいいんだろう
けど・・・ビジネスに使う場合には読んでおく必要があるだろうね。以下に纏め
ておこう。発明者にDamashekという名が見られるが、n-gram関係の文献も書いて
いる。ScholtesやMerklと同様に文献を公開していない。USPは
http://patft.uspto.gov/netahtml/srchnum.htm
でPATENT NUMBER SEARCHをやればすぐ入手できる。無論無料。
United States Patent 5,467,425
Lau , et al. November 14, 1995
Building scalable N-gram language models using maximum likelihood
maximum entropy N-gram models
Inventors: Lau; Raymond (Cambridge, MA); Rosenfeld; Ronald (Pittsburgh,
PA); Roukos; Salim (Scarsdale, NY)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,452,442
Kephart September 19, 1995
Methods and apparatus for evaluating and extracting signatures of
computer viruses and other undesirable software entities
Inventors: Kephart; Jeffrey O. (Yorktown Heights, NY)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,440,723
Arnold , et al. August 8, 1995
Automatic immune system for computers and computer networks
Inventors: Arnold; William C. (Mahopac, NY); Chess; David M. (Mohegan
Lake, NY); Kephart; Jeffrey O. (Yorktown Heights, NY); White; Steven R.
(New York, NY)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,444,617
Merialdo August 22, 1995
Method and apparatus for adaptively generating field of application
dependent language models for use in intelligent systems
Inventors: Merialdo; Bernard (Valbonne, FR)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,502,791
Nishimura , et al. March 26, 1996
Speech recognition by concatenating fenonic allophone hidden Markov
models in parallel among subwords
Inventors: Nishimura; Masafumi (Yokohama, JP); Okochi; Masaaki
(Yokohama, JP)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,418,951
Damashek May 23, 1995
Method of retrieving documents that concern the same topic
Inventors: Damashek; Marc (Hampstead, MD)
Assignee: The United States of America as represented by the Director of National (Washington, DC)
United States Patent 5,510,981
Berger , et al. April 23, 1996
Language translation apparatus and method using context-based
translation models
Inventors: Berger; Adam L. (New York, NY); Brown; Peter F. (New York,
NY); Della Pietra; Stephen A. (Pearl River, NY); Della Pietra; Vincent J.
(Blauvelt, NY); Kehler; Andrew S. (Somerville, MA); Mercer; Robert L.
(Yorktown Heights, NY)
Assignee: International Business Machines Corporation (Armonk, NY)
United States Patent 5,448,474
Zamora September 5, 1995
Method for isolation of Chinese words from connected Chinese text
Inventors: Zamora; Antonio (Bethesda, MD)
Assignee: International Business Machines Corporation (Armonk, NY)
藤岡 和夫
FGALTS@...
kazuf@...
TS Networkのために http://homepage1.nifty.com/kazuf/