作者: 藤岡和夫
日時: 2002/6/16(10:49)
[TShack:58]から移動しました。

 極悪さんのホームページではn-gramについての新たな展開が行われてきていて、
興味深く思っていました。そうこうするうち、私はSelf-Organizing Maps(SOM)
というのものに引かれて、自然言語処理関係の文献を調べているうちにn-gramと
いう言葉を見つけました。

 n-gramについて詳しいことは極悪さんのページから辿って欲しいですけど、テ
キスト中の文字の並びに生起するn個の文字からなる文字列の頻度をカウントし
て、そのテキストの特徴として捉えるテキストの解析手法です。二つの文書を比
較するためにはn-gramまでで十分です。多数のテキストを比較→分類するために
は、n-gramで得られたパターンの類似性を評価する必要が出てきます。これを自
動的にやろうというのが、SOMです。

 私が最初に知ったn-gramが載っているSOMの文献は、ホームページでも紹介し
たTimo HonkelaのPhD論文"Self-Organizing Maps in Natural Language
Processing"、

http://www.cis.hut.fi/~tho/thesis/

ですが、その引用文献にあるScholtesやMerklのものはインターネット上には公
開されていないみたい、随分探したんだけど(^^;)。Hyotyniemi,1996だけは、

http://saato014.hut.fi/Hyotyniemi/publications/96_step_3.ps

にある。

 Research on N-Grams in Information Retrieval、

http://www.cs.umbc.edu/ngram/

にはUS特許が8件も載っている。うーむ、ビジネスに使わなければいいんだろう
けど・・・ビジネスに使う場合には読んでおく必要があるだろうね。以下に纏め
ておこう。発明者にDamashekという名が見られるが、n-gram関係の文献も書いて
いる。ScholtesやMerklと同様に文献を公開していない。USPは

http://patft.uspto.gov/netahtml/srchnum.htm

でPATENT NUMBER SEARCHをやればすぐ入手できる。無論無料。

United States Patent  5,467,425  
Lau ,   et al.  November 14, 1995  
Building scalable N-gram language models using maximum likelihood
maximum entropy N-gram models 
Inventors:  Lau; Raymond (Cambridge, MA); Rosenfeld; Ronald (Pittsburgh,
PA); Roukos; Salim (Scarsdale, NY)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,452,442  
Kephart  September 19, 1995  
Methods and apparatus for evaluating and extracting signatures of
computer viruses and other undesirable software entities 
Inventors:  Kephart; Jeffrey O. (Yorktown Heights, NY)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,440,723  
Arnold ,   et al.  August 8, 1995  
Automatic immune system for computers and computer networks 
Inventors:  Arnold; William C. (Mahopac, NY); Chess; David M. (Mohegan
Lake, NY); Kephart; Jeffrey O. (Yorktown Heights, NY); White; Steven R.
(New York, NY)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,444,617  
Merialdo  August 22, 1995  
Method and apparatus for adaptively generating field of application
dependent language models for use in intelligent systems 
Inventors:  Merialdo; Bernard (Valbonne, FR)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,502,791  
Nishimura ,   et al.  March 26, 1996  
Speech recognition by concatenating fenonic allophone hidden Markov
models in parallel among subwords 
Inventors:  Nishimura; Masafumi (Yokohama, JP); Okochi; Masaaki
(Yokohama, JP)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,418,951  
Damashek  May 23, 1995  
Method of retrieving documents that concern the same topic 
Inventors:  Damashek; Marc (Hampstead, MD)  
Assignee:  The United States of America as represented by the Director of National (Washington, DC)  

United States Patent  5,510,981  
Berger ,   et al.  April 23, 1996  
Language translation apparatus and method using context-based
translation models 
Inventors:  Berger; Adam L. (New York, NY); Brown; Peter F. (New York,
NY); Della Pietra; Stephen A. (Pearl River, NY); Della Pietra; Vincent J.
(Blauvelt, NY); Kehler; Andrew S. (Somerville, MA); Mercer; Robert L.
(Yorktown Heights, NY)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

United States Patent  5,448,474  
Zamora  September 5, 1995  
Method for isolation of Chinese words from connected Chinese text 
Inventors:  Zamora; Antonio (Bethesda, MD)  
Assignee:  International Business Machines Corporation (Armonk, NY)  

藤岡 和夫
FGALTS@...
kazuf@...
TS Networkのために http://homepage1.nifty.com/kazuf/