AIとジップの法則
2025.01.25
・最近方々でAI利用が本格化している。プログラムもその典型だ。筆者はパイチャームを利用しているが、これは筆者のプログラムの癖をAIを利用して理解している。したがって各ステートメントを書く際、1文字か2文字打ち込むだけで適切なコード全体を示してくれる優れものだ。
・しかしネット検索に出てくるAIによる解説はいただけない。つまり説明にコクがないのだ。有名なブロガーが、自らの解説記事にAIを使ってみたが、読者の評判がいまいちなので人間作業に戻したのと同じことだ。
・最近になってその理由がなんとなくわかってきた。AIは自然語処理(NLP)にジップの法則を活用してる(参考文献[1])。ジップの法則というのは、言語の出現頻度がパレート・レビー分布に従うことを示したものだ。たとえば英語でいえば、the,a,is,of,andなどが最頻語だ。次いで中頻度語、珍しい言葉といった3分野にすべての言葉が分類される。これを自然語処理(NLP)がどう使うかというと、「次の単語の予測」、「テキスト圧縮」、ストップワード(あまり意味ある情報を提供しない高頻度語)の削除、テキスト類似分析などである。
・それはよくわかるのだが、問題はパレート・レビー分布に”闇”があることだ。それはこの分布の分散が無限大であることに基づく。したがってこの分布に従うデータに関しては、将来予測が無意味になる。この点を詳しく分析したのが、数学者マンデルブロだ(参考文献[2])。たとえば波の高さはこの分布に従う。したがって港の防波堤を設計するときに、過去のデータの平均や分散(有限データからの計算値)を利用して、高さを決めるのは意味のないことになる(分散無限大)。よく海釣りでお化け波にさらわれたというのはこの現象のことだ。
・最初の問題に戻るが、AIによる文章にコクがないのは、ジップの法則に従って文章展開をするからではないか。この場合その解は、分散無限大の闇にぶつかることになる。さてどうだろうか。
(参考)
[1]Subash Palvel,”Zip’sLaw:Why some Words Rule the World(案dWhat That Means for AI)”、Medium,Jan.4.2025
[2]ベノア・マンデルブロ、リチャード・L・ハドソン、「禁断の市場」、高安秀樹監訳、東洋経済、2008
[3]マーク・ブキャナン、「歴史は『べき乗則』で動く」、水谷敦訳、早川書房、2009