· 

データとはなにか

データとはなにか

 2023.11.26

・最近は、IT関連の最新動向を探るため、Mediumを使うようになった。これまではStack Overflowが便利だったが、最近はちょっと元気がないので、乗り換えたわけだ。

 

・Mediumのデータ科学関係ブログで見つけたのが、ディリップ・マハリシュの「データとは何か」に関する解説だ。以下マハリシュによる解説を要約する。

 

 *データの定義:データとは情報の集積である。それは数字にとどまらず画像、テキスト、ビデオ、メッセージなど多岐にわたる。

 

 *データを分析することで、さまざまな装置(device)や技術をうまく活用することができる。しかもその作業は楽しいものだ!

 

 *データ分析は4つに分けられる。

 

  ①叙述的分析(descriptive analaysis)

   データを集約し、その特性をみることで、”データに何が起こっているか”を見出す。

 

  ②診断的分析(diagnostic analysis)

   なぜデータがそうなったかの原因を突き止める。

    

    ③規範的分析(prescriptive analysis)

   データを観察することで、どのような行動をとればよいかを判断する。

 

    ④予測的分析(predictive analysis)

   現在のデータを読むことで、将来起こることを予測する。

 

・われわれはe予測を作成しているので、この中では、第4点が興味の中心となる。

 

・しかし広い目で見ると、マハリシュの4分類はなかなか意味深長だ。よくデータ分析という言葉が使われるが、そこでの対象は、ここでの議論よりずっと狭い。つまり数量データで、確率分布が既知である(もしくは想定可能な)ものが対象となっている。

 

・シカゴ大学の統計の泰斗サバッジ(1917-1971)は、そのような狭い分析枠組みをスモール・ワールドと呼んだ。しかし今あふれかえるデータは、マハリシュが定義するように、通常の統計分析の範囲を超えている。それは通常ラージ・ワールドと呼ばれているが、既存の学者の分析は、そこまで及んでいないようだ。たとえて言えば、医者が既存の治療法に目を奪われ、新しい病気を診断できないのと似ている。

 

(参考)

・Dhilip Maharish,"Data Analyst people should aware of these Analytical Techniques",Medium,Nov.20,2023

・L.J.Savage,The Foundations of Statistics,Dover Publications,N.Y.,1972