データとはなにか
2023.11.26
・最近は、IT関連の最新動向を探るため、Mediumを使うようになった。これまではStack Overflowが便利だったが、最近はちょっと元気がないので、乗り換えたわけだ。
・Mediumのデータ科学関係ブログで見つけたのが、ディリップ・マハリシュの「データとは何か」に関する解説だ。以下マハリシュによる解説を要約する。
*データの定義:データとは情報の集積である。それは数字にとどまらず画像、テキスト、ビデオ、メッセージなど多岐にわたる。
*データを分析することで、さまざまな装置(device)や技術をうまく活用することができる。しかもその作業は楽しいものだ!
*データ分析は4つに分けられる。
①叙述的分析(descriptive analaysis)
データを集約し、その特性をみることで、”データに何が起こっているか”を見出す。
②診断的分析(diagnostic analysis)
なぜデータがそうなったかの原因を突き止める。
③規範的分析(prescriptive analysis)
データを観察することで、どのような行動をとればよいかを判断する。
④予測的分析(predictive analysis)
現在のデータを読むことで、将来起こることを予測する。
・われわれはe予測を作成しているので、この中では、第4点が興味の中心となる。
・しかし広い目で見ると、マハリシュの4分類はなかなか意味深長だ。よくデータ分析という言葉が使われるが、そこでの対象は、ここでの議論よりずっと狭い。つまり数量データで、確率分布が既知である(もしくは想定可能な)ものが対象となっている。
・シカゴ大学の統計の泰斗サバッジ(1917-1971)は、そのような狭い分析枠組みをスモール・ワールドと呼んだ。しかし今あふれかえるデータは、マハリシュが定義するように、通常の統計分析の範囲を超えている。それは通常ラージ・ワールドと呼ばれているが、既存の学者の分析は、そこまで及んでいないようだ。たとえて言えば、医者が既存の治療法に目を奪われ、新しい病気を診断できないのと似ている。
(参考)
・Dhilip Maharish,"Data Analyst people should aware of these Analytical Techniques",Medium,Nov.20,2023
・L.J.Savage,The Foundations of Statistics,Dover Publications,N.Y.,1972