システム部の福原です。
最近はデータ分析事業に従事しています。
社でも新しい取り組みで、試行錯誤の毎日です。
また、個人としてもデータ分析の基礎を学びたいと思ったので、統計学の勉強をしています。
そこで、いろいろなところで紹介されている統計学入門を読んでみました。
https://www.amazon.co.jp/dp/4130420658
この書評を書いてみたいと思います。
はじめに、至極簡単に読んだ感想をお伝えしておくと、統計の基礎を一通り学びたい人におすすめできると思いました。
詳しい感想・読んだ印象は一番最後にまとめてあります(目次からも飛べます)。
それでは、内容紹介に入っていきますので、この本の内容が気になる方は読んでみて下さい。
大まかな内容紹介
多数の数字データの特徴や傾向を知りたい。
特にそれぞれのデータではなく、全体的な傾向が知りたいと考えたとします。
そのための数字データを扱う数学的理論を与えるのが数理統計学です。
本書では統計学の基本的な考え方を扱っています。
1章
まず、統計学の歴史的な流れと簡単な紹介がされています。
以下重要そうなキーワードをよりぬきで並べてみます。
- 記述統計学
- 統計的推論
- 国勢調査
- 量的データ・質的データ
- 時系列データ
- データ獲得プロセス。(自然科学なら実験 experiment 。人文・社会科学なら調査 survey 。)
2章
次に、多数のデータの要約のための図表や概念が紹介されています。
この章では概要の把握ができるようになります。
- ヒストグラムとその特徴(階級幅、階級数、グラフが右(左)に寄ること)
- 累積度数
- ローレンツ曲線(2つのデータの累積具合の偏りがわかる。)
- 測定尺度(データの分類分け)
- 名義・順序・間隔・比
- データの代表値(データの要約情報がわかる。)
- 平均・異常値・メディアン・モード・四分位点。
- 散らばりの尺度(同じく要約情報)
- レンジ・分散・標準偏差
3章
今までやっていた1次元データの扱いを広げて、2次元のデータの分析を扱います。
例えば多数の人々の身長と体重の関係や、年齢と血圧など別種のデータの関係を調べたい場合など。
この章では、そのための図表や概念が紹介されています。
- 回帰分析(例えばあるデータから別のあるデータを決めることはできるか。)
- 相関係数・共分散(相関の数値化とそれに関わる値)
- 散布図(それぞれのデータになるべく合致する線をあてはめること。)
- 分割表(質的データの度数を表で表す。)
- 直線のあてはめ(散布図で各点になるべく合う線を引く。)
- 決定係数(当てはめた直線がどのぐらい各点に合っているかを表す数)
4章
この章では、特定のことがどれぐらいの見込みで起きるか、すなわち確率の話がされています。
後の章で母集団から一部データを標本として抽出して推定や検定をします。
それがどの程度の確率で正しいのか、レア度にしてどうなのかを把握できるようにするための準備です。
- 確率の定義(実はいくつかある。)
- 事象(和・積・背反)
- 順列と組み合わせ。
- 加法定理 (確率変数の足し算)
- 条件付き確率( Aが起こった前提で、Bが起こる確率)
- ベイズの定理
5章
この章では確率変数の話がされています。
確率変数とはそれぞれの事象とそれが起こる確率が与えられている変数です。
事象を与えると確率が返る関数と呼んで良いかもしれません。
これに関係する概念をまとめます。
ちなみにここから8章まで、確率変数の話が続きます。
- 離散型確率・連続型確率
- 確率分布(ある事象には高確率、ある事象には低確率というような分布)
- 確率変数の期待値・分散(確率変数も多数の数字データなので期待値と分散が取れる。)
- 歪度・尖度(同じく確率変数の特徴)
- チェビシェフの不等式(平均と分散から分布を知らなくても確率の見当をつけることができる。)
6章
確率分布にはいろいろな種類があります。
この章では、そのそれぞれについて紹介しています。
例えばある確率やデータについて背景となる状況が分かれば、「この分布はパラメータがいくつのなになに分布に従う」ということが把握できます。
大量データの要約の理解が進められます。
- 離散型(超幾何分布、二項分布、ベルヌーイ分布、ポアソン分布、など)
- 連続型(正規分布、指数分布、ガンマ分布、など)
7章
3章で2次元のデータを分析したくなったように、多次元の確率分布を扱う話がされています。
確率分布を組み合わせて考えることについての話がされています。
- 2次元の確率分布
- 同時確率分布・周辺確率分布
- 共分散・相関係数
- 条件付き確率
- 独立な複数の確率分布の和(和をたくさん取って平均すると、平均の分散が小さくなる。)
8章
この章では、確率変数から確率(=標本)を多数取り出したときの振る舞いとして大数の法則と中心極限定理の話をしています。
標本を多数取り出せば、だんだん母集団のことが正しく見えてくるというある意味当たり前の話を定式化します。
- 標本数を増やすと平均は真の値に近づく (大数の法則)
- 標本数を増やすとその和は正規分布に近づく。もとの分布がどんな分布でも。(中心極限定理)
9章
母集団から抽出した標本を分析することで、母集団の統計値(平均とか分散とか)を推測するための準備と道具立てが紹介されています。
標本の統計値を定義し、それがどのような分布に従うかが語られます。
標本の値の分布でなく、統計値の分布の話です。
この章から統計的推測の話になります。
- 母集団の分布・母集団の分布を決めるパラメータ(母数。母集団の大きさではない。)
- 標本平均・標本分散
- 母数が既知か未知かでの場合分け(場合で推測の手段が違ってきます。)
- 標本和の標本分布
- 有限母集団修正(母集団が有限だったら少し推測が良くなる。)
10章
正規分布である母集団から標本を抽出した場合に言えることについて紹介されています。
典型的な分布の特徴を知ることで、応用が効くようになります。
- 母分散が既知である場合の標本平均の標本分布と標本分散の標本分布
- 母分散が未知である場合の標本平均の標本分布
- 2標本問題。標本平均の差の標本分布(これも分散がわかるかで場合分けがある。)
11章
母集団のパラメータ(母数)を標本から推定する具体的手法について紹介されています。
データ全部を見ることなく、一部抽出したデータから母集団の統計値を推測できます。
- 点推定 (一番もっともらしい値をずばり推定する。)
- 不偏性・一致性(推定の評価基準)
- 区間推定 (推定値が入るであろう区間を推定する。定められた手順で区間 [a,b] を多数の標本から求めると、そのうちx%が共通している区間がどこからどこまでか。)
12章
この章では、仮説検定の話がされています。
例えば母集団から標本を抽出したとして、この標本は母集団にあらかじめ立てた仮説通りのありふれたことなのか、あるいは他に理由があるほどに稀なことなのかを判定できます。
- 帰無仮説・対立仮説 (検定に先立って立てる仮説。)
- 棄却・採択
- 有意水準 (何パーセントのことを稀とみなすかの基準)
- 第1種・第2種過誤 (仮説の採択を間違えかたの2例について。)
- 片側検定・両側検定
- 適合度・独立性の検定
13章
この章では、回帰分析の話がされています。
2変数の定量的関係の構造を調べて、X から Yを算出する式を立てる方法が語られています。(一般的には、X1 ,X2 ,,, Xnから、Y を算出)
実際上は機械学習ライブラリがこの計算機能を提供するのでそちらを使うことが多いでしょう。
本書は初版が1991年なのですが、この時点で現在では人工知能の技術とみなされる話がされていたのは驚きでした。
- 従属変数(算出される方の変数 Y)
- 独立変数(算出する方の変数 X)
- 回帰方程式
- 回帰残差
- 決定係数
読んだ印象
統計の基礎を一通り学びたい人におすすめできると思います。
大量にあるデータから一部抽出して分析することで、データ全体の様子を把握することについて学べます。
今どき何かを学ぶならばウェブ上にいろいろな記事やテキストや動画があります。
しかし、全体的な話の流れを理解する意味では、書籍として一つにまとまった形のものも当然有益でしょう。
本書は数学の本ではありますが、実際的な例もたくさん入っています。
理論について数学的証明を全部につけているわけでもありません。
詳細にやり始めるともはや入門ではなくなるような物もあるので、とりあえず使える結果だけ掬っているところもあります。
また、基礎だけあって、10章までほぼほぼ準備的内容が続き、実際の分析手法が出てくるのが11章からです。
そこにいくまではもしかしたらしんどいかもしれません。
どの章を飛ばしてよいかは、「本書の使い方」として本文に記載があるので参考にすると良いでしょう。
内容レベルでいうと大学の講義で使われるテキストなので、それなりに数学に慣れておいたほうがよさそうです。
sin() cos() は出てきませんが Σや 積分はちらほら出てきます。
読了してこの本をちゃんと理解したとかご利益を十分受けたというわけではありませんが、評判通りの良書だと思いました。
*
GMOリサーチでは、WEBエンジニア(サーバーサイド、インフラ、フロントエンド)を随時募集しております。
興味のある方は、ぜひこちらからご応募ください!
詳しい募集要項など採用情報はこちら