大学の確率入門〜確率分布、確率変数、確率密度関数〜

大学で習う確率では関数で表して、微積も使います。

高校での確率の知識を持って大学の授業を受けた時にカルチャーショックのようなものを感じたので、そのような人が少なくなることと、確率をもっと詳しく学んでみたい人の入り口になることを願ってこの記事を書きたいと思います。

サイコロの確率について考えます。サイコロは１〜６の値をとることができます。その場合のそれぞれの確率をP(1), P(2), ... , P(6)といったように表します。

この0~6を一般的に確率変数といいます。確率変数とは起こりうる場合を割分けている値です。

確率分布とは確率変数に応じてその値をとる確率、あるいはそれをひとまとめにしたもののことです。

正直なところ、確率分布に関しては定義が少し曖昧です。大学で使っている教科書では確率、日本で買った専門書ではその確率をひとまとめにしたもの、wikipediaでは興味深いことに両方の記述があります。

もし詳しい方がいらっしゃれば下に記述していただけると幸いです。

ここでは一旦、確率分布は確率変数に応じてその値をとる確率として話を進めます。

確率分布P(X)は下の図のようになります。

	1	2	3	4	5	6
確率変数	1	2	3	4	5	6
P(X)	1/6	1/6	1/6	1/6	1/6	1/6

先ほどの場合は１、２、３と確率変数が細切れになっていたのに対して、正規分布は確率変数が連続しています。

このような場合の実際の確率は積分を使って定義されます。

　　　　　　P(a<=X<=b) = ∫[a,b] |p(x)|dx

この積分で定義されているところがみそで、もしX=0の確率を求めようとしても、a=b=0となり、確率は０になってしまいます。

離散のケースではそのようなことを考えなくてよいので、ここが連続の場合少し特殊です。

この場合のp(x)を確率密度関数と呼びます。