とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学における基礎的な用語集vol.5~データとグラフ~

統計学における基礎的な用語集第5弾です。書いている私以外に、いったい誰に得があるのか分かりませんが、私は便利だと思っているので書いていきます。

棒グラフ

データの大きさを棒の高さで表したグラフ

円グラフ

データの大きさを全体んお延に対する割合で表したグラフ

円グラフ作成時の注意点

  • データの中に項目や割合を書く
    図だけ示されても訳が分かりません。

  • ドーナツグラフにして合計値を中央に書く
    ドーナツグラフとは真ん中がドーナツのように空いている円グラフのことです。「ドーナツグラフ」で検索すればより具体的なものが出てきます。

  • 項目が多すぎる場合は、「その他」などでまとめる
    どのくらいから「その他」に含めるかは主観になります。ただし、なぜそこを基準に「その他」にまとめたかは言えるようになっていた方がいいかと思います。

  • 項目の多い順に並べる 強調したいなどの特別な理由がない限りは、項目の多い順に並べた方が見やすいかと思います。

折れ線グラフ

グラフにプロットされたデータの点を時間の経過に従って直線で結んだもの。
時間の推移を表すデータ(時系列データ)に対して用いられることが多いです。

クロス集計表

 n個のデータを r個と c個のカテゴリーを持つ2つの属性に分類し、得られる度数分布表のこと。
下みたいなやつです。

 B_1  B_2
 A_1  f_{11}  f_{12}  f_{1.}
 A_2  f_{21}  f_{22}  f_{2.}
 f_{.1}  f_{.2}  n

帯グラフ

クロス集計表において、群ごとの割合を比較するためのもの。
積み上げ棒グラフを横向きにした形状で、横の幅がすべて 100\%で固定されています。

モザイク図

クロス集計表のカテゴリーごとに積み上げ 100\%の縦棒グラフを作成し、横幅を表の各カテゴリーの度数の合計に比例するようにしたグラフ。

コラム:三角グラフ

3つの要素で構成されるグラフにおいて、その構成比を表す際に用いられるグラフ。グラフにプロットされたデータの点から三角形の各辺と平行な直線を引いたとき、偏と交点の値が三要素の構成比を表す。

Pythonでグラフ作成

ここでは、棒グラフ、円グラフ、折れ線グラフの3つに絞って書いてみます。他のグラフの書き方や、ケース別にどのグラフを用いればよいのかなどは以下の記事にまとめられています。
ケース別データの可視化パターンとpythonによる実装 - Qiita

棒グラフ

import numpy as np
import matplotlib.pyplot as plt
 
left = np.array([1, 2, 3, 4, 5])
height = np.array([100, 200, 300, 400, 500])
plt.bar(left, height)

f:id:kurasher:20200521214518p:plain
棒グラフ

円グラフ

import numpy as np
import matplotlib.pyplot as plt

x = np.array([100, 200, 300, 400, 500])
label = ["Apple", "Banana", "Orange", "Grape", "Strawberry"]
plt.pie(x, labels=label, labeldistance=0.5)

f:id:kurasher:20200521214610p:plain
円グラフ

折れ線グラフ

import numpy as np
import matplotlib.pyplot as plt

left = np.array([1, 2, 3, 4, 5])
height = np.array([100, 300, 200, 500, 400])
plt.plot(left, height)

f:id:kurasher:20200521214634p:plain
折れ線グラフ

まとめ

今回はデータとグラフについてまとめました。以下の表に代表的なグラフの使い道をまとめてみましたので、参考にして下さい。

グラフの種類 どんな時に使うか
棒グラフ 量の大小関係を表現するとき
円グラフ 全体に対する構成比を表現するとき
折れ線グラフ 時系列による変化や推移を表現するとき
帯グラフ 割合の変化を表現するとき