1. EducationMathStatisticsStatisticsおよびHistograms
オンラインプラクティスのダミーのための統計ワークブック、第2版

デボラ・J・ラムジー

ヒストグラムは、定量データ用に作成された棒グラフです。データは数値であるため、間にギャップを残さずにグループに分割します(したがって、バーは接続されます)。 Y軸には、各グループに分類されるデータの頻度(カウント)または相対頻度(パーセント)が表示されます。

ヒストグラムを作成する方法

ヒストグラムを作成するには、最初にデータを適切な長さの適切な数のグループに分割します。各グループに分類されるデータセット内の値の数を集計します(つまり、度数分布表を作成します)。データポイントが境界にある場合は、どのグループに入れるかを決定し、一貫性を保つようにします(常に2つのうち高い方に置くか、常に2つの低い方に置きます)。グループとその頻度—頻度ヒストグラムを使用して棒グラフを作成します。

合計サンプルサイズで頻度を除算すると、各グループに分類される割合が得られます。グループとその割合を示す表は、相対頻度表です。対応するヒストグラムは、相対頻度ヒストグラムです。

Minitabまたは別のソフトウェアパッケージを使用してヒストグラムを作成するか、手動でヒストグラムを作成できます。いずれにせよ、間隔の幅(コンピューターパッケージではビンと呼ばれます)の選択は、図に見られるものとは異なる場合があります。そして、あなたが異常に少ないまたは高い数のバーを使用せず、バーの幅が等しい限り、彼らはそうします。

間隔ごとに異なる開始点/終了点を選択することもできますが、それでも問題ありません。インストラクターがあなたのやろうとしていることを確認できるように、すべてを明確にラベル付けしてください。そして、最終的に境界線上にある値について一貫性を保ちます。常に下位グループに配置するか、常に上位グループに配置します。ただし、選択肢がある場合は、Minitabなどのコンピューターパッケージを使用してヒストグラムを作成します。これにより、タスクがはるかに簡単になります。

2種類のヒストグラムを作成する例については、以下を参照してください。

30人の生徒のクラスのテストスコアを次の表に示します。

頻度ヒストグラムと相対頻度ヒストグラムは同じように見えます。 Y軸の異なるスケールを使用して行われただけです。

スコアデータの頻度ヒストグラムを次の図に示します。

頻度ヒストグラム

各周波数を取得し、30(合計サンプルサイズ)で割ることで相対周波数を見つけます。これら3つのグループの相対頻度は8/30 = 0.27または27%です。 16/30 = 0.53または53%;および6/30 = 0.20または20%、それぞれ。

相対頻度に基づくヒストグラムは、(同じデータの)ヒストグラムと同じに見えます。唯一の違いは、Y軸のラベルです。

ヒストグラムの意味を理解する

ヒストグラムは、量的(数値)データの3つの主な特徴(形状、中心、広がり)に関する一般的な情報を提供します。

ヒストグラムの形状は、その一般的なパターンによって示されます。次のような多くのパターンが可能です。いくつかは一般的です。

  • 鐘型:鐘のように見えます。中央にある大きな塊と尾がほぼ同じ割合で両側に下がります。 (図a) 右に歪んだ:データの大部分が左にずれており、いくつかの大きな観測値が右にずれています。 (図b) 左に歪んだ:データの大部分が右にずれており、いくつかの小さな観測値が左にずれています。 (図c) 均一:すべてのバーの高さは同じです。 (図d) バイモーダル:2つのピーク、または(図e) U字型:2つのピークがローエンドとハイエンドにあり、中央のデータが少ないバイモーダル。 (図4-1(図f)を参照) 対称:中央で分割すると、両側で同じように見えます。ベル形、均一、およびU形のヒストグラムはすべて対称データの例です。 (図a、d、f)
一般的なヒストグラムパターン

ヒストグラムの中心は2つの方法で表示できます。 1つは、データの実際の値を考慮して、グラフのバランスを取るx軸上のポイントです。このポイントは平均と呼ばれ、バランスポイントを見つけることで見つけることができます(データがシーソーにあると想像してください)。中央を表示するもう1つの方法は、データの50%が両側にあるヒストグラムの線を見つけることです。この線は中央値と呼ばれ、データセットの物理的な中間を表します。ヒストグラムを半分にカットして、エリアの半分が線の両側にあることを想像してください。

スプレッドとは、相互に関連するデータまたは中心点に関連するデータ間の距離を指します。スプレッドを測定するおおまかな方法​​の1つは、範囲、または最大値と最小値の間の距離を見つけることです。別の方法は、中央からの平均距離を探すことです。これは、標準偏差とも呼ばれます。標準偏差は、ヒストグラムを見るだけではわかりにくいですが、範囲を6で割ると大まかなアイデアを得ることができます。中央に近いバーの高さが非常に高いと思われる場合は、値は平均に近く、標準偏差が小さいことを示しています。バーが短く見える場合は、標準偏差が大きくなる可能性があります。

実際の要約統計を行って定量データを計算できますが、ヒストグラムを使用すると、これらのマイルストーンを見つけるための一般的な方向性を知ることができます。また、円グラフや棒グラフのように、すべてのヒストグラムが公平で完全で正確ではありません。あなたはそれらを評価するために何を探すべきかを知らなければなりません。

ヒストグラムで歪んだデータを補正する方法

どの統計が最も適切で、いつ使用されるかという観点から、歪んだデータセットについて特別な考慮を行う必要があります。また、間違った統計を使用すると誤解を招く答えが得られることにも注意する必要があります。

平均と中央値を関連付けて、データの形状について学習できます。平均と中央値が等しくなると、ほぼ対称な形状が作成されます

平均はデータの外れ値の影響を受けますが、中央値は影響を受けません。平均値と中央値が互いに近い場合、データは歪んでおらず、どちらかの側に外れ値が含まれていない可能性があります。つまり、データは中央の両側でほぼ同じに見えます。これは対称データの定義です(前の図のa、d、またはfを参照)。

平均値と中央値が近いという事実は、データがほぼ対称であることを示しているため、さまざまなタイプのテスト問題で使用できます。データが対称かどうかを誰かに尋ねられ、ヒストグラムはないが、平均値と中央値はあるとします。平均と中央値の2つの値を比較し、それらが近い場合、データは対称です。そうでない場合、データは対称ではありません。

誤解を招くヒストグラムを見つける方法

棒グラフでは不可能な方法で、読者はヒストグラムに惑わされる可能性があります。ヒストグラムはカテゴリデータではなく数値データを扱うため、数値データをグループに分けて水平軸に表示する方法を決定する必要があることに注意してください。また、これらのグループ化をどのように決定するかによって、グラフが非常に異なって見えることがあります。スケールを使用して読者を誤解させるヒストグラムに注意してください。棒グラフと同様に、ヒストグラムの縦軸に小さいスケールを使用して違いを誇張し、大きいスケールを使用して違いを軽視できます。

こちらもご覧ください

DevOpsに最適なクラウドサービスプロバイダー、機能、およびツールを選択するDevOpsが重要な理由:DevOpsが組織にメリットをもたらす11の方法クラウドツールをさらに活用する:DevOpsを使用してエンジニアリングパフォーマンスを向上させるためにCloudTipsでDevOpsを自動化するラインからサーキットまでDevOpsチームを構築するためのインタビューテクニック:適切な技術スキルを獲得継続的な統合と継続的デリバリー:CI / CDの実装とメリットトップ10 DevOpsの落とし穴:ソフトウェアプロジェクトが失敗する理由DevOpsとは?DevOps for Dumies Cheat SheetBase Transfer Price on完全なコストInstagramで連絡先を見つける方法DevOpsのベストクラウドサービスプロバイダー、機能、およびツールの選択あなたに最適なジューサーの選び方:購入ガイドInstagramハッシュタグを活用するCISOとは何ですか?iPhone 11およびiOS 13の機能を発見するiPhoneでポッドキャストを購読する方法iPhoneのシニア向けアプリiPhone高齢者向けiPhoneチートシートiPhoneで映画の予告編を作成する方法Amazon Fire TVスティックはどのように機能しますか? iPhone Android電話でインターネット接続をつなぐ方法Android電話で電話会議を行う方法iPhoneで黒を白に切り替える方法iPhoneをロックおよびロック解除する方法