@wikiメニュー編集表示ツールヘルプブックマーク登録RSS登録
このウィキに参加ログイン
新規ページ作成
すでにあるページをコピーして新規ページを作成 スレッドフロート型掲示板から引用して新規ページ作成(α版) ブログの内容から引用して新規ページ作成(α版) ファイルをアップロードして新規ページ作成(α版) 他のホームページから引用して新規ページ作成(α版)
[PR] 無料ホームページ @PAGES [PR] オークション@pedia [PR] 2ch型無料レンタル掲示板 @chs
@wikiで新規wikiを作成
このページを編集 このページを編集(メニュー非表示編集;α) このページをコピーして新規ページを作成 このページのページ名を変更 このページの編集モードを変更 このページの閲覧/編集権限の変更
このページにファイルをアップロード
このウィキにファイルをアップロード(FTP機能/管理者のみ利用可)
メニューを編集(メニュー部分は非表示で編集)
このページの最新版変更点 このページの編集履歴(バックアップ) このページへのリンク元 このページへのトラックバック
このページをPDFで表示(α版)
関連ページ(α版) 関連ホットワード(α版)
このwikiのページ一覧 編集履歴(バックアップ)のあるページ一覧 このwikiのタグ一覧 このwikiの更新情報RSSこのwikiの更新情報RSS このwikiの新着ページRSSこのwikiの新着ページRSS
このwiki内を検索 @wikiパーツ▶  @wiki便利ツール▶  このwikiの管理者に連絡
@wiki助け合いコミュニティ @wiki助け合い掲示板
wiki(ウィキ)って何?
初心者ガイド
ご利用ガイド 良くある質問 プラグイン一覧 編集モードの違いについて 不具合や障害を見つけたら 管理・設定マニュアル
はてなブックマークする FC2ブックマークに追加 Livedoor クリップに追加 Yahoo!ブックマークに登録 del.icio.usに追加
はてなRSSに追加 livedoor ReaderにRSSフィードを登録 Yahoo!にRSSフィードを登録 BloglinesにRSSフィードを登録 NewsGator OnlineにRSSフィードを登録 iGoogleにRSSを追加
@wikiパーツ:あなたのサイトにWikiデータを簡単表示!
最近更新したページの一覧を表示する 最近作成したページの一覧を表示する このwiki内を検索するフォームを表示する このwikiのタグクラウドを表示する 自動リンク辞書を利用する
@wiki便利ツール:トップページ
まとめサイト作成支援ツール RSSかんたん作成 興味キーワードをチェック!!(RSSナビ) いろんなblogのRSSかんたん作成ページ アマゾン商品検索(簡単アフィリエイト) wikiに株式情報(日本)を表示 wikiに株式情報(中国)を表示 かんたんHTML直接入力 Q&Aサイトかんたん連携作成 wikiに為替情報を表示 はてなアンテナと簡単連携

基礎統計1

目次

1.1次元データの要約(4/9)

次元とは

:1次元データ

:2次元データ

要するに考えているデータの組


統計の二つの方法  

図や表(度数分布、ヒストグラム)
数値解析


(1)度数分布表とヒストグラム

詳細はプリント

ポイント:

単峰か? No→複数の現象が影響しているので、適当に標本を限定して単純化する。(例、寿命と年齢の関係における男女)

↓Yes

中心(モード)

歪み:右に歪んでいる(右に裾野が広がる)

はずれ値の有無

(2)データ分布の中心の指標

平均 
メディアン 
データを大きさの順に並べてとおく。

すなわち、メディアンの値を境にヒストグラムの左右の面積(標本の数)は等しくなる。

モード
最も度数が高い階級値(最頻値)

最小2乗値

全てのデータを数直線上に置き、すべての点からの距離の和が最少となる値。

定理

与えられたデータに対して、関数を次の様に定義すれば、

これはにおいて最小となる。

証明

とおく。であることに留意する。


が得られ、で最小となることがわかる。

各中心の関係

右に歪んだ分布では

左右対称の分布では

(3)データのちらばりの指標

分散

この値は数値解析には大きすぎるためデータ解析には用いられないが、数学的な考察をする際は頻繁に用いられる。 この式の意味は、平均からの各標本の距離の平均値である。 また、最小2乗値により、平均からの距離を取ることには妥当性がある。

標準偏差

この値は主に、データ解析に用いる。特に後に述べる標準化という操作と組み合わせて用いる。 さらに重要な性質

の範囲に95%のデータが入っている。

また、で表わされる区間のことをkシグマ区間という。

参考に最下部の添付ファイル 1.pngを参照せよ。

(4)標準化

標準化とは、各データを適当に一次変換をほどこすことで、平均を0、標準偏差を1にし、異なるデータ群でも、容易に比較ができるようにすることである。すなわち、例えば、ヒトの身長のデータは平均はせいぜい170程度、標準偏差も2桁以下となるが、日本人の平均預金のデータではそれよりはるかに大きな平均、標準偏差になる。ところが、このままでは標準偏差を見てもいったいどれほどデータがばらついているのかわからない。そこで標準化を施す。数学的な記述は

あるいは

このことは、 定理

において
1.
2.

によって確かめられる。

さらに、それぞれの証明は、

証明

1.
2.


2.2次元データの要約(4/16)

(1)散布図

ある2次元データについて、たとえば、横にx軸、縦にy軸を取って、各データをプロットしたものを散布図という。

(2)相関係数

散布図を見れば、xとyの相関は主観的には容易に想像が着く。しかし、実際どれほどの相関があるのかを客観的に調べるために次のような指標を用いる。

共分散

この式の意味は、x、yの平均からの偏差積の平均値である。読み方としては、

のとき正の相関
のとき負の相関

となる。ただし、単位が元のデータにそろっていないし、xとyの因果関係までは説明していないことに注意。

相関係数

この式の意味は、xの標準化とyの標準化の積の平均値である。読み方としては、

のとき正の相関
のとき無相関
のとき負の相関

となる。これは無次元量で、値が常にの間にあるため、異なるデータ間での比較も可能である。 また、となるとき、すべてのデータが同一直線状にある。これはコーシー・シュワルツの不等式で導ける。

(3)回帰直線

これは、2次元データが実際に、どういう相関関係にあるのかを調べるためのものである。簡単にいえば、すなわち、すべてのデータから近いような直線(回帰直線)を探すのである。 すべてのデータyは、

によって表せる。このときdを誤差項という。また、a,bは回帰係数と言う。

a,bの求め方
回帰直線の定義により、誤差項が最も小さくなるようにa,bを設定すればよい。

すなわち、が最小となればよい。

上の式を変形して、

なので、

が最小となればよい。

これを展開すると、

なので、

これが最小となるのは、

のときで、つまり、

となる。

3.確率=

定義などの基礎的なことはめんどくさいので割愛する。事象Aが起こる確率をなどと表すこととする。全事象をと表すこととする。

(1)条件付確率

事象Bが起きたうえでの事象Aが起きる確率をと表す。

乗法公式

全確率の公式

を互いに排反とする。また、とする。

(2)ベイズの定理

4.確率変数

確率変数そのものの説明はめんどいのでしない。たぶんみんなわかるでしょ?ただし、確率変数の定義には、離散型と連続型があることに注意。

(1)期待値

定義:確率変数Xの重み付き平均、つまり重心

定理

で最小となる。

証明

となり、で最小値

(2)分散

定義:各Xからの距離の和=偏差和が最も小さくなる点

(3)標準偏差

|新しいページ|検索|ページ一覧|RSS|@ウィキご利用ガイド | 管理者にお問合せ
|ログイン|
添付ファイル