統計

FP✕統計データ[家計調査/総務省]

この記事を読むのにかかる時間:26

 FPが様々な場面で根拠となる政府統計データを使って分析していきます。これまでは政府統計データであることだけを頼りに使用していましたが、調査の方法や統計学で使われる分析・検定方法などを勉強しながら駆使し、よりエビデンスベースドポリシーに準ずることができるよう分析能力向上の意味を込めて公開していきます。様々な統計データを分析する過程で、修正する可能性があります。データに対する考え方は様々ですので、ご意見をいただけると幸いです。

『家計調査』概要

出典 総務省
調査の期日・期間 毎年6月公表(年報)
分類 基幹統計調査
標本抽出方法 層化3段抽出法
リンク先 家計調査

家計調査 分析

2017年12月30日

収支項目分類一覧

収支項目分類 詳細

家計収支編 二人以上の世帯[2016年度/2017年5月16日公表]

 FPに相談する世帯は、単身世帯より二人以上の世帯が多いことから、二人以上の世帯を中心に分析していきます。もちろん、単身世帯も分析し、どのような違いがあるかを分析するのも有益でしょう。まずは二人以上の世帯から勤労者世帯のデータを見ていきたいと思います。
出典:家計収支編 二人以上の世帯[2016年度/2017年5月16日公表]

FPの現場から

 勤め先収入487,934円をはじめ、全体的に金額が大きい。二人以上の世帯でも、収入の高い世帯の影響を受けている可能性があり、模範としての家計収支構成、金額とは言えない。一般的に、収入が高ければ、年収に占める住宅ローンの割合や食費の割合など下がる傾向にあるため、割合を当てはめることもできない。より正確な分析をするためには、年収別の調査対象世帯数をヒストグラムでグラフ化する必要があると思われる。どちらかと言えば、時系列データとして使用した方がいい統計データだと考えられる。

年齢階級別世帯分布

 家計調査を分析する上で重要な年齢別の世帯数分布が見つかったので、グラフ化しました。

 上記のグラフは、調査で採用されている年齢階級別にグラフ化したもので、このままでも平均年齢が高そうなことがわかります。「万分比」は、全体の世帯数を1万世帯とした場合の世帯数となります。基本的に相談者の年齢は子育て世帯であるため、ここで勤労者世帯は65歳未満と仮定して65歳以上の数値を削除してグラフ化してみます。

 上記のグラフは、65歳以上の項目を削除し、累積相対度数とともにグラフ化したものです。60~64歳の世帯数が最も多く、40代(40~49歳)と合わせて全体の半分を占めています。34歳以下の相対度数は9.6%、35~39歳は11.6%となっており、30代は全体に占める割合が20%強です。このことから、一般的に収入の上昇がこれからである30代の影響は少なく、やはり年収の高い世帯に偏りがあると考えられます。ただもう少し分析する必要があり、都市別や年収別などのデータも確認しなければなりません。

年間収入五分位階級別

 年間収入五分位階級別の統計からローレンツ曲線を作成しました。階級別に相対度数と累積相対度数を求め、エクセルのグラフ(散布図)を利用し、グラフ化しています。

家計調査 単回帰分析

[公開]2018年3月29日

統計学の学習が進んだので、練習のため、家計調査の消費支出と可処分所得について単回帰分析を行う。

使用データ:「1946年以降の1世帯当たりの収入(勤労者世帯のみ)及び支出金額(農林漁家世帯を除く・全国1963年~2017年・二人以上の世帯のうち勤労者世帯)」

分析手順

(1) 政府統計データをダウンロード
(2) 「年度」「消費支出」「可処分所得」を抽出して、csvファイルに変換する。このとき、データ形式(数値)を修正すること。
※消費支出:Ce、可処分所得:Di
(3) テキストファイルも作成
(4) 最小二乗法を用いる。ケインズ型消費関数では可処分所得のみを説明変数とするのが基本
※データ読み込み:>data<-read.table("ファイル名.拡張子")
※lm(目的変数~説明変数,data)
(5) 説明変数の符号条件が相応しいか判断する ・・・分析前に判断すべきか?
※説明変数である可処分所得は+(プラス)で理論通りと考えてよい。


※用語の意味
Min:最小値、1Q:第一分位数、Median:中央値、3Q:第三分位数、Max:最大値
Cofficients:係数、Estimate:推定値、Std.Error:標準誤差、t value:t値、Pr(>|t|):t値のP値
Intercept:切片
Multiple R-squared:決定係数(寄与率)
Adjsted R-squared:自由度修正済み決定係数(説明変数が多い場合に使用する)
※決定係数は1に近いほどモデルの正確性が高いことを表わす。

分析結果(単回帰分析)

t値(t検定)

説明変数が0ではないことを判断する。\(y=α+βx\)の回帰直線において、回帰係数である\(β\)が0になってしまうと、\(x\)が説明変数の役割を果たさなくなるため、t検定を行う必要がある。ソフトを使えば自動的に算出される。

・t value:t値
・Pr(>|t|):t値のP値
・Signif. codes:有意水準を表し、0は有意水準\(α=0\)(0%)で★★★(3つ)、0.001は有意水準\(α=0.001\)(0.001%)で★★(2つ)以降同様。一般的に、有意水準\(α=0.01\)(1%)または\(α=0.05\)(5%)を使うことが多い。P値は小さいほど良い。

仮説検定において、\(H_0:β=0\)を帰無仮説、\(H_1:β≠0\)を対立仮説とし、t検定を行う。
・・・InterceptとDiともに★★★(3つ)なので、帰無仮説は棄却?

Intercept(切片)が 11,230、限界消費性向が 0.7149なので、
消費=11,230+0.7149×可処分所得
となる。可処分所得が増加すると、消費が可処分所得の71%増える。
※ケインズ型消費関数 C=c0+cl・YD
C:消費、YD:可処分所得、c0:基礎消費、cl:限界消費性向


分析結果(重回帰分析)

消費は可処分所得のみから影響を受けるわけではないため、物価や金利などの説明変数も加えて分析をする。

つづく・・・

家計調査 ローレンツ曲線とジニ係数

[公開]2018年4月6日

ローレンツ曲線とジニ係数の特徴を理解するために、実際に作成する。2017年の二人以上の勤労世帯で、五分位と十分位を使用する。

十分位

五分位

特徴

・ジニ係数は、45度線とローレンツ曲線の間の面積(三日月型の部分)を2倍する。具体的には、ローレンツ曲線の下部の面積(三角形と台形の面積の合計)を2倍したものを1から引くか0.5からローレンツ曲線の下部の面積を引いたものを2倍して求める。
・ジニ係数は、0から1の間を取り、1に近い(45度線から離れている、ジニ係数が大きい)ほど不平等と判断される。
・階級が細かいほど、同じデータを使用していてもジニ係数は大きくなる。
・二つのローレンツ曲線は交差することがある。

コメントを残す

メールアドレスが公開されることはありません。