世界開発指標(World Development Indicators)[Link]
貧困と不平等(Poverty and Inequality)
所得または消費の分配(Distribution of income or
consumption)
GINI 指数 (世界銀行推計):SI.POV.GINI [Link]
下位 10% が占める所得シェア:SI.DST.FRST.10 [Link]
下位 20% が占める所得シェア:SI.DST.FRST.20 [Link]
2番目の 20% が占める収入シェア:SI.DST.02ND.20 [Link]
3番目の 20% が占める収入シェア :SI.DST.03RD.20 [Link]
4番目の 20% が占める収入シェア:SI.DST.04TH.20 [Link]
上位 20% が占める収入シェア:SI.DST.05TH.20 [Link]
上位 10% が占める収入シェア:SI.DST.10TH.10 [Link]
データの読み込み
df_gini <- WDI(indicator = c(gini = "SI.POV.GINI",
`0-10` = "SI.DST.FRST.10",
`0-20` = "SI.DST.FRST.20",
`20-40` = "SI.DST.02ND.20",
`40-60` = "SI.DST.03RD.20",
`60-80` = "SI.DST.04TH.20",
`80-100` = "SI.DST.05TH.20",
`90-100` = "SI.DST.10TH.10"))
保存と読み込み
何度もダウンロードしなくて良いように、保存したものを読み込みます。
write_csv(df_gini, "data/gini.csv")
df_gini <- read_csv("data/gini.csv")
Rows: 16758 Columns: 12── Column specification ─────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (9): year, gini, 0-10, 0-20, 20-40, 40-60, 60-80, 80-100, 90-100
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
gini が NA ではない値のもののみ表示します
df_gini |> drop_na(gini)
整えられた(tidy)データ
階級(levels)を変数として扱うために、このように変形しました。
どのくらい GINI のデータがあるか確かめる
df_gini |> drop_na(gini) |>
ggplot(aes(year)) + geom_bar()
実際には、次のような計算をして、棒グラフで表示しています。
group_by(year)
年ごとにグループとする
summarize(n = n())
それぞれのグループごとのデータを数えます。直前に、drop_na(gini)
としてあるので、gini
が NA
ではないデータの数を数えています。
棒グラフ:ggplot(aes(year, n)) + geom_col()
すなわち、次のものと同じです。
df_gini |> group_by(year) |> drop_na(gini) |>
summarize(n = n()) |>
ggplot(aes(year, n)) + geom_col()
実際のデータの個数
df_gini_long |>
group_by(year, levels) |> drop_na(value) |>
summarize(num = n()) |> distinct(year, num) |> arrange(desc(year))
`summarise()` has grouped output by 'year'. You can override using the `.groups` argument.
2022年にデータが存在する7つの国名を表示
df_gini_long |> filter(year == 2022) |> drop_na(value) |>
distinct(country, gini) |> arrange(gini)
7カ国のいくつかについて調べる
x = levels
とし、y = value
とするところで、Long にした効果が出ています。
COUNTRY_GINI <- "Bhutan"
YEAR_GINI <- 2022
df_gini_long |> filter(levels != "gini") |>
filter(country == COUNTRY_GINI, year == YEAR_GINI) |>
ggplot(aes(levels, value)) + geom_col()
COUNTRY_GINI <- "Bangladesh"
YEAR_GINI <- 2022
df_gini_long |> filter(levels != "gini") |>
filter(country == COUNTRY_GINI, year == YEAR_GINI) |>
ggplot(aes(levels, value)) + geom_col()
COUNTRY_GINI <- "Costa Rica"
YEAR_GINI <- 2022
df_gini_long |> filter(levels != "gini") |>
filter(country == COUNTRY_GINI, year == YEAR_GINI) |>
ggplot(aes(levels, value)) + geom_col()
練習1. Indonesia, El Salvador, Paraguay, Ecuador
のいずれかについてグラフを描いてみましょう。
並べて描いてみましょう
ジニ指数は小さいほうから、Bhutan, Bangladesh, Indonesia, El Salvador,
Paraguay, Equador, Costa Rica でした。
df_gini_long |> filter(year == 2022) |>
filter(levels != "gini") |> drop_na(value) |>
ggplot(aes(levels, value)) + geom_col() + facet_wrap(~country)
考えてみよう
最後下がっているのは正常?
どのように表示するのがよいのだろうか。
これらの図をみて、ジニ指数の大きさについてわかりますか。
このデータから、ジニ指数を計算するには、どうしたら良いのだろうか。
ジニ指数の計算
Derivation of the Lorenz curve and Gini coefficient for global income
in 2011 [リンク]
ジニ指数を計算するために変換
df_gini_calc <- df_gini |>
mutate(`0` = 0, `10` = `0-10`, `20` = `0-20`,
`30` = `0-20`+`20-40`/2, `40` = `0-20` + `20-40`,
`50` = `0-20` + `20-40` + `40-60`/2,
`60` = `0-20` + `20-40` + `40-60`,
`70` = `0-20` + `20-40` + `40-60` + `60-80`/2,
`80` = `0-20` + `20-40` + `40-60` + `60-80`,
`90` = `0-20` + `20-40` + `40-60` + `60-80` + `80-100`-`90-100`,
`100` = 100) |>
select(-c(`0-10`:`90-100`)) # 不必要な部分を消去
df_gini_calc %>% drop_na()
縦長の Long Table に変換
df_gini_calc_long <- df_gini_calc |> pivot_longer(`0`:`100`, names_to = "classes", values_to = "cumulative_share") |> mutate(classes = as.numeric(classes))
df_gini_calc_long %>% drop_na()
確認
df_gini_calc_long |> filter(country == "Bangladesh") |>
filter(year == 2022) |> ggplot() +
geom_line(aes(classes, cumulative_share)) +
geom_segment(aes(x = 0, y = 0, xend = 100, yend = 100), color = 'red') +
scale_x_continuous(breaks = seq(0,100,by=20)) +
scale_y_continuous(breaks = seq(0,100,by=20)) #+
#annotate("text", x = 10, y = 80, label = gini)
4カ国をジニ指数順にならべた棒グラフ
COUNTRIES_GINI <- c("Bhutan", "Bangladesh","Indonesia","Costa Rica")
YEAR_GINI <- 2022
df_gini_long |>
filter(country %in% COUNTRIES_GINI, year == YEAR_GINI) |>
ggplot(aes(levels, value, fill = factor(country, levels = COUNTRIES_GINI))) + geom_col(position = "dodge") + labs(fill = "")
練習2. 7カ国すべてについて、80-100 と、90-100
の部分だけ、表示できないでしょうか。(難:答えは一番下)
2000年のジニ指数と90%以上の割合の相関
df_gini |>
filter(year == 2000) |> drop_na(gini) |>
ggplot(aes(gini, `90-100`)) + geom_point() +
geom_smooth(formula = 'y ~ x', method = "lm")
練習3.
2000年(または他の年の)ジニ指数と80%以上の割合の相関
参考文献
「みんなのデータサイエンス - Data Science for All」[はじめてのデータサイエンス]
- 導入として、GDP(国内総生産)のデータを使って説明しています。
Posit Recipes(旧 Posit Primers): The Basics
対話型の演習サイトの最初 [Link]
Posit Cheat Sheet. 早見表です。印刷して使うために、PDF
も提供しています。[Site
Link]
DataCamp Cheat Sheet: Tidyverse for Biginners.
データサイエンスの教育をしている会社の早見表の一つです。基本が簡単にまとまっています。[Link]
練習2の答え
SEVEN_COUNTRIES <- c("Bhutan", "Bangladesh","Indonesia","El Salvador", "Paraguay", "Equador", "Costa Rica")
YEAR_GINI <- 2022
df_gini_long |>
filter(country %in% SEVEN_COUNTRIES, year == YEAR_GINI) |>
filter(levels %in% c('80-100','90-100')) |>
ggplot(aes(levels, value, fill = factor(country, levels = SEVEN_COUNTRIES))) + geom_col(position = "dodge", col = "black", linewidth = 0.2) + labs(fill = "")
