2024年2月6日

準備

  1. (自分のPCまたは教室のPCに)ログイン

  2. ウェッブ・ブラウザー(Google Chrome など)を起動

  3. (別のタブまたは ウィンドウで)PositCloud にログイン[Posit.cloud]

    • アカウントのない人はサイン・アップ [共有プロジェクト] から、Save a Permanent Copy)

    • RStudio を自分のコンピュータにインストールしている人は起動

  4. リンクの右上の Raw ボタンの右の Copy a raw file からコピーして演習用 R Markdown ファイルを作成(あとで再度解説します)[Rmd]

ファイル

ファイルを作成するときの注意

  1. Posit Cloud のときは、まず、Login し、intro2rj のプロジェクトに入り、 ファイルから、ges001 のフォルダーを選択して、移動します。この中に、data フォルダが作成されていることを確認し、このges001 に、新しく作成したファイルを保存します。新しく作成したファイルの入っているフォルダーの中に、data フォルダがあることが大切です。そこに、データを書き込みます。

  2. RStudio の場合には、まずは、あたらしい Project を作成します。File > New Project から作成します。すでに、作成してある場合は、それを、Open Project や、Recent Project から開きます。その中に、新しいファイルを作成します。作成したフォルダーに、data フォルダがあることを確認してください。新しく作成したファイルの入っているフォルダーの中に、data フォルダがあることが大切です。そこに、データを書き込みます。

ファイルを提出するときの注意

RStudio の場合には、自分の PC に作成したファイルがありますから、問題ないと思いますが、Posit Cloud で作成した場合には、提出したいファイルの左にあるチェックボックスをチェックします。Files の 右端にある、ギアマークの Export を押すと、ダウンロードできます。それを提出してください。末尾が、nb.html となっているものを提出していただくのがよいですが、よくわからないときは、nb.html ファイルと、Rmd ファイルと両方提出してください、

課題1について

第7週

02/01(TH)  気候変動に対する対策

       気候変動と貧困の連鎖

第7週は、南部アフリカや南アジアなど気候変動から大きな影響を受けている国々の現状を取り上げます。

02/06 (TU) Rでデータサイエンス7:都市部と農村部の生活状況の格差  [Main]・[授業]

Urban and rural development

Access to electricity, urban (% of urban population):EG.ELC.ACCS.UR.ZS [Link]

Access to electricity, rural (% of rural population):EG.ELC.ACCS.RU.ZS [Link]

People using at least basic drinking water services, urban (% of urban population):SH.H2O.BASW.UR.ZS [Link]

People using at least basic sanitation services, rural (% of rural population):SH.STA.BASS.RU.ZS [Link]

People using at least basic sanitation services, urban (% of urban population):SH.STA.BASS.UR.ZS [Link]

People using at least basic drinking water services, rural (% of rural population):SH.H2O.BASW.RU.ZS [Link]

探索的データ分析(EDA)ワークフロー

  • 表題 Title
  • 概要 Abstract
  • データ情報:データ名、データコード、変数名、データ概要
  • データの取得 - ダウンロードして保存しておく
    • 準備:library(tidyverse); library(WDI)
    • df_w6eda <- WDI(indicator = c(co2pcap = "EN.ATM.CO2E.PC", forest = "AG.LND.FRST.ZS"), extra = TRUE)
    • 二つ以上の指標、それぞれに変数名 co2pcap, forest
    • 追加情報:extra = TRUE; region 地域情報, income 収入レベル
    • データの確認:データが十分あるか、国名リスト、地域名リスト
  • 分析する国のリスト:南部アフリカ関税同盟、国や地域を選択

探索的データ分析(Exploratory Data Analysis)ワークフロー(続き)

  • 分析・視覚化
    • 各年毎のデータの数の棒グラフ
    • 経年変化
      • 日本(身近な馴染みのあるデータを確認)
      • 南部アフリカ関税同盟、選択した国・地域
    • 分布
      • ヒストグラム(年を指定した度数分布)
      • 値が大きい10カ国とその値の棒グラフ
      • 値が小さい10カ国とその値の棒グラフ
    • 相関
      • 散布図(scatter plot)x-軸と、y-軸に、それぞれの変数をとる
      • 相関係数
  • 各項目に、気づいたこと、疑問などを記録

演習 2月6日(火)

変形(transformation)

  • 行の選択filter(country %in% c("Japan", "China"), distinct(country), drop_na(value)

  • 列の選択select(country, iso2c, year, var1, var2, region)

  • 横並びの変数を縦並びに:name 列と、value 列を作り、var_1, var_2, … , var_n を name 列に、対応する値を value 列に

    • pivot_longer(cols = c(var_1, var_2, ... , var_n))

    • pivot_longer(cols = c(female_unemploy, male_unemploy))

    • pivot_longer(cols = c(electricity_urban, electricity_rural))

    • pivot_longer(cols = electricity_urban:sanitation_rural))

  • 活用:pivot_longer(cols = c(var1, var2))|> ggplot(aes(year, value, col = name) + geom_line()

箱ひげ図(boxplot)

カテゴリ変数(country, region, income など)毎の分布を描く

  • ggplot(aes(categorical_var, numerical_var)) + geom_boxplot()

  • ggplot(aes(region, electricity_urban)) + geom_boxplot()

  • ggplot(aes(income, electricity_rural)) + geom_boxplot()

  • pivot_longer(cols = c(var1, var2)) |> ggplot(aes(name, value)) + geom_boxplot()

  • year は、整数なので数値変数(numerical variable)。これを カテゴリー変数として扱うためには、factor(year) を使う。x 軸のラベルなどはあとから修正が必要。

    • filter(year %in% c(1960,1990,2020))|> ggplot(aes(factor(year), var)) + geom_boxplot()

内容

データ情報

  • Access to electricity, urban (% of urban population):EG.ELC.ACCS.UR.ZS [Link]

  • Access to electricity, rural (% of rural population):EG.ELC.ACCS.RU.ZS [Link]

  • People using at least basic drinking water services, urban (% of urban population):SH.H2O.BASW.UR.ZS [Link]

  • People using at least basic drinking water services, rural (% of rural population):SH.H2O.BASW.RU.ZS [Link]

  • People using at least basic sanitation services, urban (% of urban population):SH.STA.BASS.UR.ZS [Link]

  • People using at least basic sanitation services, rural (% of rural population):SH.STA.BASS.RU.ZS [Link]

データの取得

準備

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(WDI)

df_service <- WDI(
  indicator = c(electricity_urban = "EG.ELC.ACCS.UR.ZS",
                electricity_rural = "EG.ELC.ACCS.RU.ZS",
                water_urban = "SH.H2O.BASW.UR.ZS",
                water_rural = "SH.H2O.BASW.RU.ZS",
                sanitation_urban = "SH.STA.BASS.UR.ZS",
                sanitation_rural = "SH.STA.BASS.RU.ZS"
                ), extra = TRUE)
write_csv(df_service, "data/service.csv")
df_service <- read_csv("data/service.csv")
## Rows: 16758 Columns: 18
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (7): country, iso2c, iso3c, region, capital, income, lending
## dbl  (9): year, electricity_urban, electricity_rural, water_urban, water_rur...
## lgl  (1): status
## date (1): lastupdated
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_service

データの変数(列)の確認

str(df_service)
## spc_tbl_ [16,758 × 18] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ country          : chr [1:16758] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ iso2c            : chr [1:16758] "AF" "AF" "AF" "AF" ...
##  $ iso3c            : chr [1:16758] "AFG" "AFG" "AFG" "AFG" ...
##  $ year             : num [1:16758] 2014 1971 2006 2013 1995 ...
##  $ status           : logi [1:16758] NA NA NA NA NA NA ...
##  $ lastupdated      : Date[1:16758], format: "2023-12-18" "2023-12-18" ...
##  $ electricity_urban: num [1:16758] 98.7 NA 81.6 92.2 NA ...
##  $ electricity_rural: num [1:16758] 86.5 NA 19.3 60.2 NA ...
##  $ water_urban      : num [1:16758] 82.1 NA 64.3 79.9 NA ...
##  $ water_rural      : num [1:16758] 52.2 NA 30.9 49.4 NA ...
##  $ sanitation_urban : num [1:16758] 54.4 NA 38.5 52.3 NA ...
##  $ sanitation_rural : num [1:16758] 38.3 NA 25.9 36.8 NA ...
##  $ region           : chr [1:16758] "South Asia" "South Asia" "South Asia" "South Asia" ...
##  $ capital          : chr [1:16758] "Kabul" "Kabul" "Kabul" "Kabul" ...
##  $ longitude        : num [1:16758] 69.2 69.2 69.2 69.2 69.2 ...
##  $ latitude         : num [1:16758] 34.5 34.5 34.5 34.5 34.5 ...
##  $ income           : chr [1:16758] "Low income" "Low income" "Low income" "Low income" ...
##  $ lending          : chr [1:16758] "IDA" "IDA" "IDA" "IDA" ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   country = col_character(),
##   ..   iso2c = col_character(),
##   ..   iso3c = col_character(),
##   ..   year = col_double(),
##   ..   status = col_logical(),
##   ..   lastupdated = col_date(format = ""),
##   ..   electricity_urban = col_double(),
##   ..   electricity_rural = col_double(),
##   ..   water_urban = col_double(),
##   ..   water_rural = col_double(),
##   ..   sanitation_urban = col_double(),
##   ..   sanitation_rural = col_double(),
##   ..   region = col_character(),
##   ..   capital = col_character(),
##   ..   longitude = col_double(),
##   ..   latitude = col_double(),
##   ..   income = col_character(),
##   ..   lending = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>

変形

変数の選択(selecting)

df_serv <- df_service |> 
  select(country, iso2c, year, electricity_urban:sanitation_rural, region, income)
df_serv

縦長の表(Long Table)に変換

electricity_urban の列から sanitation_rural の列までを、変数を name に、値を value に入れて、縦に並べます。

df_serv_long <- df_serv |> 
  pivot_longer(electricity_urban:sanitation_rural)
df_serv_long

各年毎のデータの数の確認

df_serv_long |> drop_na(value) |> 
  ggplot(aes(year)) + geom_bar()

各指標ごとに積み上げ棒グラフにしてみます

fillcol に変えるとどうなるでしょうか。

df_serv_long |> drop_na(value) |> 
  ggplot(aes(year, fill = name)) + geom_bar()

気づいたこと、疑問

国と地域

地域の iso2c コード

country には、国と地域両方が入っています。地域の iso2c は以下のものです。

REGION <- c("1A", "1W", "4E", "6F", "6N", "6X", "7E", "8S", "A4", "A5", 
"A9", "B1", "B2", "B3", "B4", "B6", "B7", "B8", "C4", "C5", "C6", 
"C7", "C8", "C9", "D2", "D3", "D4", "D5", "D6", "D7", "EU", "F1", 
"F6", "M1", "M2", "N6", "OE", "R6", "S1", "S2", "S3", "S4", "T2", 
"T3", "T4", "T5", "T6", "T7", "V1", "V2", "V3", "V4", "XC", "XD", 
"XE", "XF", "XG", "XH", "XI", "XJ", "XL", "XM", "XN", "XO", "XP", 
"XQ", "XT", "XU", "XY", "Z4", "Z7", "ZB", "ZF", "ZG", "ZH", "ZI", 
"ZJ", "ZQ", "ZT")

地域のリストを表示

df_serv |> filter(iso2c %in% REGION) |> distinct(country, iso2c)

国名とその地域・所得レベルを表示

df_serv |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c,region,income)

国や地域の選択

ASEAN <- c("BN", "KH", "ID", "LA", "MY", "MM", "PH", "SG", "VN")
BRICS <- c("Brazil", "Russian Federation", "India", "China", "South Africa")
SACU <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

変数同士の相関関係: NA ではないところのみ選択

df_serv |> filter(!(iso2c %in% REGION)) |> # 地域以外(国のみ選択)
  drop_na(electricity_urban:sanitation_rural) |> 
  select(electricity_urban:sanitation_rural) |> cor()
##                   electricity_urban electricity_rural water_urban water_rural
## electricity_urban         1.0000000         0.8314102   0.7628490   0.7248691
## electricity_rural         0.8314102         1.0000000   0.7927840   0.8637606
## water_urban               0.7628490         0.7927840   1.0000000   0.8391167
## water_rural               0.7248691         0.8637606   0.8391167   1.0000000
## sanitation_urban          0.7930134         0.8937821   0.7681716   0.8306062
## sanitation_rural          0.7496970         0.8945593   0.7598583   0.8644760
##                   sanitation_urban sanitation_rural
## electricity_urban        0.7930134        0.7496970
## electricity_rural        0.8937821        0.8945593
## water_urban              0.7681716        0.7598583
## water_rural              0.8306062        0.8644760
## sanitation_urban         1.0000000        0.9196274
## sanitation_rural         0.9196274        1.0000000

値の正負:正の相関・負の相関、1に近いと強い正の相関、-1に近いと強い負の相関

相関係数:散布図の近似(回帰)直線の傾きが正なら正、負なら負、直線に近い程、1 または-1 に近い

経年変化

a. 日本

df_serv_long |> filter(country == "Japan") |> drop_na(value) |>
  ggplot(aes(year, value, col = name)) + geom_line()

df_serv_long |> filter(country == "Japan") |> drop_na(value)

df_serv_long |> filter(iso2c %in% ASEAN) |> drop_na(value) |>
  ggplot(aes(year, value, col = country, linetype = name)) + geom_line()

df_serv_long |> filter(iso2c %in% ASEAN) |> drop_na(value) |> 
  filter(value < 80) |>
  ggplot(aes(year, value, col = country, linetype = name)) + geom_line()

df_serv_long |> filter(country %in% SACU) |> drop_na(value) |>
  ggplot(aes(year, value, col = country, linetype = name)) + geom_line()

箱ひげ図(Boxplot)

df_serv_long |> filter(name == "electricity_rural") |> 
  filter(region != "Aggregates") |> drop_na(value) |>
  ggplot(aes(region, value)) + geom_boxplot() + coord_flip()

df_serv |> filter(region != "Aggregates") |> drop_na(electricity_rural) |>
  ggplot(aes(region, electricity_rural)) + geom_boxplot() + coord_flip()

df_serv_long |> filter(name %in% c("electricity_rural", "electricity_urban")) |> 
  filter(income != "Aggregates") |> drop_na(value) |>
  ggplot(aes(income, value, fill = name)) + geom_boxplot() + coord_flip()

df_serv_long |> filter(income != "Aggregates", income != "Not classified") |> drop_na(value) |>
  ggplot(aes(income, value, fill = name)) + geom_boxplot() + coord_flip()

ファイルリンク

基本的には、PositCloud(https://posit.cloud/)を使って実習

  • 探索的データ分析(EDA) -
    • 課題2:例 男女別失業率(unemployment.Rmd) [リンク], [Rmd]
    • 課題2:テンプレート:w7eda_template.Rmd [リンク], [Rmd]

2023.2.10.23:59 までに Moodle の課題2提出ボックスに提出してください。

できたグラフだけでも構いませんから、期限までに提出してください。解説を加え、課題2再提出ボックスを作成する予定です。

課題2

以下の指標の中から、二つ以上(複数)を選択して、データの概要(description)を記録し、データを WDI で取得し、以下の分析をする。

1 各年毎のデータの数の棒グラフ

2 経年変化を表す折れ線グラフ a. 日本、またはデータがある国 b. 選択したいくつかの国

3 複数の指標の値を一列に含む縦長の表(Long Table)を作成し   a. 日本、またはデータがある国の、複数の指標を色分けした経年変化のグラフ   b. 選択したいくつかの国についての経年変化のグラフを、国を色分けし、指標は線の種類を変えたグラフ

課題2 つづき

4 二つのデータの散布図- NA は取り除くこと。(log10 スケールを用いる場合は値が正のもののみに限定) a. (地域を除き)国のみの散布図 (近似(回帰)直線を表示) b. 最近の年の(地域を除き)国のみの散布図 (近似(回帰)直線を表示) c. b に対応する相関係数

5 カテゴリー変数(Categorical Variable: region, income, year など)と、数値変数(Numberical Variable)一組についての箱ヒゲ図(Boxplot)

それぞれについて考察(気づいたこと、疑問など)を記す

2023.2.10.23:59 までに Moodle の課題2提出ボックスに提出してください。

確認作業

  • Preview で確認。

  • Web Browser で、w5_c123456.nb.html など、R Notebook を見て確認。

  • もし、問題があれば、Run ボタンの右の三角から、Run All を選択し、エラーがでないか確認。

  • 最初にもどる。

エラー対応

  • 入力したときには、例を参照して、スペルを確認。全角や変数名の空白は問題を起こす。括弧 () や引用符がペアでマッチしているか、確認。引用符が入っていなかったり、== のところが、= だったり、Error は様々。
  • File not found のときは、データを読み込むコードを再実行。それでもうまくいかないときは、data フォルダに、データ(***.csv)が入っているかを確認、なければ、data フォルダがあることを確認、なければ作成して読み込みを実行。
  • Object not found のエラーがでたときには、上から順に、Run (Code Chunk の右上の三角印を押して実行)。または、エラー箇所にカーソルを置き、Run ボタンの右の三角から、Run All Chunks Above を選択して実行。
  • 実行できていても、結果が見えないことがある。そのときは、Code Chunk の下にある、山二つの記号を押す。結果の表示、非表示の切り替え。
  • Error message を読む。エラーが出た Code Chunk と、Error message を、ChatGPT や、Google Bard, Google Search に入れ解決方法を探る。
  • Posit.Cloud で、Error 137 が出た時はメモリーオーバーなので、例など不要な部分を削除。ただし、一番上の、YAML は、かならず残すこと。

参考文献

  1. 「みんなのデータサイエンス - Data Science for All」[はじめてのデータサイエンス]

  2. Posit Recipes(旧 Posit Primers): The Basics 対話型の演習サイトの最初 [Link]

  3. Posit Cheat Sheet. 早見表です。印刷して使うために、PDF も提供しています。[Site Link]

  4. DataCamp Cheat Sheet: Tidyverse for Biginners. データサイエンスの教育をしている会社の早見表の一つです。基本が簡単にまとまっています。[Link]

  5. 箱ひげ図の見方 Link、外れ値検出のある箱ひげ図 Link

  6. Video: Histogram, Boxplot