演習

以下の指標の中から、二つを選択して、データの概要(description)を記録し、データを WDI で取得し、以下の分析をする。

  1. 各年毎のデータの数の棒グラフ
  2. 国または地域を選択
  3. それぞれの経年変化を表す折れ線グラフ
    1. 日本
    2. 選択した国または地域
  4. 二つのデータの散布図-必要に応じて log10 スケールを用いる
    1. すべての値の散布図
    2. NA ではない値の散布図、近似(回帰)直線を表示
    3. 地域を除き国のみの散布図、近似(回帰)直線を表示
    4. 最近の年を選択し、地域を除き国のもの散布図、近似(回帰)直線を表示

それぞれについて考察(気づいたこと、疑問など)を記す

注:以下においては、地域はすべて BRICS とし、4 項目目は、d のみを示し、相関係数の表示も省略。また、データは、一括で読み込む。

環境(Environment)について

概要(Abstract)

以下においては、世界銀行の、世界開発指標(World Development Indicators)の、五つの指標、すなわち、一人当たりのCO2排出量(単位:トン)、森林面積(陸地面積に占める割合)、および、総発電量に占める、再生可能エネルギー発電量、化石燃料(石油、ガス、石炭)による発電量、原子力による発電量から、二つずつ指標を選択し、それらの関係について考察する。

データについて

  • CO2 emissions (metric tons per capita) :EN.ATM.CO2E.PC [Link] (co2pcap)

    • Carbon dioxide emissions are those stemming from the burning of fossil fuels and the manufacture of cement. They include carbon dioxide produced during consumption of solid, liquid, and gas fuels and gas flaring.

    • 一人当たりのCO2排出量(単位:トン):二酸化炭素排出量は、化石燃料の燃焼とセメントの製造に由来するものである。固形燃料、液体燃料、ガス燃料の消費時に発生する二酸化炭素や、ガスのフレアリングも含まれる。

  • Forest area (% of land area):AG.LND.FRST.ZS [Link] (forest)

    • Forest area is land under natural or planted stands of trees of at least 5 meters in situ, whether productive or not, and excludes tree stands in agricultural production systems (for example, in fruit plantations and agroforestry systems) and trees in urban parks and gardens.

    • 森林面積(陸地面積に占める割合):森林面積とは、生産的か否かを問わず、原位置で5m以上の樹木の天然林または人工林の下にある土地であり、農業生産システム(例えば、果樹園やアグロフォレストリーシステム)における樹木の立木や、都市の公園や庭園の樹木を除く。

  • Renewable electricity output (% of total electricity output):EG.ELC.RNEW.ZS [Link] (renewable)

    • Renewable electricity is the share of electrity generated by renewable power plants in total electricity generated by all types of plants.

    • 再生可能エネルギー発電量(総発電量に占める割合):再生可能エネルギー発電量とは、再生可能エネルギー発電所で発電された電力が、すべての種類の発電所で発電された電力に占める割合。

  • Electricity production from oil, gas and coal sources (% of total):EG.ELC.FOSL.ZS [Link] (fossil)

    • Sources of electricity refer to the inputs used to generate electricity. Oil refers to crude oil and petroleum products. Gas refers to natural gas but excludes natural gas liquids. Coal refers to all coal and brown coal, both primary (including hard coal and lignite-brown coal) and derived fuels (including patent fuel, coke oven coke, gas coke, coke oven gas, and blast furnace gas). Peat is also included in this category.

    • 化石燃料(石油、ガス、石炭)による発電量(総発電量に占める割合):電力源とは、発電に使用される投入物を指す。石油は原油および石油製品。ガスとは天然ガスを指し、天然ガス液体は含まない。石炭は、一次炭(硬質炭、褐炭を含む)と派生燃料(パテント燃料、コークス炉コークス、ガスコークス、コークス炉ガス、高炉ガスを含む)のすべての石炭と褐炭を指す。泥炭もこのカテゴリーに含まれる。

  • Electricity production from nuclear sources (% of total):EG.ELC.NUCL.ZS [Link] (nuclear)

    • Sources of electricity refer to the inputs used to generate electricity. Nuclear power refers to electricity produced by nuclear power plants.

    • 原子力による発電量(総発電量に占める割合):電力源とは、発電に使用される投入物を指す。原子力発電とは、原子力発電所で生産された電力を指す。

データの取得

準備

library(tidyverse)
library(WDI)

データのダウンロードと保存:コードと変数名を指定。

df_environment <- WDI(
  indicator = c(co2pcap = "EN.ATM.CO2E.PC",
                forest = "AG.LND.FRST.ZS",
                renewable = "EG.ELC.RNEW.ZS",
                fossil = "EG.ELC.FOSL.ZS",
                nuclear = "EG.ELC.NUCL.ZS"
                ), extra = TRUE)

2回目からは、data から読み込めるようにしておく ファイル (Rmd) の保存場所に data フォルダがあることを確認

write_csv(df_environment, "data/environment.csv")
df_environment <- read_csv("data/environment.csv")
Rows: 16758 Columns: 17── Column specification ─────────────────────────────────────────────────────────────────
Delimiter: ","
chr  (7): country, iso2c, iso3c, region, capital, income, lending
dbl  (8): year, co2pcap, forest, renewable, fossil, nuclear, longitude, latitude
lgl  (1): status
date (1): lastupdated
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_environment
str(df_environment)
spc_tbl_ [16,758 × 17] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country    : chr [1:16758] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
 $ iso2c      : chr [1:16758] "AF" "AF" "AF" "AF" ...
 $ iso3c      : chr [1:16758] "AFG" "AFG" "AFG" "AFG" ...
 $ year       : num [1:16758] 2014 1971 2006 2013 1995 ...
 $ status     : logi [1:16758] NA NA NA NA NA NA ...
 $ lastupdated: Date[1:16758], format: "2023-12-18" "2023-12-18" ...
 $ co2pcap    : num [1:16758] 0.2837 NA 0.0898 0.2981 0.0888 ...
 $ forest     : num [1:16758] 1.85 NA 1.85 1.85 1.85 ...
 $ renewable  : num [1:16758] 85.3 NA 70.8 78.6 69 ...
 $ fossil     : num [1:16758] NA NA NA NA NA NA NA NA NA NA ...
 $ nuclear    : num [1:16758] NA NA NA NA NA NA NA NA NA NA ...
 $ region     : chr [1:16758] "South Asia" "South Asia" "South Asia" "South Asia" ...
 $ capital    : chr [1:16758] "Kabul" "Kabul" "Kabul" "Kabul" ...
 $ longitude  : num [1:16758] 69.2 69.2 69.2 69.2 69.2 ...
 $ latitude   : num [1:16758] 34.5 34.5 34.5 34.5 34.5 ...
 $ income     : chr [1:16758] "Low income" "Low income" "Low income" "Low income" ...
 $ lending    : chr [1:16758] "IDA" "IDA" "IDA" "IDA" ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   status = col_logical(),
  ..   lastupdated = col_date(format = ""),
  ..   co2pcap = col_double(),
  ..   forest = col_double(),
  ..   renewable = col_double(),
  ..   fossil = col_double(),
  ..   nuclear = col_double(),
  ..   region = col_character(),
  ..   capital = col_character(),
  ..   longitude = col_double(),
  ..   latitude = col_double(),
  ..   income = col_character(),
  ..   lending = col_character()
  .. )
 - attr(*, "problems")=<externalptr> 

データの数

すべての指標の値があるもののデータ数を、年毎に表示する。

df_environment |> drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  ggplot(aes(year)) + geom_bar()

気づいたこと・疑問

  • データは、1990年以降で、すべてのデータが存在するのは、2014年ごろとなる。のちに、それぞれの場合に、個別にみる。

参考

それぞれのデータがどのくらいあるか見たい時は、データを縦長(long data)にして使う次のような方法もある。おおよそ、どの指標のデータが少ないかがわかる。

df_environment |> pivot_longer(cols = c(co2pcap, forest, renewable, fossil, nuclear)) |> 
  drop_na(value) |> ggplot(aes(year, fill = name)) + geom_bar(col = "black", linewidth = 0.1)

気づいたこと・疑問

  • すべてのデーが十分あるのは、2014年。ある程度あるのは、2015年、それ以降は、co2pcap と、forest のみ。

変数の選択(selecting)

df_env <- df_environment |> 
  select(country, iso2c, year, co2pcap, forest, 
         renewable, fossil, nuclear, region, income)
df_env

変数の相関関係

データを概観するため、授業の最初に見たように、国を選択し、変数の相関関係を見てみる。

df_env |> filter(!(iso2c %in% REGION)) |> # 地域以外(国のみ選択)
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
             co2pcap     forest  renewable     fossil    nuclear
co2pcap    1.0000000 -0.1832374 -0.4138267  0.3220169  0.1369711
forest    -0.1832374  1.0000000  0.3683177 -0.4234481  0.1131410
renewable -0.4138267  0.3683177  1.0000000 -0.8784240 -0.1851655
fossil     0.3220169 -0.4234481 -0.8784240  1.0000000 -0.2354258
nuclear    0.1369711  0.1131410 -0.1851655 -0.2354258  1.0000000

2014年に限定してみる。

df_env |> filter(!(iso2c %in% REGION), year == 2014) |> # 地域以外(国のみ選択)
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
              co2pcap     forest  renewable     fossil     nuclear
co2pcap    1.00000000 -0.1548686 -0.3902420  0.3056159  0.09178764
forest    -0.15486856  1.0000000  0.3316376 -0.3664743  0.10163594
renewable -0.39024200  0.3316376  1.0000000 -0.8824027 -0.11973317
fossil     0.30561592 -0.3664743 -0.8824027  1.0000000 -0.28368597
nuclear    0.09178764  0.1016359 -0.1197332 -0.2836860  1.00000000

原子力だけ考えると、値が 0 のところが多いので、0 を省いたほうが良いかもしれない。

df_env |> filter(!(iso2c %in% REGION), year == 2014) |> filter(nuclear >0) |>
  select(country, iso2c, nuclear) |> arrange(desc(nuclear))
df_env |> filter(!(iso2c %in% REGION), year == 2014) |> # 地域以外(国のみ選択)
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> filter(nuclear >0) |>
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
              co2pcap     forest   renewable     fossil     nuclear
co2pcap    1.00000000  0.2244851 -0.17539482  0.1539010 -0.05136171
forest     0.22448511  1.0000000  0.42931138 -0.5034195  0.25603803
renewable -0.17539482  0.4293114  1.00000000 -0.6569930 -0.06107962
fossil     0.15390104 -0.5034195 -0.65699299  1.0000000 -0.71114308
nuclear   -0.05136171  0.2560380 -0.06107962 -0.7111431  1.00000000

気づいたこと・疑問

  • 一人当たりの二酸化炭素排出量(co2pcap)との関係でみると、再生可能エネルギーとの負の相関が最大で、次が、化石燃料との正の相関が強い。原子力は、非常に弱い正の相関、森林の面積は、弱い負の相関がある。ことがわかる。

あくまでも、相関であり、因果関係ではない。再生可能エネルギーを増やしたり、化石燃料による発電を減らしたり、森を増やせば、二酸化炭素排出量が減ると、ここから結論できるわけではない。あくまでも、化石燃料の発電が多い国のほうが、二酸化炭素排出量が多い傾向があるというようなことが見て取れることである。相関関係は因果関係にあらず。Correlation is not causation.

国と地域

country には、国と地域両方が入っています。地域の iso2c は以下のものです。

REGION <- c("1A", "1W", "4E", "6F", "6N", "6X", "7E", "8S", "A4", "A5", 
"A9", "B1", "B2", "B3", "B4", "B6", "B7", "B8", "C4", "C5", "C6", 
"C7", "C8", "C9", "D2", "D3", "D4", "D5", "D6", "D7", "EU", "F1", 
"F6", "M1", "M2", "N6", "OE", "R6", "S1", "S2", "S3", "S4", "T2", 
"T3", "T4", "T5", "T6", "T7", "V1", "V2", "V3", "V4", "XC", "XD", 
"XE", "XF", "XG", "XH", "XI", "XJ", "XL", "XM", "XN", "XO", "XP", 
"XQ", "XT", "XU", "XY", "Z4", "Z7", "ZB", "ZF", "ZG", "ZH", "ZI", 
"ZJ", "ZQ", "ZT")

地域のリストを表示

df_env |> filter(iso2c %in% REGION) |> distinct(country, iso2c)

国名とその地域・所得レベルを表示

df_env |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c, region, income)

分析する国のリスト

いくつかの国のグループについて、国名または、iso2c または iso3c のリストを作成しておくと、便利です。そのときに、上のリストは、役に立ちます。

BRICS と呼ばれる、ブラジル、ロシア、インド、中国、南アフリカ5カ国についてデータをみる。

BRICS <- c("Brazil", "Russian Federation", "India", "China", "South Africa")

国名ではなく、iso2c で選択することも可能。

brics <- c("BR","RU","IN","CN","ZA")

経年変化を表す折線グラフ

一人当たりの二酸化炭素排出量

a. 日本

df_env |> filter(country == "Japan") |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap)) + geom_line()

気づいたこと・疑問

b. 選択した国・地域

df_env |> filter(country %in% BRICS) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = country)) + geom_line()

iso2c の brics で選択する時は、

df_env |> filter(iso2c %in% brics) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = country)) + geom_line()

凡例も、ISO2C 表示にすることも可能です。

df_env |> filter(iso2c %in% brics) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = iso2c)) + geom_line()

気づいたこと・疑問

森林面積

a. 日本

df_env |> filter(country == "Japan") |> drop_na(forest) |>
  ggplot(aes(year, forest)) + geom_line()

気づいたこと・疑問

b. 選択した国・地域

df_env |> filter(country %in% BRICS) |> drop_na(forest) |>
  ggplot(aes(year, forest, col = country)) + geom_line()

気づいたこと・疑問

再生可能エネルギー

a. 日本

df_env |> filter(country == "Japan") |> drop_na(renewable) |>
  ggplot(aes(year, renewable)) + geom_line()

気づいたこと・疑問

b. 選択した国・地域

df_env |> filter(country %in% BRICS) |> drop_na(renewable) |>
  ggplot(aes(year, renewable, col = country)) + geom_line()

気づいたこと・疑問

化石エネルギー

a. 日本

df_env |> filter(country == "Japan") |> drop_na(fossil) |>
  ggplot(aes(year, fossil)) + geom_line()

気づいたこと・疑問

b. 選択した国・地域

df_env |> filter(country %in% BRICS) |> drop_na(fossil) |>
  ggplot(aes(year, fossil, col = country)) + geom_line()

気づいたこと・疑問

原子力

a. 日本

df_env |> filter(country == "Japan") |> drop_na(nuclear) |>
  ggplot(aes(year, nuclear)) + geom_line()

気づいたこと・疑問

b. 選択した国・地域

df_env |> filter(country %in% BRICS) |> drop_na(nuclear) |>
  ggplot(aes(year, nuclear, col = country)) + geom_line()

気づいたこと・疑問

相関を表す散布図

一人当たりの二酸化炭素排出量と、森林面積

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> drop_na(co2pcap, forest) |> 
  ggplot(aes(forest, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> drop_na(co2pcap, forest) |> 
  ggplot(aes(forest, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

一人当たりの二酸化炭素排出量と、再生可能エネルギー

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, renewable) |> 
  ggplot(aes(renewable, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, renewable) |> 
  ggplot(aes(renewable, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

一人当たりの二酸化炭素排出量と、化石エネルギー

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, fossil) |> 
  ggplot(aes(fossil, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, fossil) |> 
  ggplot(aes(fossil, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

一人当たりの二酸化炭素排出量と、原子力

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, nuclear) |> 
  ggplot(aes(nuclear, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, nuclear) |> filter(nuclear >0) |>
  ggplot(aes(nuclear, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

森林面積と、再生可能エネルギー

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(forest, renewable) |> 
  ggplot(aes(renewable, forest)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(forest, renewable) |> 
  ggplot(aes(renewable, forest)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

森林面積と、化石エネルギー

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, forest) |> 
  ggplot(aes(fossil, forest)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, forest) |> 
  ggplot(aes(fossil, forest)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

森林面積と、原子力

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, forest) |> 
  ggplot(aes(forest, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, forest) |> filter(nuclear >0) |>
  ggplot(aes(forest, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

再生可能エネルギーと、化石エネルギー

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, renewable) |> 
  ggplot(aes(renewable, fossil)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, renewable) |> 
  ggplot(aes(renewable, fossil)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

再生可能エネルギーと、原子力

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, renewable) |> 
  ggplot(aes(renewable, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, renewable) |> filter(nuclear >0) |>
  ggplot(aes(renewable, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

化石エネルギーと、原子力

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, nuclear) |> 
  ggplot(aes(fossil, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, nuclear) |> filter(nuclear >0) |>
  ggplot(aes(fossil, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)

気づいたこと・疑問

参考

df_env_long <- df_env |> pivot_longer(c(renewable, fossil, nuclear))
df_env_long
df_env_long |> filter(country == "Japan") |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2)

df_env_long |> filter(country == "World") |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2)

df_env |> filter(region != "Aggregates", !is.na(region)) |> distinct(region) |> dput()
structure(list(region = c("South Asia", "Europe & Central Asia", 
"Middle East & North Africa", "East Asia & Pacific", "Sub-Saharan Africa", 
"Latin America & Caribbean", "North America")), row.names = c(NA, 
-7L), class = c("tbl_df", "tbl", "data.frame"))
regions <- c("South Asia", "Europe & Central Asia", 
"Middle East & North Africa", "East Asia & Pacific", "Sub-Saharan Africa", 
"Latin America & Caribbean", "North America")
df_env_long |> filter(country %in% regions) |> filter(year >= 1990) |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2) +
  facet_wrap(~country)

---
title: "第6週 探索的データ分析 - EDA"
author: "Hiroshi Suzuki"
date: "2024年1月30日"
output:
  html_notebook: 
    toc: yes
    toc_float: yes
---

## 演習

以下の指標の中から、二つを選択して、データの概要（description）を記録し、データを WDI で取得し、以下の分析をする。

1.  各年毎のデータの数の棒グラフ
2.  国または地域を選択
3.  それぞれの経年変化を表す折れ線グラフ
    a.  日本
    b.  選択した国または地域
4.  二つのデータの散布図-必要に応じて log10 スケールを用いる
    a.  すべての値の散布図
    b.  NA ではない値の散布図、近似（回帰）直線を表示
    c.  地域を除き国のみの散布図、近似（回帰）直線を表示
    d.  最近の年を選択し、地域を除き国のもの散布図、近似（回帰）直線を表示

それぞれについて考察（気づいたこと、疑問など）を記す

<!-- **2023.2.3.23:59** までに Moodle の演習の課題ボックスに提出したものについては、なるべく、早く見て、フィードバックを書きます。それ以降に提出されたものも見ますが、フィードバックは遅くなると思ってください。 -->

**注：以下においては、地域はすべて BRICS とし、4 項目目は、d のみを示し、相関係数の表示も省略。また、データは、一括で読み込む。**

# 環境（Environment）について

## 概要（Abstract）

以下においては、世界銀行の、世界開発指標（World Development Indicators）の、五つの指標、すなわち、一人当たりのCO2排出量（単位：トン）、森林面積（陸地面積に占める割合）、および、総発電量に占める、再生可能エネルギー発電量、化石燃料（石油、ガス、石炭）による発電量、原子力による発電量から、二つずつ指標を選択し、それらの関係について考察する。

## データについて

-   CO2 emissions (metric tons per capita) ：EN.ATM.CO2E.PC [[Link](https://data.worldbank.org/indicator/EN.ATM.CO2E.PC)] (co2pcap)

    -   Carbon dioxide emissions are those stemming from the burning of fossil fuels and the manufacture of cement. They include carbon dioxide produced during consumption of solid, liquid, and gas fuels and gas flaring.

    -   一人当たりのCO2排出量（単位：トン）：二酸化炭素排出量は、化石燃料の燃焼とセメントの製造に由来するものである。固形燃料、液体燃料、ガス燃料の消費時に発生する二酸化炭素や、ガスのフレアリングも含まれる。

-   Forest area (% of land area)：AG.LND.FRST.ZS [[Link](https://data.worldbank.org/indicator/AG.LND.FRST.ZS)] (forest)

    -   Forest area is land under natural or planted stands of trees of at least 5 meters in situ, whether productive or not, and excludes tree stands in agricultural production systems (for example, in fruit plantations and agroforestry systems) and trees in urban parks and gardens.

    -   森林面積（陸地面積に占める割合）：森林面積とは、生産的か否かを問わず、原位置で5m以上の樹木の天然林または人工林の下にある土地であり、農業生産システム（例えば、果樹園やアグロフォレストリーシステム）における樹木の立木や、都市の公園や庭園の樹木を除く。

-   Renewable electricity output (% of total electricity output)：EG.ELC.RNEW.ZS [[Link](https://data.worldbank.org/indicator/EG.ELC.RNEW.ZS)] (renewable)

    -   Renewable electricity is the share of electrity generated by renewable power plants in total electricity generated by all types of plants.

    -   再生可能エネルギー発電量（総発電量に占める割合）：再生可能エネルギー発電量とは、再生可能エネルギー発電所で発電された電力が、すべての種類の発電所で発電された電力に占める割合。

-   Electricity production from oil, gas and coal sources (% of total)：EG.ELC.FOSL.ZS [[Link](https://data.worldbank.org/indicator/EG.ELC.FOSL.ZS)] (fossil)

    -   Sources of electricity refer to the inputs used to generate electricity. Oil refers to crude oil and petroleum products. Gas refers to natural gas but excludes natural gas liquids. Coal refers to all coal and brown coal, both primary (including hard coal and lignite-brown coal) and derived fuels (including patent fuel, coke oven coke, gas coke, coke oven gas, and blast furnace gas). Peat is also included in this category.

    -   化石燃料（石油、ガス、石炭）による発電量（総発電量に占める割合）：電力源とは、発電に使用される投入物を指す。石油は原油および石油製品。ガスとは天然ガスを指し、天然ガス液体は含まない。石炭は、一次炭（硬質炭、褐炭を含む）と派生燃料（パテント燃料、コークス炉コークス、ガスコークス、コークス炉ガス、高炉ガスを含む）のすべての石炭と褐炭を指す。泥炭もこのカテゴリーに含まれる。

-   Electricity production from nuclear sources (% of total)：EG.ELC.NUCL.ZS [[Link](https://data.worldbank.org/indicator/EG.ELC.NUCL.ZS)] (nuclear)

    -   Sources of electricity refer to the inputs used to generate electricity. Nuclear power refers to electricity produced by nuclear power plants.

    -   原子力による発電量（総発電量に占める割合）：電力源とは、発電に使用される投入物を指す。原子力発電とは、原子力発電所で生産された電力を指す。

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

データのダウンロードと保存：コードと変数名を指定。

```{r eval = FALSE}
df_environment <- WDI(
  indicator = c(co2pcap = "EN.ATM.CO2E.PC",
                forest = "AG.LND.FRST.ZS",
                renewable = "EG.ELC.RNEW.ZS",
                fossil = "EG.ELC.FOSL.ZS",
                nuclear = "EG.ELC.NUCL.ZS"
                ), extra = TRUE)
```

*２回目からは、data から読み込めるようにしておく ファイル (Rmd) の保存場所に data フォルダがあることを確認*

```{r eval = FALSE}
write_csv(df_environment, "data/environment.csv")
```

```{r}
df_environment <- read_csv("data/environment.csv")
```

### データの確認

```{r}
df_environment
```

```{r}
str(df_environment)
```

### データの数

すべての指標の値があるもののデータ数を、年毎に表示する。

```{r}
df_environment |> drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  ggplot(aes(year)) + geom_bar()
```

**気づいたこと・疑問**

-   データは、1990年以降で、すべてのデータが存在するのは、2014年ごろとなる。のちに、それぞれの場合に、個別にみる。

#### 参考

それぞれのデータがどのくらいあるか見たい時は、データを縦長（long data）にして使う次のような方法もある。おおよそ、どの指標のデータが少ないかがわかる。

```{r}
df_environment |> pivot_longer(cols = c(co2pcap, forest, renewable, fossil, nuclear)) |> 
  drop_na(value) |> ggplot(aes(year, fill = name)) + geom_bar(col = "black", linewidth = 0.1)
```

**気づいたこと・疑問**

- すべてのデーが十分あるのは、2014年。ある程度あるのは、2015年、それ以降は、co2pcap と、forest のみ。

### 変数の選択（selecting）

```{r}
df_env <- df_environment |> 
  select(country, iso2c, year, co2pcap, forest, 
         renewable, fossil, nuclear, region, income)
df_env
```

## 変数の相関関係

データを概観するため、授業の最初に見たように、国を選択し、変数の相関関係を見てみる。

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> # 地域以外（国のみ選択）
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
```

2014年に限定してみる。

```{r}
df_env |> filter(!(iso2c %in% REGION), year == 2014) |> # 地域以外（国のみ選択）
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> 
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
```

原子力だけ考えると、値が 0 のところが多いので、0 を省いたほうが良いかもしれない。

```{r}
df_env |> filter(!(iso2c %in% REGION), year == 2014) |> filter(nuclear >0) |>
  select(country, iso2c, nuclear) |> arrange(desc(nuclear))
```

```{r}
df_env |> filter(!(iso2c %in% REGION), year == 2014) |> # 地域以外（国のみ選択）
  drop_na(co2pcap, forest, renewable, fossil, nuclear) |> filter(nuclear >0) |>
  select(co2pcap, forest, renewable, fossil, nuclear) |> cor()
```

**気づいたこと・疑問**

-   一人当たりの二酸化炭素排出量（co2pcap）との関係でみると、再生可能エネルギーとの負の相関が最大で、次が、化石燃料との正の相関が強い。原子力は、非常に弱い正の相関、森林の面積は、弱い負の相関がある。ことがわかる。

_あくまでも、相関であり、因果関係ではない。再生可能エネルギーを増やしたり、化石燃料による発電を減らしたり、森を増やせば、二酸化炭素排出量が減ると、ここから結論できるわけではない。あくまでも、化石燃料の発電が多い国のほうが、二酸化炭素排出量が多い傾向があるというようなことが見て取れることである。相関関係は因果関係にあらず。Correlation is not causation._


## 国と地域

country には、国と地域両方が入っています。地域の iso2c は以下のものです。

```{r}
REGION <- c("1A", "1W", "4E", "6F", "6N", "6X", "7E", "8S", "A4", "A5", 
"A9", "B1", "B2", "B3", "B4", "B6", "B7", "B8", "C4", "C5", "C6", 
"C7", "C8", "C9", "D2", "D3", "D4", "D5", "D6", "D7", "EU", "F1", 
"F6", "M1", "M2", "N6", "OE", "R6", "S1", "S2", "S3", "S4", "T2", 
"T3", "T4", "T5", "T6", "T7", "V1", "V2", "V3", "V4", "XC", "XD", 
"XE", "XF", "XG", "XH", "XI", "XJ", "XL", "XM", "XN", "XO", "XP", 
"XQ", "XT", "XU", "XY", "Z4", "Z7", "ZB", "ZF", "ZG", "ZH", "ZI", 
"ZJ", "ZQ", "ZT")
```

### 地域のリストを表示

```{r}
df_env |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

### 国名とその地域・所得レベルを表示

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c, region, income)
```

### 分析する国のリスト

_いくつかの国のグループについて、国名または、iso2c または iso3c のリストを作成しておくと、便利です。そのときに、上のリストは、役に立ちます。_

BRICS と呼ばれる、ブラジル、ロシア、インド、中国、南アフリカ５カ国についてデータをみる。

```{r}
BRICS <- c("Brazil", "Russian Federation", "India", "China", "South Africa")
```

国名ではなく、iso2c で選択することも可能。

```{r}
brics <- c("BR","RU","IN","CN","ZA")
```

## 経年変化を表す折線グラフ

### 一人当たりの二酸化炭素排出量

#### a. 日本

```{r}
df_env |> filter(country == "Japan") |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap)) + geom_line()
```

**気づいたこと・疑問**

#### b. 選択した国・地域

```{r}
df_env |> filter(country %in% BRICS) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = country)) + geom_line()
```

iso2c の brics で選択する時は、

```{r}
df_env |> filter(iso2c %in% brics) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = country)) + geom_line()
```

凡例も、ISO2C 表示にすることも可能です。

```{r}
df_env |> filter(iso2c %in% brics) |> drop_na(co2pcap) |>
  ggplot(aes(year, co2pcap, col = iso2c)) + geom_line()
```

**気づいたこと・疑問**

### 森林面積

#### a. 日本

```{r}
df_env |> filter(country == "Japan") |> drop_na(forest) |>
  ggplot(aes(year, forest)) + geom_line()
```

**気づいたこと・疑問**

#### b. 選択した国・地域

```{r}
df_env |> filter(country %in% BRICS) |> drop_na(forest) |>
  ggplot(aes(year, forest, col = country)) + geom_line()
```

**気づいたこと・疑問**

### 再生可能エネルギー

#### a. 日本

```{r}
df_env |> filter(country == "Japan") |> drop_na(renewable) |>
  ggplot(aes(year, renewable)) + geom_line()
```

**気づいたこと・疑問**

#### b. 選択した国・地域

```{r}
df_env |> filter(country %in% BRICS) |> drop_na(renewable) |>
  ggplot(aes(year, renewable, col = country)) + geom_line()
```

**気づいたこと・疑問**

### 化石エネルギー

#### a. 日本

```{r}
df_env |> filter(country == "Japan") |> drop_na(fossil) |>
  ggplot(aes(year, fossil)) + geom_line()
```

**気づいたこと・疑問**

#### b. 選択した国・地域

```{r}
df_env |> filter(country %in% BRICS) |> drop_na(fossil) |>
  ggplot(aes(year, fossil, col = country)) + geom_line()
```

**気づいたこと・疑問**

### 原子力

#### a. 日本

```{r}
df_env |> filter(country == "Japan") |> drop_na(nuclear) |>
  ggplot(aes(year, nuclear)) + geom_line()
```

**気づいたこと・疑問**

#### b. 選択した国・地域

```{r}
df_env |> filter(country %in% BRICS) |> drop_na(nuclear) |>
  ggplot(aes(year, nuclear, col = country)) + geom_line()
```

**気づいたこと・疑問**

## 相関を表す散布図

### 一人当たりの二酸化炭素排出量と、森林面積

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> drop_na(co2pcap, forest) |> 
  ggplot(aes(forest, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> drop_na(co2pcap, forest) |> 
  ggplot(aes(forest, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 一人当たりの二酸化炭素排出量と、再生可能エネルギー

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, renewable) |> 
  ggplot(aes(renewable, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, renewable) |> 
  ggplot(aes(renewable, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 一人当たりの二酸化炭素排出量と、化石エネルギー

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, fossil) |> 
  ggplot(aes(fossil, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, fossil) |> 
  ggplot(aes(fossil, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 一人当たりの二酸化炭素排出量と、原子力

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, nuclear) |> 
  ggplot(aes(nuclear, co2pcap)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(co2pcap, nuclear) |> filter(nuclear >0) |>
  ggplot(aes(nuclear, co2pcap)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 森林面積と、再生可能エネルギー

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(forest, renewable) |> 
  ggplot(aes(renewable, forest)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(forest, renewable) |> 
  ggplot(aes(renewable, forest)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 森林面積と、化石エネルギー

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, forest) |> 
  ggplot(aes(fossil, forest)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, forest) |> 
  ggplot(aes(fossil, forest)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 森林面積と、原子力

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, forest) |> 
  ggplot(aes(forest, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, forest) |> filter(nuclear >0) |>
  ggplot(aes(forest, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 再生可能エネルギーと、化石エネルギー

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, renewable) |> 
  ggplot(aes(renewable, fossil)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, renewable) |> 
  ggplot(aes(renewable, fossil)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 再生可能エネルギーと、原子力

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, renewable) |> 
  ggplot(aes(renewable, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(nuclear, renewable) |> filter(nuclear >0) |>
  ggplot(aes(renewable, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

### 化石エネルギーと、原子力

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, nuclear) |> 
  ggplot(aes(fossil, nuclear)) + geom_point(aes(col = region)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

```{r}
df_env |> filter(!(iso2c %in% REGION)) |> filter(year == 2014) |> 
  drop_na(fossil, nuclear) |> filter(nuclear >0) |>
  ggplot(aes(fossil, nuclear)) + geom_point(aes(col = income)) +
  geom_smooth(formula = 'y~x', method = "lm", se = FALSE)
```

**気づいたこと・疑問**

## 参考

```{r}
df_env_long <- df_env |> pivot_longer(c(renewable, fossil, nuclear))
df_env_long
```

```{r}
df_env_long |> filter(country == "Japan") |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2)
```

```{r}
df_env_long |> filter(country == "World") |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2)
```

```{r}
df_env |> filter(region != "Aggregates", !is.na(region)) |> distinct(region) |> dput()
```
```{r}
regions <- c("South Asia", "Europe & Central Asia", 
"Middle East & North Africa", "East Asia & Pacific", "Sub-Saharan Africa", 
"Latin America & Caribbean", "North America")
```

```{r}
df_env_long |> filter(country %in% regions) |> filter(year >= 1990) |> drop_na(value) |>
  ggplot(aes(year, value, fill = name)) + geom_area(col = "black", linewidth = 0.2) +
  facet_wrap(~country)
```


