右上の Code
マークから、ソースファイルもダウンロードすることができます。
Posit (RStudio) Cloud での実習
RNotebook
ファイルを新規作成し、このページを、全選択して、コピー・ペーストします。(rmarkdown
のインストールが必要です) Save As …
または、フロッピーディスクマークをおして、ds-edu などとして保存。
説明を読みながら、コードチャンクと言われる、色が変わっている、の右上にある三角印を押すと、実行されます。
このあとで、RNotebook についても、少し説明します。
準備:Posit Cloud
ログイン
Posit Cloud (https://posit.cloud/)
のアカウントを作成して、ログインした状態から始めます。
無論 RStudio で R を利用できる方は、ほとんど同じですが、Posit Cloud
には、ファイルや、データも入っていますので、そのまま活用することが可能です。
RStudio
での、動作不良の場合の対応は省略させていただきます。できれば、上のメニューの
File から、New Project を選択して、Project
を作って、そこで作業をされることをお勧めします。
問題がある時は、下のサイトを参照してください。Posit Cloud
についても、多少の説明が書いてあります。
https://icu-hsuzuki.github.io/ds4aj/ronrstudio.html
右上の New Project を選択して、始めることが普通ですが、本日は、
このリンクにアクセスしていただき、Save a Permanent Copy
を選択してくださると、そのなかで、自分のプロジェクトとして、実行することが可能になります。
https://posit.cloud/content/5539763
はじめに
基本コマンド - in
Console
下のコマンドを左下の窓枠(Pane)に入れてみてください。
head(cars)
str(cars)
summary(cars)
df <- cars
<-
と _
と %>%
と `
back tick のキーボード上での位置の確認
head(df)
plot(df)
View(cars)
または、右上の Environment
から、df_cars
をクリック
?cars
または Help 検索窓で cars
,
head
など
実際の出力
'data.frame': 50 obs. of 2 variables:
$ speed: num 4 4 7 7 8 9 10 10 10 11 ...
$ dist : num 2 10 4 22 16 10 18 26 34 17 ...
speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00
おすすめ:Sys.setenv(LANG = "en")
システム言語を英語に設定すると、不明のエラーメッセージがでたときにも、検査で解決できることが多い。
Package
の確認とインストール
Rパッケージは、Rの拡張機能で、コード、データ、ドキュメントを標準化されたコレクション形式で含んでおり、標準的なものは、R
Studio の Top Bar の Tool > Install Packages
からインストールできます。
- 次の三つをインストールします:
tidyverse
,
rmarkdown
, WDI
- Tools から Install packages を選び、一つ一つ入れていくと、install
できます。少し時間がかかります。
備考
R
は、多くの方が、パッケージを開発して、それぞれの分野で、使いやすくしていった統計解析のためのコンピュータ言語です。ただ、基本をのぞいて、それぞれの好みにあわせて、開発された面もあり、統一性にはかける言語です。あとで説明する、探索的データ分析(Exploratory
Data
Analysis)のために必要な基本的なものを、整合性のある形で、再構築したものが、tidyverse
パッケージで、中心となった、H. Wickham は、RStudio(現在の Posit) に加わりました。そのメンバーの、Y.
Xie(谢益辉) たちが開発したものが、rmarkdown
に関連したパッケージです。
R Markdown 入門
R Notebook
R Markdownはデータサイエンスのためのオーサリングフレームワーク。
コード(プログラム)とその実行結果、を記録・表示し、高品質のレポートの作成を可能にします。
R Notebook は、独立してインタラクティブに実行できるチャンクを持つR
Markdownドキュメントの一つの形式で、入力のすぐ下に出力が表示することができます。
- File > New File > R Notebook
- Save with a file name, say, test-notebook
- Preview by [Preview] button
- Run Code Chunk plot(cars) and then Preview again.
下のリンクを開き、全部を選択し、R Notebook
ファイルも全選択して貼り付ければ、日本版も見ることができます。
intro2rj.Rmd
右下の File タブから、intro2rj.Rmd
を開きます。 Preview
の右のギアマークの Preview in Viewer Pane を選択してから、Preview
バタンを押すと、内容を確認することができます。
あとから使うので、ロードしておきます。最初に次のようなコードを実行します。右の三角を押します。
Posit Cloud のサイトには、data
ディレクトリ(フォルダ)が作成されていますが、
参考
データーサインスをはじめましょう
の中のR
Markdown に、“Reproducible and Literate Programming” (Reproducible
(再現可能)かつ、Literate な(理解できるように記述した)Program(プログラム・コード)を共有すること)をたいせつにする
RMarkdown の重要性について簡単に書いてあります。
R Notebook
での実習
準備 Setup
データディレクトリを作成しておきます。今後、データは、このディレクトリに保存します。すでに、存在する場合は、その旨メッセージが出ますが、中身が消去されることはありません。
パッケージはインストールしてあっても、利用するときには、次のように使える状態に(ロード)します。
一つ目は、tidyverse
ですが、もう一つは、あとから活用する、世界開発指標に関するデータを利用するためのパッケージです。
── Attaching core tidyverse packages ────────── tidyverse 2.0.0 ──
✔ dplyr 1.1.2 ✔ readr 2.1.4
✔ forcats 1.0.0 ✔ stringr 1.5.0
✔ ggplot2 3.4.2 ✔ tibble 3.2.1
✔ lubridate 1.9.2 ✔ tidyr 1.3.0
✔ purrr 1.0.1 ── Conflicts ──────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
世界開発指標
(WDI)
例から始めます。
次のコードは、国別に、GDP の大きい方から並べたものです。
WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"),
extra=TRUE) %>% drop_na(gdp) %>%
filter(year==max(year), income !="Aggregates") %>%
drop_na(region) %>% arrange(desc(gdp))
3兆ドルを超えている6つの国についての過去の推移をグラフにしたものです。
WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE) %>% drop_na(gdp) %>%
ggplot(aes(year, gdp, col = country)) + geom_line() +
labs(title = "WDI NY.GDP.MKTP.CD: gdp")
WDI(country = c("CN","IN","JP","US"),
indicator = c(gdp_growth_rate = "NY.GDP.MKTP.KD.ZG"), extra=TRUE) %>%
drop_na(gdp_growth_rate) %>%
ggplot(aes(year, gdp_growth_rate, col = country)) + geom_line() +
labs(title = paste("WDI NY.GDP.MKTP.KD.ZG: gdp growth rate"))
注意
一つ一つのコードを丁寧に説明し、理解することは、後回しにし、少しずつ学んでいくことにし、ここでは、それぞれの問題意識のもとで、どのようなことができるかを、理解するため、活用することを優先したいと思います。
上で使った指標
(WDI) コード
- NY.GDP.MKTP.CD: GDP (current US$)
- NY.GDP.MKTP.KD.ZG: GDP growth (annual %)
世界開発指標 (WDI)
を探してみましょう
WDIは、世界の開発状況と、貧困との戦いに関する、適切で上質、かつ、国際的に比較可能な時系列の統計データを編纂したものです。このデータベースは、217の経済と40以上の国グループについて1,400の時系列指標を含み、指標のデータの多くは50年以上前に遡ることができます。
下の2箇所から探すことができます。
- 世界銀行(World
Bank)オープンデータ
- Country / Indicator > Featured & All > Details
- 世界開発指標
(WDI) :
- テーマ:
貧困と格差、人間、環境、経済、国家と市場、グローバルリンク集(Poverty
and Inequality, People, Environment, Economy, States and Markets, Global
Links)
練習 1. -
調べてみたい WDI
世界開発指標のコードをいくつか、リストしてみましょう。
WDI パッケージ
WDI
パッケージで、データをダウンロードしたり、探したり、詳細情報を得たりできます。
検索や、ダウンロード方法が理解できるように、例示してありますが、ざっと確認して、4.3.3
のテンプレートを利用すると、グラフを描くこともできます。
指標 WDI 検索
検索例
1(WDI名)
WDIsearch(string = "gdp", field = "name", short = TRUE, cache = NULL)
WDIsearch(string = "military expenditure", field = "name", short = TRUE, cache = NULL)
検索例
2(WDI)
WDIsearch(string = "NY.GDP.MKTP.CD", field = "indicator", short = TRUE, cache = NULL)
練習 2. -
検索(short)
名前で検索(“”
の間に、(なるべく簡単な)検索文字列を入れてください。)
WDIsearch(string = "", field = "name", short = TRUE, cache = NULL)
Indicator で検索(“” の間に、調べたい indicator
を入れてください。)
WDIsearch(string = "", field = "indicator", short = TRUE, cache = NULL)
詳しい情報を得るには
short = FALSE
とします。時間がかかるので、検索は、Indicator
と、名前などの情報をもったファイルを手元に持っておくことにします。
右上の窓枠(pane)から、wdi_cache
を探して、中身を見てみましょう。series と、country
の二つのデータ・フレームからなっているリストです。三角印や、右から二番目の巻物のようなアイコンをクリックすると中身が見えます。
検索例
3(WDI名)
WDIsearch(string = "CPI Price", field = "name", short = FALSE, cache = wdi_cache)
- CPTOTNSXN: CPI Price, nominal
- The consumer price index reflects the change in prices for the
average consumer of a constant basket of consumer goods. Data is not
seasonally adjusted.
検索例
4(WDI)
WDIsearch(string = "NY.GDP.MKTP.KD.ZG", field = "indicator", short = FALSE, cache = wdi_cache)
練習 2 - 検索(long
w/ cache)
string
と、field
を、ふたつとも入れてください。
WDIsearch(string = "", field = "", short = FALSE, cache = wdi_cache)
指標 WDI
データのダウンロード
Indicator が決まったら、ダウンロードします。
右下の、Help Tab に WDI と入れると、使い方もわかります。
ダウンロード例
1-1
df_gdp1 <- WDI(country = "all", indicator = "NY.GDP.MKTP.CD")
df_gdp1
ダウンロード例
1-2
df_gdp2 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"))
df_gdp2
ダウンロード例
1-3
df_gdp3 <- WDI(country = "all", indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp3
ダウンロード例
1-4
df_gdp4 <- WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(gdp = "NY.GDP.MKTP.CD"), extra=TRUE, cache=wdi_cache)
df_gdp4
ダウンロード例
2-1
- NY.GDP.DEFL.KD.ZG: Inflation, GDP deflator (annual %)
- CPTOTNSXN: CPI Price, nominal
df_gdp21 <- WDI(country = "all",
indicator = c(gdp_deflator = "NY.GDP.DEFL.KD.ZG",
cpi_price = "CPTOTNSXN"),
extra=TRUE, cache=wdi_cache)
df_gdp21
'data.frame': 24238 obs. of 14 variables:
$ country : chr "Advanced Economies" "Advanced Economies" "Advanced Economies" "Advanced Economies" ...
$ iso2c : chr "AME" "AME" "AME" "AME" ...
$ iso3c : chr "" "" "" "" ...
$ year : int 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 ...
$ status : chr "" "" "" "" ...
$ lastupdated : chr "2020-07-27" "2020-07-27" "2020-07-27" "2020-07-27" ...
$ gdp_deflator: num NA NA NA NA NA NA NA NA NA NA ...
..- attr(*, "label")= chr "Inflation, GDP deflator (annual %)"
$ cpi_price : num 58.7 60.5 63 66 69.1 ...
..- attr(*, "label")= chr "CPI Price,not seas.adj,,,"
$ region : chr NA NA NA NA ...
$ capital : chr NA NA NA NA ...
$ longitude : chr NA NA NA NA ...
$ latitude : chr NA NA NA NA ...
$ income : chr NA NA NA NA ...
$ lending : chr NA NA NA NA ...
country iso2c iso3c
Length:24238 Length:24238 Length:24238
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
year status lastupdated
Min. :1960 Length:24238 Length:24238
1st Qu.:1982 Class :character Class :character
Median :1997 Mode :character Mode :character
Mean :1995
3rd Qu.:2009
Max. :2022
gdp_deflator cpi_price region
Min. : -98.704 Min. : 0.00 Length:24238
1st Qu.: 2.315 1st Qu.: 55.95 Class :character
Median : 5.256 Median : 83.28 Mode :character
Mean : 25.299 Mean : 84.18
3rd Qu.: 10.386 3rd Qu.:108.75
Max. :26765.858 Max. :551.25
NA's :11881 NA's :18676
capital longitude latitude
Length:24238 Length:24238 Length:24238
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
income lending
Length:24238 Length:24238
Class :character Class :character
Mode :character Mode :character
右上の窓枠の、Environment も見てみましょう。
可視化
Visualization
グラフ(Chart)を描いて視覚化しよう
グラフ 1
df_gdp4 %>% ggplot(aes(year, gdp, col=country)) + geom_line()
グラフ 2
df_gdp4 %>% drop_na(gdp) %>%
ggplot(aes(year, gdp, col=country)) + geom_line() +
labs(title = paste("WDI - NY.GDP.MKTP.CD: ", "gdp"))
テンプレート
Templates
一つの国についての、一つの指標(WDI)と、その略称から、折線グラフを作成
Line Plot with one indicator with abbreviation and one country
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>%
filter(country == chosen_country) %>%
ggplot(aes(year, short_name)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator, ": ", short_name, " - ", chosen_country),
y = short_name)
一つの国についての、一つの指標(WDI)から、折線グラフを作成
Line Plot with one indicator and one country
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
chosen_country <- "United States"
WDI(country = "all", indicator = c(chosen_indicator = chosen_indicator),
extra=TRUE, cache=wdi_cache) %>%
filter(country == chosen_country) %>%
ggplot(aes(year, chosen_indicator)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator, " - ", chosen_country),
y = chosen_indicator)
いくつかの国についての、一つの指標(WDI)と、その略称から、折線グラフを作成
Line Plot with one indicator with abbreviation and several
countries
chosen_indicator <- "SL.UEM.TOTL.NE.ZS"
short_name <- "unemployment"
chosen_countries <- c("United States","United Kingdom", "Japan")
WDI(country = "all", indicator = c(short_name = chosen_indicator), extra=TRUE, cache=wdi_cache) %>% drop_na(short_name) %>%
filter(country %in% chosen_countries) %>%
ggplot(aes(year, short_name, col = country)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator, ": ", short_name), y = short_name)
一つの国についての、二つの指標(WDI)と、その略称から、折線グラフを作成
Line Plot with two indicators with abbreviation and one country
chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>%
filter(country == chosen_country) %>%
pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
ggplot(aes(year, value, col = class)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))
chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_country <- "United States"
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>%
filter(country == chosen_country) %>%
pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
ggplot(aes(year, value, col = class)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2, " - ", chosen_country)) +
scale_color_manual(labels = c(short_name_1, short_name_2), values = scales::hue_pal()(2))
いくつかの国についての、二つの指標(WDI)と、その略称から、折線グラフを作成
Line Plot with two indicators with abbreviation and several
countries
chosen_indicator_1 <- "NY.GDP.DEFL.KD.ZG"
short_name_1 <- "gdp_deflator"
chosen_indicator_2 <- "CPTOTSAXNZGY"
short_name_2 <- "cpi_price"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>%
filter(country %in% chosen_countries) %>%
pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))
chosen_indicator_1 <- "SL.TLF.CACT.MA.NE.ZS"
short_name_1 <- "male"
chosen_indicator_2 <- "SL.TLF.CACT.FE.NE.ZS"
short_name_2 <- "female"
chosen_countries <- c("United States", "France", "Japan")
WDI(country = "all", indicator = c(short_name_1 = chosen_indicator_1, short_name_2 = chosen_indicator_2), extra=TRUE, cache=wdi_cache) %>%
filter(country %in% chosen_countries) %>%
pivot_longer(c(short_name_1, short_name_2), names_to = "class", values_to = "value") %>% drop_na(value) %>%
ggplot(aes(year, value, linetype = class, col = country)) + geom_line() +
labs(title = paste("WDI ", chosen_indicator_1, ": ", short_name_1, "\n", chosen_indicator_2, ": ", short_name_2)) +
scale_linetype_manual(labels = c(short_name_1, short_name_2), values = c("solid", "dashed"))
課題 Assignment
上のテンプレートをコピーして、下に貼り付け、指標
indicator
と、略称 short_name
と、いくつかの国名 chosen_countries
を、入れ替えて、試してみてください。
学生が選択した世界開発指標(WDI)の例
19人の受講生に、興味のある指標を選んで、テンプレートを使って、可視化をしてみてください、と課題に出した時に、調べてくれたものです。
url_indicators <- "https://ds-sl.github.io/intro2r/data/indicators.csv"
df_indicators <- read_csv(url_indicators) %>% left_join(wdi_cache$series)
Rows: 89 Columns: 5── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (5): indicator, name, description, sourceDatabase, sourceO...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.Joining with `by = join_by(indicator, name, description, sourceDatabase, sourceOrganization)`
write_csv(df_indicators, "./data/indicators.csv")
df_indicators %>% distinct(indicator, name) %>% arrange(indicator)
自分で課題を考え、データを選べることは、とても大切だということだと思います。
探索的データ解析 Exploratory Data Analysis (EDA)
EDAは、データが何を語っているかを理解するための反復的なサイクルです。
まず、データに関する問いを作成します。
データの可視化、変換、モデリングを行い、答えを探します。
学習したことを活用して、問いを修正したり、新しい問いを考えたりします。そして、このサイクルを繰り返していきます。
EDAはデータ分析において重要な役割を果たします。また、データの品質を保証するために、データの質を確認するために使用することもできます。
問いをもちデータを取得し、視覚化などを通して、データを理解し、さらに問いを深めるサイクルが、データサイエンスの核ではないかと思います。
データの取得・読み込み - Importing Data
スタートは、本来は、データの作成・探索ですが、すでに、分析したいデータはすでにあるとして話を進めます。まずは、data
フォルダ(directory)を作成しておくと良い。右下の窓枠の Files
タブから、New Folder で作成してもよい。
データの取得・読み込みを、四つの方法に分けて説明します。
- パッケージの利用
- 例:WDI
など。何度も、ダウンロードしなくて良いよいに、書き出しておき、2
を使うとよい。
write(df_name, "./data/name.csv")
- コンピュータ上にある CSV などのテキストファイルを読み込む
- 例:
df_name <- read_csv("./data/file_name.csv")
- インターネット上のデータのアドレス(URL)を使って、CSV
などのテキストファイルを読み込む。
- 例:
df_name <- read_csv(url_of_a_csv)
- コンピュータ上にある、Excel
ファイルなどのデジタルファイルを読み込む。まず、
library(readxl)
。
- 例:
df_name <- read_excel("./data/file_name.xlsx")
- サイトからダウンロードして、Project
のデータフォルダに移す。または、データのアドレス(URL)がわかっていれば、直接ダウンロード。
- 例:`download.file(url_of_a_data, destfile =
“./data/data_name”)
- クリップボードにコピーして読み込む。
- 例:
df_name <- read_delim(clipboard())
WDIcache()
の扱い
二つの、ファイルが一つになった、リストであるため、違って命令を使います。
wdi_cache <- WDIcache()
write_rds(wdi_cache, "./data/wdi_cache.RData")
wdi_cache <- read_rds("./data/wdi_cache.RData")
WDI での例
df_military6 <- WDI(country = c("CN","GB","JP","IN","US","DE"), indicator = c(military = "MS.MIL.XPND.CD"), extra=TRUE, cache=wdi_cache)
df_military6 %>% filter(year == 2021) %>% arrange(desc(military))
df_military6 %>% drop_na(military) %>%
ggplot(aes(year, military, col=iso2c)) + geom_line()
df_military <- WDI(country = "all", indicator = c(military = "MS.MIL.XPND.CD"), extra=TRUE, cache=wdi_cache)
df_military %>% drop_na(military) %>% filter(year==2021, income=="High income", military >0) %>%
ggplot(aes(military, fill=region)) + geom_density() + geom_vline(xintercept = 54123551702, col="red") + scale_x_log10() + geom_label(x=11.1, y=25, label = "Japan") + facet_wrap(~region) + theme(legend.position = "none") + labs(title="Military Expenses in high income countries")
df_military_gdp <- WDI(country = "all", indicator = c(military_gdp = "MS.MIL.XPND.GD.ZS"), extra=TRUE, cache=wdi_cache)
df_military_gdp %>% filter(country == "Japan", year==2021)
df_military_gdp %>% drop_na(military_gdp) %>% filter(year==2021, income!="Aggregates") %>%
ggplot(aes(military_gdp, fill=income)) + geom_density(binwidth = 0.2, alpha=0.5) + geom_vline(xintercept = 2, col="red") + geom_vline(xintercept = 1, col="blue") + facet_wrap(~income)
Warning: Ignoring unknown parameters: `binwidth`
国際機関のデータ
International Institutions’ Data
url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop0 <- read_csv(url_un_pop)
New names:Rows: 7874 Columns: 7── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (7): T02, Population, density and surface area, ...3, ...4...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
url_un_pop <- "https://data.un.org/_Docs/SYB/CSV/SYB65_1_202209_Population,%20Surface%20Area%20and%20Density.csv"
df_un_pop <- read_csv(url_un_pop, skip=1)
New names:Rows: 7873 Columns: 7── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (4): ...2, Series, Footnotes, Source
dbl (2): Region/Country/Area, Year
num (1): Value
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_un_pop %>% distinct(`Region/Country/Area`, `...2`)
df_un_pop %>% filter(`Region/Country/Area` %in% c(2,19,142,150,9), Series == "Population mid-year estimates (millions)") %>%
ggplot(aes(Year, Value, fill = `...2`)) + geom_area(col="black") +
labs(title = "Population mid-year estimates (millions) of the World")
OECD data
例:労働時間当たりGDP
労働時間当たりGDP
労働時間当たりGDPは、労働生産性の指標である。これは、労働投入量が他の生産要素と組み合わされ、生産プロセスでどれだけ効率的に利用されたかを測定するものである。労働投入量は、生産に従事するすべての人の総労働時間として定義される。労働生産性は、労働者の個人的能力や努力の強さといった労働の生産性を部分的にしか反映していない。アウトプット指標と労働投入量の比率は、他の投入物(資本、中間投入物、技術・組織・効率の変化、規模の経済など)の存在や利用に大きく左右される。この指標は、米ドル(2010年の恒常価格およびPPP)および指標で測定されています。
最初のステップ
- サイトから、CSV
データをダウンロード。
- プロジェクト内のデータ格納フォルダに入れます。“./data/”
- 読み込みます。
上のサイトからデータ(Full
indicator data)をダウンロードして、プロジェクトの data
フォルダーに入れました。
df_oecd_productivity <- read_csv("./data/DP_LIVE_21022023111712065.csv")
Rows: 3894 Columns: 8── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (6): LOCATION, INDICATOR, SUBJECT, MEASURE, FREQUENCY, Fla...
dbl (2): TIME, Value
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
データの確認
列名を確認し、列ごとに、データを確認
colnames(df_oecd_productivity)
[1] "LOCATION" "INDICATOR" "SUBJECT" "MEASURE"
[5] "FREQUENCY" "TIME" "Value" "Flag Codes"
unique()
のかっこの中に、df_oecd_productivity$LOCATION
を入れたものと同じものを出力します。次々とつづけるときに便利なので、このパイプ
%>%
をわたしはよく使います。unique(df_oecd_productivity$LOCATION)
も試してみてください。
df_oecd_productivity$LOCATION %>% unique()
[1] "AUS" "AUT" "BEL" "CAN" "CZE"
[6] "DNK" "FIN" "FRA" "DEU" "GRC"
[11] "HUN" "ISL" "IRL" "ITA" "JPN"
[16] "KOR" "LUX" "MEX" "NLD" "NZL"
[21] "NOR" "POL" "PRT" "SVK" "ESP"
[26] "SWE" "CHE" "TUR" "GBR" "USA"
[31] "CHL" "EST" "ISR" "RUS" "SVN"
[36] "OECD" "EU28" "G-7" "LVA" "LTU"
[41] "EA19" "ZAF" "CRI" "BGR" "HRV"
[46] "ROU" "EU27_2020" "COL"
df_oecd_productivity$INDICATOR %>% unique()
[1] "GDPHRWKD"
df_oecd_productivity$SUBJECT %>% unique()
[1] "TOT"
df_oecd_productivity$MEASURE %>% unique()
[1] "USD" "IDX2015"
df_oecd_productivity$FREQUENCY %>% unique()
[1] "A"
df_oecd_productivity$TIME %>% unique()
[1] 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981
[13] 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
[25] 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
[37] 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
[49] 2018 2019 2020 2021
df_oecd_productivity %>%
filter(MEASURE == "USD", TIME == 2021) %>% # filtering rows with conditions
select(LOCATION, Value) %>% # selecting columns
arrange(desc(Value)) # ordering the rows in the descenting order of the column Value
いくつかの地域を選んで、折線グラフを書いてみる。
3行目がないとどうなりますか。
df_oecd_productivity %>%
filter(LOCATION %in% c("JPN", "OECD", "G-7", "EU28")) %>%
filter(MEASURE == "USD") %>% # same as above up to this line
ggplot(aes(x = TIME, y = Value, col = LOCATION)) + geom_line() +
labs(title="GDP per hour worked", # adding the title and the subtitle
subtitle="Total, 2015=100, 2021 or latest available")
練習:教育
Education
成人の教育レベルに関する、次のサイトからデータをとって、調べてみてください。
Adult education level: https://data.oecd.org/eduatt/adult-education-level.htm
ダウンロードしたファイルのファイル名が
DP_LIVE_21022023120132654.csv
と同じであることを確認してください。
df_oecd_education_level <- read_csv("./data/DP_LIVE_21022023120132654.csv")
Rows: 7330 Columns: 8── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (5): LOCATION, INDICATOR, SUBJECT, MEASURE, FREQUENCY
dbl (2): TIME, Value
lgl (1): Flag Codes
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
上の労働時間当たりGDPの例に習って、データを調べてみてください。
colnames(df_oecd_education_level)
[1] "LOCATION" "INDICATOR" "SUBJECT" "MEASURE"
[5] "FREQUENCY" "TIME" "Value" "Flag Codes"
df_oecd_education_level$SUBJECT %>% unique()
[1] "BUPPSRY" "TRY" "UPPSRY" "TRY_MEN"
[5] "TRY_WOMEN" "UPPSRY_MEN" "UPPSRY_WOMEN"
これらは、何を意味しているのでしょうか。サイトの Perspectives
などをみてください。
他の列(変数)は、どうでしょうか。コードチャンクを挿入して、調べてみてください。
労働時間当たりGDPの例の真似をして、グラフを書いてみました。
df_oecd_education_level %>%
filter(LOCATION %in% c("JPN", "OECD", "G-7", "EU28")) %>%
ggplot(aes(TIME, Value, linetype = SUBJECT, col = LOCATION)) + geom_line() +
labs(title="Adult education level")
なにか現れましたが、国も、SUBJECT
も期待したものは現れていません。なにが問題なのでしょう。
気づいてたことを書き出してみましょう。
Excel Data
の読み込み
readxl
パッケージを使います。これは、tidyverse
をインストールするときに、同時に、インストールされますから、インストールは必要ありませんが、tidyverse
グループの主たるパッケージはないので、ロードはされていないので、使うときに、ロードする必要があります。
library(readxl) # need to load though readxl is a part of the tidyverse package and installed
実は、範囲を選択し、コピーをし、クリップボードから読む方法もありますが、二つの大きな理由から推奨しません。丁寧に、方法を記述しないと、再現性に問題があること、列のデータ・タイプなどが、適切に、読み込めない場合が多く、読み込んでからの作業が複雑になる。とっても、小さな、自分で作成したデータの場合には、有効かもしれません。
df_excel_clipboard <- read_delim(clipboard())
例:
世界の出生率(Fertility) UN Data
ホットなトピックですね。日本の問題、そして、自分ごととしてだけでなく、世界の状況を見る視点も持ちましょう。
UN data から、検索窓の上にある、Datamarts
を選択し、下のほうにある、World Fertility Data United Nations Population
Division (UNPD) の [+] 記号を開きます。右の [i]
からは情報が得られます。三つのデータがあります。
まずは、“Age-specific fertility rates, Total fertility and Mean age
at childbearing” データを使うことにします。
- サイトから、Excel データをダウンロード。
- プロジェクト内のデータ格納フォルダに入れます。“./data/”
- 試しに、読み込みます。
- Files から、Import Dataset
を選択し、設定をして、もう一度、読み込む。
- 列名を修正
- 日本のデータを確認
- 年齢ごとの数を比較しやすいように、データを変形
- グラフを書いてみる。
- 出生平均年齢の表を降年齢順に見てみる。
- 密度分布グラフを書いてみる。
- 出生率の表を昇順に見てみる。
- 密度分布グラフを書いてみる。
Steps 1-3.
- サイトから、Excel データをダウンロード。
- プロジェクト内のデータ格納フォルダに入れます。“./data/” {-}
- 試しに、読み込みます。サイトから、Excel
データをダウンロード。{-}
どんなシートがあるか見てみましょう。読み込みに問題があるときは、データ名からスペースを消し、下のコードも修正して読んでみてください。スペースなどがあると問題が起こる場合があります。
excel_sheets("./data/Age-specific fertility rates, Total fertility and .xls")
[1] "FERTILITY INDICATORS" "GENERAL NOTES"
[3] "SOURCES"
シートを指定するときは、sheet = 1
とか、sheet = "CHILDREN_EVER_BORN"
とします。
指定がないときは、最初のシート。詳細は、Help で、read_excel
として、確認してください。たくさんの、オプションがあります。
df_un_fertility <- read_excel("./data/Age-specific fertility rates, Total fertility and .xls")
New names:
構造が複雑そうです。
Step 4. Files から、Import Dataset
を選択し、設定をして、もう一度、読み込む。
ファイル名も変更しておいが方がよい場合もあります。そのときは、変更記録を
RNotebookに追記しておくと良いでしょう。下の例では、上の4行をスキップ。列が、text(文字)
か、numeric(数値)かを選択。読み込まないときには、skip しています。
df_un_fertility <- read_excel("./data/Age-specific fertility rates, Total fertility and .xls",
col_types = c("text", "numeric", "text",
"numeric", "text", "numeric", "numeric",
"numeric", "numeric", "numeric",
"numeric", "numeric", "numeric",
"numeric", "skip", "text", "skip",
"skip", "skip", "skip", "skip", "skip"),
skip = 4)
df_un_fertility <- read_excel("./data/Age-specific fertility rates, Total fertility and .xls",
col_types = c("text", "numeric", "text",
"numeric", "text", rep("numeric", 9), "skip", "text",rep("skip", 6)),
skip = 4)
Step 5. 列名を修正
修正したい列名をコピーしておく。
Country, ISO code, Period, Reference, NA, Total fertility
1列目から、6列目と、14列目と、15列目を、書き換えます。
colnames(df_un_fertility)[c(1:6,14:15)] <- c("country", "iso", "period","year", "range", "fertility_rate","mean_age","source")
df_un_fertility
Step 6. 日本のデータを確認
df_un_fertility_jp <- df_un_fertility %>% filter(country == "Japan")
df_un_fertility_jp
Step 7.
年齢ごとの数を比較しやすいように、データを変形
すこし、難しいですが、pivot_longer
を Help
で調べてください。
df_un_fertility_jp %>% pivot_longer(-c(1:6, 14:15), names_to = "age_range", values_to = "value")
Step 8. グラフを書いてみる。
df_un_fertility_jp %>% pivot_longer(-c(1:6, 14:15), names_to = "age_range", values_to = "value") %>%
ggplot(aes(x=year, col=age_range, linetype = age_range)) + geom_line(aes(y=value))
いろいろなことがわかります。
Step 9.
出生平均年齢の表を降年齢順に見てみる。
df_un_fertility %>%
filter(year %in% c(2010)) %>% select(country, mean_age) %>%
drop_na(mean_age) %>%
arrange(desc(mean_age))
Step 10. 密度分布グラフを書いてみる。
df_un_fertility %>% filter(year %in% c(1970, 1990, 2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(mean_age, fill = factor(year))) + geom_density(alpha = 0.5) +
# scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
# coord_cartesian(xlim=c(20,40)) +
labs(title="Mean age at childbearing", fill = "year")
df_un_fertility %>% drop_na(mean_age) %>% group_by(year) %>% summarise(n=n()) %>% arrange(desc(n))
df_un_fertility %>% filter(year %in% c(1970, 1985, 1995, 2005, 2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(mean_age, fill = factor(year))) + geom_density(alpha = 0.3) +
labs(title="Mean age at childbearing", fill = "year")
df_un_fertility %>% filter(year %in% c(1970, 1985,1995, 2005,2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(mean_age, fill = factor(year))) + geom_density(alpha = 0.5) + facet_wrap(~ factor(year)) +
labs(title="Mean age at childbearing", fill = "year")
11. 出生率の表を昇順に見てみる。
df_un_fertility %>%
filter(year %in% c(2010)) %>% select(country, fertility_rate) %>%
drop_na(fertility_rate) %>%
arrange(fertility_rate)
Step 12. 密度分布グラフを書いてみる。
df_un_fertility %>% filter(year %in% c(1970, 1990, 2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(fertility_rate, fill = factor(year))) + geom_density(alpha = 0.5) +
labs(title="Total fertility", fill = "year")
df_un_fertility %>% drop_na(fertility_rate) %>% group_by(year) %>% summarise(n=n()) %>% arrange(desc(n))
df_un_fertility %>% filter(year %in% c(1970, 1985, 1995, 2005, 2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(fertility_rate, fill = factor(year))) + geom_density(alpha = 0.5) +
labs(title="Total fertility", fill = "year")
df_un_fertility %>% filter(year %in% c(1970, 1985, 1995, 2005, 2010)) %>%
drop_na(mean_age) %>%
ggplot(aes(fertility_rate, fill = factor(year))) + geom_density(alpha = 0.5) + facet_wrap(~ factor(year)) +
labs(title="Total fertility", fill = "year")
参考例2:学校種類別進学率の推移(日本語データ)
男女共同参画局の資料です。
学校種類別進学率の推移: https://empowerment.tsuda.ac.jp/detail/82584
url_school_jp <- "https://www.gender.go.jp/about_danjo/whitepaper/r02/zentai/html/honpen/csv/zuhyo01-04-01.csv"
エンコーディング(Encoding type)を推測することができます。
guess_encoding(url_school_jp, n_max = 10000, threshold = 0.2)
df_school_jp <- read_csv(url_school_jp, locale = locale(encoding = "Shift_JIS"), skip=2)
Rows: 70 Columns: 10── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (1): 年度
dbl (9): 高等学校等(男子), 高等学校等(女子), 専修学校(専門課程,男子), 専修学校(専門課程,女子), 大...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
df_edu0 <- df_school_jp
colnames(df_edu0) <- c("year", "highschool_m", "highschool_f", "vocational_m", "vocational_f", "university_m", "university_f", "juniorcollege_f", "gradschool_m", "gradschool_f")
df_edu00 <- df_edu0 %>% mutate(year = 1950:2019,
highschool = (highschool_m + highschool_f)/2,
vocational = (vocational_m + vocational_f)/2,
university = (university_m + university_f)/2,
juniorcollege = juniorcollege_f,
gradschool = (gradschool_m + gradschool_f)/2)
df_edu00 %>% filter(year >= 1954) %>% select(-(2:10)) %>%
pivot_longer(3:5, names_to = "schools", values_to = "percentage") %>%
mutate(types = factor(schools, levels = c("vocational", "juniorcollege", "university"))) %>%
pivot_longer(c(highschool, gradschool), names_to = "highgrad", values_to ="value") %>%
mutate(high_grad = factor(highgrad, levels = c("highschool", "gradschool"))) %>%
ggplot() +
geom_area(aes(x = year, y = percentage, fill = types)) +
geom_line(aes(x = year, y = value, linetype = high_grad)) +
scale_x_continuous(breaks = round(seq(1960, 2020, by =10),1)) +
scale_y_continuous(breaks = round(seq(0, 100, by =10),1)) +
labs(title = "Tertially Education After Highschool",
subtitle = "with Highschool Graduates and Graduate School",
fill = "", linetype = "")
(続)探索的データ解析 (EDA)
NY.GDP.PCAP.CD: GDP per capita (current US$)
df_wdi_gdppcap <- WDI(country = "all", indicator = c(gdp_pcap = "NY.GDP.PCAP.CD"))
write_csv(df_wdi_gdppcap, "./data/df_wdi_gdppcap.csv")
df_wdi_gdppcap <- read_csv("./data/df_wdi_gdppcap.csv")
Rows: 16492 Columns: 5── Column specification ──────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, gdp_pcap
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
参考 -
今後の学習のために
RNotebook の活用
下のリンクを開き、右上の Code ボタンから、Download Rmd
を選択すると、ダウンロードできますから、ダインロードしたものを、プロジェクト・フォールダーに移動またはコピーしてください。ダウンロードできないときは、Ctrl
を押しながら、Download Rmd をクリックすると、Save As
で保存できると思います。ブラウザーによって仕様が異なりますから、適切な方法を選んでください。
Windows でも、Mac でも提供されている、Google Chrome の場合には、Code
ボタンから、ダンロードされるはずです。
クラウド - Posit
Cloud
RStudio
Cloudは、誰でもオンラインでデータサイエンスを行い、共有し、教え、学ぶことができる、軽量でクラウドベースのソリューションです。月25時間の制限がありますが、内容を共有して、他のアカウントから利用することも可能です。
クラウドサービス How to Start Posit Cloud
- Go to https://posit.cloud/
- Sign Up: top right
- Email address or Google account
- New Project: Project Name
IT ツールについて
モバイルアプリでも、さまざまに可能ですが、条件付き課金など、アプリによっても、機種によっても、異なるので、ここでは、PC
での利用について書きます。
RStudio または Posit
Studio で R
Google Chrome
での自動翻訳
Windows の Edge や、Mac の Safari
でも可能です。翻訳エンジンが異なるので、使い勝手もありますが、いくつか試して、自分の好きな、信頼できる、翻訳エンジンを利用するのがよいと思います。
設定
- 上のバーの一番右にある、縦にならんだ三点から、一番下の設定を選択
- 左の帯から言語を選択
- 優先言語を確認:入っていなければ、日本語のつぎに、英語を入れる
- Google 翻訳を ON にする
- この言語に翻訳するを日本語に
- 翻訳するか確認しない言語を日本語に
使い方
- 検索窓の翻訳ボタンを利用。または、翻訳とでたときに、日本語を選択。
- 英語にもどしたいときは、同じボタンで戻す。
DeepL の活用
アプリを使っての翻訳
- DeepL のサイトのメニューからアプリを選択または
- アプリ
上からダウンロードしてインストールします。
- ショートカットキーが便利です。
- アプリを起動する
- 翻訳したい箇所を選択
- Windows は、Ctrl + C + C (コントロールを押しながら C を2回)、Mac
は、Command +C + C
(初期設定でこの機能が設定されていると思います)
- 3
が機能しない時は、左上の、メニューから設定を選択。ショートカットキーの設定を
ON
Chat GPT
- Try ChatGPT をクリック
- 人間であることを確認
- サインアップ
- メールアドレスと、パスワードを設定
- パソコンからだと、Short Message
を受け取れる携帯電話情報を聞かれます’
- アカウント作成のみ、携帯電話からすると、ステップが一つ減ります
- ログインして利用
- ChatGPT を、Google Chrome
などの、インターネットブラウザーの機能拡張として加えることも可能です。
- 質問に関しては、かなりの確度で理解しているように思われます。質問内容の一部を無視することは少ないように思われます。
- 質問のしかた、答えの内容を確認していく練習が必要です
- 基本的には、2021年9月までの情報をもとに、応答します
- 5秒ほどで、500文字程度の、応答をするモデルになっているため、その枠内で、質問に対してもっとも高い評価値の答えを選択して、応答しているようです。
- 確認をしたり、なにを根拠としているか、根拠となるサイトなどを確認し、より、確実な情報を絞り込み、さらに、質問をする、Chat
だということを認識して利用することが大切です。
- 何にでも答えるわけではありませんが、不確実な情報も応答するため、確認が必要です。
- 人間にも、どんな質問にも即座に、なんらかの情報を返す、知識が豊かなひともいますが、内容が、すべて正しいわけではありません。そのように、ある程度辻褄が合っている内容を、すぐ答えられることに、驚かされるということでしょうか。
Perplexity
- サイト
- 検索窓に、128文字までの検索語、質問などを入れると、情報のあるさいとをふくめて、教えてくれます。
- 検索語や、質問の書き方も練習する必要があります。
