Rでデータサイエンス

3/TU

演習助手:鈴木寛(Hiroshi Suzuki)

場所:3/TU ILC106

概要

世界銀行のデータを使ったデータサイエンスの基礎を学び、実際のデータを分析する基礎的な方法を演習を通じて学ぶ予定である。データ分析ソフトとしてRとRStudioを使う。火曜日の演習はILC-106で行う予定である。

データサイエンス演習の目的は次の2つである。

  1. 国際機関が公表しているデータベースからデータを収集し、自由に利用できる基本的なスキルを身に着ける。
  2. 講義で学習した内容に関連するデータを世界的なレベルで調べてみる。問題を「世界ごと」として考える視点を養う。
  3. WDIの関連するデータを調査することで、「自分なりの問い」を持てるようになる。

コメントの提出

開講日中(23:59まで)にコメントを提出してください。コメントには、講義の内容に関するコメント、質問を書いてください。講義への参加としてカウントしています。

資料

このページにリンクします。

基本的には、PositCloud(機能限定 だが Free の Cloud 上の RStudio)でできる範囲のことをする予定で、共有プロジェクトにも演習ファイルをアップロードする予定です。

自分のコンピュータにインストールする場合:R と R Studio のインストールについて [リンク]・[ビデオ]

スケジュール

第1週

12/07(TH) イントロダクション: 市場の失敗とSDGs 1

        市場の失敗とSDGs 2

資本主義経済が引き起こす問題:不平等の拡大、気候変動などとSDGsが提案された理由を簡単に講義します。

12/12(TU) Rでデータサイエンス1:導入 [スライド]・[RNotebook]・[Video]

変更期間です。次週から参加する学生がいることを想定する必要があります。RとRStudioのインストールやRを使うことのメリット、Rの簡単な使い方など。

第2週

12/14(TH) 所得と富の不平等の現状1

       所得と富の不平等の現状2

講義では、第2週、第3週とWorld Inequality report 2022を使って、所得と富の不平等について議論します。

12/19(TU) Rでデータサイエンス2:人口の少子高齢化 [スライド]・[RNotebook]・[ビデオ]

演習ファイル:[demography1.Rmd]・[demography2.Rmd]

作業例:[demograpny1_workfile.nb.html]・[my_demograpny2_workfile.nb.html]

(R Markdown ファイル(ソース・ファイル) は、右上の、Code ボタンからダウンロードすることが可能です。)

作業ビデオ:[Video1]・[Video2]

People- Population dynamics

Population, total:SP.POP.TOTL

Birth rate, crude (per 1,000 people):SP.DYN.CBRT.IN

Death rate, crude (per 1,000 people):SP.DYN.CDRT.IN

Age dependency ratio, young (% of working-age population):SP.POP.DPND.YG

Age dependency ratio, old (% of working-age population):SP.POP.DPND.OL

演習の内容

基本的には、PositCloud(https://posit.cloud/)を使って実習

  • パッケージのインストールとロード

    • インストールは一回だけ、ロードはその日のセッションの最初に(eg. library(tidyverse); library(WDI)
  • データの読み込み

    • eg. df_pop <- WDI(indicator = c(pop = "SP.POP.TOTL"))
  • データの確認

    • eg. df_pop , head(df_pop) , str(df_pop)
  • 行の選択(filter())

    • filter(条件) :条件にあった行の選択抽出

      • filter(変数 == “文字列”) :変数が文字列と一致するものを抽出(= ではなく、== に注意)

      • filter(変数 %in% c(“文字列1”, …, “文字列n”) : 変数が文字列1 から 文字列n のどれかに一致したものを抽出

      • filter(!条件) :条件と一致しないものを抽出。

      • filter(条件1, 条件2):条件1 に一致するもののなかで、条件2 に一致するものを抽出。

      • filter(変数 < 数値):数値のときは、引用符なし。<=, >, >= も同様。

    • distinct(変数):変数の値が異なるもののみ抽出

    • drop_na(変数):変数の値が NA のものは、削除

  • パイプ・折れ線グラフ

    • df_pop |> filter(country == "World") |> ggplot(aes(year, pop)) + geom_line() + labs(title = "世界の総人口")

第3週

12/21(TH) 不平等を無くすために何をするべきか1

       不平等を無くすために何をするべきか2

講義では、所得の世界的格差の現状を踏まえて、高所得者に対する資産課税、金融取引税の可能性について議論します。

01/09(TU) Rでデータサイエンス3:GNI係数と所得分布  [スライド]・[R Notebook]・[ビデオ]

世界開発指標(WDI)[Link] > 貧困と不平等(Poverty and Inequality)> 所得または消費の分配(Distribution of income or consumption)

GINI 指数 (世界銀行推計):SI.POV.GINI [Link]

下位 10% が占める所得シェア:SI.DST.FRST.10 [Link]

下位 20% が占める所得シェア:SI.DST.FRST.20 [Link]

2番目の 20% が占める収入シェア:SI.DST.02ND.20 [Link]

3番目の 20% が占める収入シェア :SI.DST.03RD.20 [Link]

4番目の 20% が占める収入シェア:SI.DST.04TH.20 [Link]

上位 20% が占める収入シェア:SI.DST.05TH.20 [Link]

上位 10% が占める収入シェア:SI.DST.10TH.10 [Link]

演習の内容

基本的には、PositCloud(https://posit.cloud/)を使って実習

第4週

01/11(TH) 南部アフリカ諸国の貧困と不平等の現状1

      南部アフリカ諸国の貧困と不平等の現状2

第4週、第5週の講義では、貧困の問題が特に深刻な南部アフリカ諸国の問題を議論します。

World BankのINEQUALITY IN SOUTHERN AFRICA:AN ASSESSMENT OF THE SOUTHERN AFRICAN CUSTOMS UNION をテキストにしています。教育、失業、COVID-19の貧困に与える影響などを取り上げます。

01/16(TU) Rでデータサイエンス4:貧困 [スライド]・[R Notebook]・[ビデオ]

Poverty and Inequality―Distribution of income or consumption

Poverty rates at national poverty lines

Poverty headcount ratio at national poverty lines (% of population):SI.POV.NAHC [Link]

National poverty headcount ratio is the percentage of the population living below the national poverty line(s). National estimates are based on population-weighted subgroup estimates from household surveys. For economies for which the data are from EU-SILC, the reported year is the income reference year, which is the year before the survey year.

全国貧困人口比率は、全国貧困線以下で生活している人口の割合です。国の推定値は、世帯調査からの人口加重サブグループ推定値に基づいています。データが EU-SILC からのものである経済の場合、報告される年は所得基準年、つまり調査年の前年。

Poverty and Inequality―Poverty rates at international poverty lines

Poverty headcount ratio at $2.15 a day (2017 PPP) (% of population):SI.POV.DDAY [Link]

Poverty headcount ratio at $2.15 a day is the percentage of the population living on less than $2.15 a day at 2017 purchasing power adjusted prices. As a result of revisions in PPP exchange rates, poverty rates for individual countries cannot be compared with poverty rates reported in earlier editions.

1日2.15ドルの貧困人口比率は、2017年の購買力調整後価格で1日2.15ドル未満で生活している人口の割合です。PPP 為替レートの改定により、各国の貧困率を以前の版で報告された貧困率と比較することができなくなった。

Poverty headcount ratio at $3.65 a day (2017 PPP) (% of population):SI.POV.LMIC [Link]

Poverty headcount ratio at $3.65 a day is the percentage of the population living on less than $3.65 a day at 2017 international prices.

1 日 3.65 ドルの貧困人口比率は、2017 年の国際価格で 1 日 3.65 ドル未満で生活している人口の割合

Poverty headcount ratio at $6.85 a day (2017 PPP) (% of population):SI.POV.UMIC [Link]

Poverty headcount ratio at $6.85 a day is the percentage of the population living on less than $6.85 a day at 2017 international prices.

1日6.85ドルの貧困人口比率は、2017年の国際価格で1日6.85ドル未満で生活している人口の割合

演習の内容

基本的には、PositCloud(https://posit.cloud/)を使って実習

  • 貧困率 - Poverty Rate(poverty_rate.Rmd) [リンク], [Rmd]
    • より詳細なもの:poverty_rate_long.Rmd [リンク], [Rmd]
      • PositCloud では、メモリーオーバー
    • 授業中に、練習の解答を書き込んだファイル [リンク]
  • エラー対応
    • 入力したときには、スペルなどを確認してください。引用符が入っていなかったり、== のところが、= だったり、いろいろな可能性があります。Error message を読むこともたいせつです。Error message を、ChatGPT や、Google Search に入れると、解決方法を教えてくれることもあります。
    • File not found の、エラーがでたときには、上から順に、Run (Code Chunk の右上の三角印を押して実行)してみてください。または、エラーが出たところに、カーソルを置き、上の、Run ボタンの右の三角から、Run All Chunks Above を選択すると、そこまでのすべての Code Chunk を実行してくれます。
    • 上の方法でうまくいかないときは、data フォルダに、データ(poverty_rate.csv)が入っているかを確認、なければ、data フォルダがあることを確認して、最初のデータ読み込みのところを実行してみてください。
    • 実行できていても、結果が見えないこともあります。そのときは、Code Chunk の下にある、山二つの記号を押してみてください。これは、結果を表示、非表示にします。それが原因で隠れている場合があります。

第5週

01/18(TH) 南部アフリカ諸国の貧困と不平等に対する対策

      COVID-19が貧困に与えた影響  

  • 機会の不平等と成果の不平等が相互に関係し、長期にわたって持続している。

  • 人生の初期に出現する不平等を最小化するための政策が重要である。

  • 要因:教育、労働市場、失業率、男女間格差、土地所有権、などなど    

01/23(TU) Rでデータサイエンス5 [スライド]・[R Notebook]・[ビデオ]

People-Education

Government expenditure on education, total (% of GDP):SE.XPD.TOTL.GD.ZS

School enrollment, primary (% gross):SE.PRM.ENRR

School enrollment, secondary (% gross):SE.SEC.ENRR

School enrollment, tertiary (% gross):SE.TER.ENRR

Health

Mortality rate, under-5 (per 1,000 live births):SH.DYN.MORT

Incidence of HIV (% of uninfected population ages 15-49):SH.HIV.INCD.ZS

Gender

School enrollment, primary and secondary (gross), gender parity index (GPI):SE.ENR.PRSC.FM.ZS

Ratio of female to male labor force participation rate (%) (modeled ILO estimate):

SL.TLF.CACT.FM.ZS

Labor

Unemployment, female (% of female labor force) (modeled ILO estimate):SL.UEM.TOTL.FE.ZS

Unemployment, male (% of male labor force) (modeled ILO estimate):SL.UEM.TOTL.MA.ZS

Global Link - Aid dependency

Net official development assistance and official aid received (current US$)

DT.ODA.ALLD.CD

演習の内容と課題

基本的には、PositCloud(https://posit.cloud/)を使って実習

  • 探索的データ分析(EDA) -
    • 練習と一つ目の課題(w5eda.Rmd) [リンク], [Rmd]
    • 二つ目以降の課題:w5eda1.Rmd [リンク], [Rmd]
  • 課題:2023.1.27. 23:59 までに Moodle の演習の課題ボックスに提出したものについては、なるべく、早く見て、フィードバックを書きます。それ以降に提出されたものも見ますが、フィードバックは遅くなると思ってください。

第6週

01/25(TH) 気候変動問題の原因:気候変動と経済活動1

      気候変動問題の原因:気候変動と経済活2

第6週、第7週の講義では、気候変動が我々の生活にもたらす影響と対策を議論します。

基本的にIPCCの第6次評価報告書(https://www.data.jma.go.jp/cpdinfo/ipcc/index.html

をテキストに使っています。

01/30(TU) Rでデータサイエンス6:気候変動   [スライド]・[R Notebook]・ビデオ

Environment-Climate 

CO2 emissions (metric tons per capita) :EN.ATM.CO2E.PC

Forest area (% of land area):AG.LND.FRST.ZS

Renewable electricity output (% of total electricity output):EG.ELC.RNEW.ZS

Electricity production from oil, gas and coal sources (% of total):EG.ELC.FOSL.ZS

Electricity production from nuclear sources (% of total):EG.ELC.NUCL.ZS

IEA: Energy Statistics Data Browser データ元

https://www.iea.org/data-and-statistics/data-tools/energy-statistics-data-browser?country=WORLD&fuel=Energy%20supply&indicator=ElecGenByFuel

演習の内容

基本的には、PositCloud(https://posit.cloud/)を使って実習

  • 探索的データ分析(EDA) -
    • 練習と一つ目の課題(w6eda.Rmd) [リンク], [Rmd]
    • 二つ目以降の課題:w6eda1.Rmd [リンク], [Rmd]

第7週

02/01(TH)  気候変動に対する対策

       気候変動と貧困の連鎖

第7週は、南部アフリカや南アジアなど気候変動から大きな影響を受けている国々の現状を取り上げます。

02/06 (TU) Rでデータサイエンス7:都市部と農村部の生活状況の格差 [スライド]・[R Notebook]・[ビデオ]

Urban and rural development

Access to electricity, urban (% of urban population):EG.ELC.ACCS.UR.ZS

Access to electricity, rural (% of rural population):EG.ELC.ACCS.RU.ZS

People using at least basic drinking water services, urban (% of urban population):

SH.H2O.BASW.UR.ZS

People using at least basic sanitation services, rural (% of rural population):

SH.STA.BASS.RU.ZS

People using at least basic sanitation services, urban (% of urban population):

SH.STA.BASS.UR.ZS

People using at least basic drinking water services, rural (% of rural population):

SH.H2O.BASW.RU.ZS

演習

  • 縦長表(Long Table)
  • 箱ひげ図(Boxplot)

課題2

第8週

02/08(TH) 紛争と貧困の連鎖1

            紛争と貧困の連鎖2

第8週と第9週では、戦争、気候変動、COVID-19の複合的要因が世界的な食糧危機を引き起こし、格差と貧困を加速させている現状について、議論します。

02/13(TU) Rでデータサイエンス8:難民、軍事支出  [スライド]・[R Notebook]・[ビデオ]

Global Link-Refugees

  • 難民の出身国と受け入れ国 [R Notebook]

Refugee population by country or territory of asylum:SM.POP.REFG

Refugee population by country or territory of origin:SM.POP.REFG.OR

演習

  • 探索的データ分析まとめ:難民について [Rmd]
  • 探索的データ分析 [EDA]

第9週

02/15(TH)  紛争と貧困の連鎖3

       紛争と貧困の連鎖を断ち切る方法

02/20(TU) Rでデータサイエンス9:まとめと演習 [スライド]・[R Notebook]・[ビデオ]

演習

  • 探索的データ分析(EDA) :レポート作成にむけて

第10週

02/22(TH) 特別講義(千葉真先生)

資本主義と民主主義の関係について、政治学の立場から議論します。

02/27(TU) まとめ [スライド]・[R Notebook]・[ビデオ]

課題1、課題2、それ以外にも提出すればみますと言った練習問題は、すべて 2月27日深夜で締め切ります。

03月02日:レポート提出

演習における課題や質問など

Moodle 内の、課題・質問提出ボックスに、提出してください。点数はつけませんが、できるだけ、質問には、答え、コメントをつける予定です。講義への参加の部分にどの程度、含めるかは、担当教員に聞いてください。

評価

演習助手は、成績評価には関わりません

レポートが60%程度、講義への参加(コメントシートを含む)が20%程度、アサインメント(20%程度)の合計で評価される。

期末レポート

講義では、貧困と不平等の拡大の原因として、「富裕層への富の集中」、「機会の不平等」、「気候変動」、「紛争」、などを取り上げ、貧困や不平等の拡大を防ぐ対策について考えた。また、気候変動については今後の自然環境や人間生活に与える影響を分析し、気候変動対策について考えた。講義の内容を踏まえて、下記の課題から一つを選び、経済学的な視点からレポートを作成しなさい。

1.貧困と不平等拡大の原因を調べ、貧困がもたらす悪影響を解決する方法を経済的視点から論じなさい。

2.気候変動問題の現状と原因を調べ、気候変動がもたらす悪影響を解決する方法を経済的視点から論じなさい。

3.紛争の現状と原因を調べ、紛争がもたらす悪影響を解決する方法を経済的視点から論じなさい。

長さ:A4 5枚程度 PDFファイルで提出すること。(ファイル名にID、氏名を書いてください。)

締め切り:03月02日(23:59); 提出場所:Moodle上の提出Box

演習(R でデータサイエンス)の参考文献

  • 探索的データ分析 [EDA]
    • このコース(演習)のまとめとして、一つ一つのステップを説明したものです。断片的に、演習内で説明したことがほとんどですが、演習では、取り扱わなかった、ほとんど扱えなかったことは、参考としてあります。左の目次からも飛べますから、上からすべて読まなくてもよいように構成してありますが、できれば、ざっと読んでから、必要に応じて、参照するのがよいと思います。
  • 経済と経済学で使用したデータ:リンク
  1. 「みんなのデータサイエンス - Data Science for All」[Link]

    • 少しずつ書いているデジタルブックです。私のホームページには、このデジタルブックへのリンクとともに、他の授業で話した時の資料もあります。
  2. H. Wickham. R for Data Science (2e), [Link]・[O’REILLY]. 標準的な教科書。[第1版] の日本語版は、書籍としても最近出版されました。

  3. Bookdown: デジタルブックの出版形式の一つですが、Archive も含めると、膨大なデジタルブックが、無償で提供されています。[Link] [Archive Link]

  4. Y. Xie et al. R Markdown Cookbook, RMarkdown の詳細が書かれています。デジタルでの翻訳版 R Markdown クックブックも、上の、Bookdown Site に公開されています。[Link] [日本語版 Link]

  5. Posit Recipes(旧 Posit Primers): 基本的な情報が書かれています [Link]

  6. Cheat Sheet. 早見表です。印刷して使うために、PDF も提供しています。[Site Link]

  7. Posit Cloud. R Studio のクラウド版です。無償版は、機能限定ですが、ある程度使えます。[Link] 私が公開している Project の GES001 に、ファイルを追加していきます。[公開プロジェクト Link] [Posit Cloud Guide Link]