Last Updated: 2023-03-09
データサイエンス教育一般ではなく、現在の、日本の大学において、リテラシー・レベルのデータサイエンス教育をどのように始めていったら良いかに絞って、考えていきたいと思います。
以下は、これまで、わたしが、学び、教え、経験しながら、考えてきたことを基盤としていますが、一般的ではないかもしれないことを、最初にお断りしておきます。
学校種類別進学率の推移(男女共同参画局の資料)
私が、AI に関して、本当にエキサイティングだと思うの は、科学をより早く進化させることを期待できるところです。私は AI によって助けられて進歩していく科学を見たいと思います。AI が、多くのつまらない労働をサポートしてくれるとともに、興味深いことを教えてくれ、山のようなデータから構造を見つけてくれ、人間のエキスパートや研究者がブレイクスルーをもっと素早く達成できるように、助けてくれることです。数カ月前にCERNの研究者と話す機会がありましたが、彼らは、データの量があまりにも膨大で処理できないようなデータと格闘しています。AI が膨大なデータの中から新しい何かを見つけてくれる未来はクールだと思います。
DeepMind founder Demis Hassabis on how AI will shape the future
児童養護施設でのこと
データサイエンスの授業を担当して
課題をリストする前に、まずは、なぜ、いま、データサイエンスか。さらに、なぜ、すべての人、特に、大学などで学ぶ理系、文系を問わず、学生が、学ばなければならないかを短くまとめると次のようになるとわたしは考えている。
AI(人工知能)で、大きく変化しつつある社会において、すべての人が、どのように生きていくかを、個人で、そして、協力して、批判的思考をしながら、根拠を確かめながら考え、意思決定に結びつけていくために、AI の背後にある、データサイエンスと、その考え方の基本を学ぶことが必須である。
そして、これに付け加えると、
日本は、国や社会のデジタル化、さらに、教育機関において、AI やデータサイエンス教育に向き合っていくことに、非常に遅れていると認識されている。
ということだと思います。みなさんは、どう思われますか。
実は、今回のコースデザインで一番、苦労したのは、英語の問題である。
英語でのリソースは、圧倒的で、質も非常に高い。
しかし、それは、現状では、簡単には、勧められない。それを、どのように回避しつつ改善していくか。
自動翻訳を用いることで、デジタル化された文字情報は、かなり利用できることを確認したが、ビデオなどのコンテンツが中心の Coursera や、edX など MOOCs のコンテンツの音声情報は使えない。
また、AI などの説明や、データサイエンスに関するコンテンツは、YouTube などもふくめて、良い質のものがあるが、英語の音声を日本語で出力する技術は、改善は期待するものの、まだ、十分ではなく、使えない。
一番よいのは、聞いて理解する部分に少しずつ慣れながら、学習することだが、現時点では、その負荷を最初から、かけることは不可能であるとの結論にいたり、その理解のもとで、考えたというのが実情である。
数学者、数学の教育者としてからいったん離れ、ひとりの人間として現実を見つめ、将来について考え、共に学ぶ姿勢をもつ。ここでは、以下の学びに焦点を当てる。
このなかで、数学など、自分が学んできたことの価値を考え、活用していくかを、個人として考える
データサイエンスは、これらのために、非常に適した学びだと考えています。具体的な学びについては、第二部で、実際に体験したいと考えています。
カリキュラムの内容を考えるときは
数学も、統計学も、コンピュータ科学も一旦忘れて、必要に応じて考える
演習も無償で殆どすべて提供
1. Data Science: R Basics; データ解析ソフト R の基本 2. Data Science: Visualization; データの視覚化 3. Data Science: Probability; 確率・大数の法則 4. Data Science: Inference and Modeling; 推定と数学モデル 5. Data Science: Productivity Tools; Unix, Git, GitHub, R Markdown 6. Data Science: Wrangling; データの整理 7. Data Science: Linear Regression; 線形回帰 8. Data Science: Machine Learning; 機械学習 9. Data Science: Capstone まとめと次のステップへの架け橋
AI も、データサイエンスのトレーニングも大学の中から大学の外に移っている
library(tidyverse) library(dslabs) list_dslabs <- data(package='dslabs') list_dslabs$results %>% as_tibble() %>% select(3:4)
## # A tibble: 29 × 2 ## Item Title ## <chr> <chr> ## 1 admissions Gender bias among graduate school admissions to UC Berkele… ## 2 brca Breast Cancer Wisconsin Diagnostic Dataset from UCI Machin… ## 3 brexit_polls Brexit Poll Data ## 4 death_prob 2015 US Period Life Table ## 5 divorce_margarine Divorce rate and margarine consumption data ## 6 gapminder Gapminder Data ## 7 greenhouse_gases Greenhouse gas concentrations over 2000 years ## 8 heights Self-Reported Heights ## 9 historic_co2 Atmospheric carbon dioxide concentration over 800,000 years ## 10 mnist_27 Useful example for illustrating machine learning algorithm… ## # … with 19 more rows
dslabs
に含まれるデータ(訳 DeepL)dslabs
に含まれるデータ(訳 DeepL)(続)dslabs
に含まれるデータ(訳 DeepL)(続)dslabs
に含まれるデータから見えること背後には、これだけの公開されているデータを具体的に分析して、分析自体を共有することも進んでいる。日本では、これだけの講義は、可能な人がいないだけでなく、実質的に不可能だと思われる。これは、2017年か2018年には、確立しているコースで、このレベルの内容を日本で提供するのは、現在のところお、永遠に不可能であるように思われる。
Chat GPT 学生のモチベーションを高め、データサイエンスにワクワクさせるためには、魅力的でインタラクティブなカリキュラムを提供することが重要です。ここでは、そのようなカリキュラムについて提案します。
問題解決型学習:学生が共感でき、データサイエンスの手法を使って解決できる実世界の問題から始める。例:貧困と教育の関係の把握、都市の交通パターンの予測、エネルギー消費の傾向の分析など。
インタラクティブな可視化。Tableau、PowerBI、D3.js などのデータ可視化ツールを使用して、データを調査、理解するよう生徒に促します。これらのツールを使用してインタラクティブなダッシュボードやビジュアライゼーションを作成すると、データのパターンや関係性を確認することができます。
グループプロジェクト:少人数のグループでデータサイエンス、プロジェクトに取り組むことを奨励します。これにより、協力的で協調的な学習環境が構築され、学生同士が互いに学び合い、学んだことを実践の場で応用する機会を得ることができます。
ゲストスピーカー:データサイエンス分野の専門家を招き、学生を対象に講演してもらう。データサイエンスがどのような職業なのか、より深く理解することができます。
ハンズオンワークショップ。教室で学んだことを応用できる、実践的なワークショップを提供する。例えば、データ分析にRを使うワークショップや、データの可視化にTableauを使うワークショップなど。
学生主導のディスカッション:学生がディスカッションをリードし、自分たちの成果をクラスで共有することを奨励する。これにより、協力的な学習環境を構築することができ、学生同士が知識やアイデアを共有する機会を得ることができます。
これらの要素をカリキュラムに取り入れることで、魅力的でインタラクティブな学習環境を構築することができ、データサイエンスについてもっと学びたいという学生の意欲をかき立てることができます。
オープンデータという言葉は、厳密な意味を持っています。データまたはコンテンツは、出所が明示されオープンという性質が維持されれば、誰でも自由に利用、再利用、再配布できるものを言います。
データは法的にオープンでなければなりません。つまり、パブリックドメインに置かれ、最小限の制限で自由に使用できなければなりません。
データは技術的にオープンでなければなりません。つまり、誰でも自由に使える一般的なソフトウェアツールを使ってデータにアクセスし、機械で読み取ることが可読な電子フォーマットで提供されていなければならなりません。パスワードやファイアウォールによる制限を受けずに、公共のサーバーで、だれでもアクセスできなければなりません。また、オープンデータを見つけやすくするために、さまざまな組織がオープンデータカタログを作成し管理してく必要があります。
レベル:リテラシーレベルを二段階に設定して設計
内容:基本的に下の二つとし、それを融合させた形で行う。
形式:グループワーク