1. イントロダクション#
1.1. 講義の概要#
本講義で扱う内容は,主に統計学の基礎とデータ解析の基礎である.高校から大学初年度で扱う統計学の入門的な内容(記述統計学と確率分布)を網羅的に学び,簡単なデータ解析ができるようになることを目標とする.講義は複数のテーマからなり,まず必要な統計学の知識を学んだ後,実データの解析例を示すという構成になっている.
DS学部では,1年次からPythonのプログラミングを学ぶので,実データの解析を扱う際にはPythonによるコーディングの例も示すようにする.(ただし,プログラミングの授業ではないので,詳細には立ち入らない.)統計学に関するより厳密で高度な内容は2年次の必修科目である「統計学I,II」で扱うことになる.よって,本講義はその前段階の橋渡し的な位置づけと捉えても良い.本講義は複数クラス開講科目であり,「情報処理の応用A」が並列で行われる.テキストはA,Bともに同じであるが,細かい授業内容は異なる.なお,「情報処理の基礎」とのつながりはあまりない.
講義で用いる資料は講義ノートとスライド,jupyter notebook(プログラミングの解説)であり,これらは随時更新する.講義のメインテキストは[1]であり,全体の構成はこれに基づくが,統計学の内容は文献[2, 3, 4, 5]を参考にしている.
1.2. 講義スタイル#
講義資料の1セクションを1テーマとし,前半は板書による解説,後半は各自のPCを用いた実習を行う.
実習では,講義資料からJupyter Notebook(ipynb
ファイル)をダウンロードし,実際にPythonプログラムを動かしながら課題に取り組む.
講義に関する連絡や講義資料の共有にはTeamsを用いる.
1.3. 評価方法#
レポートと授業への取り組み姿勢で評価する.試験は行わない.レポートは講義中に扱う「実例」についてまとめてもらう.希望者にはレポートの添削も行う.レポートは科学的な文書を書く訓練の意味も兼ねているので,書き方を指定する(次節参照).
1.4. PPDACメソッド#
PPDACメソッドとはProblem,Plan,Data,Analysis,Conclusionという科学的探求の手順を示したものである.カナダ・アメリカ・ニュージーランド等の学校教育で使用されている.本講義では,各テーマごとにデータ解析の実例を示すが,これらはPPDACメソッドに沿っている.以下に各ステップで行われる探求プロセスをまとめる.
STEP 1: Problem
第1ステップでは,まず関心のあるテーマを決め,そこでの課題を明らかにする. また,課題から問題の構造を明確にし,具体的な研究仮設(リサーチクエスチョン)を設定する.
STEP 2: Plan
第2ステップでは,研究仮設を明らかにするための分析の計画を立てる.具体的には,計測すべきデータや統計資料を決め,その収集計画を立てる.
STEP 3: Data
第3ステップでは,実際にデータを取得し,整理する.
STEP 4: Analysis
第4ステップでは,収集したデータを実際に分析する.分析の具体例としては,以下が挙げられる
全体の傾向(分布)を見る
条件の違いなどによってデータをグループに分け,比較する
指標間の相関関係を見る
指標間の因果関係を見る
時間経過による変化を見る(時系列解析)
対象を分類する(クラスタリング)
STEP 5: Coclusion
第5ステップでは,分析結果に基づいた考察や提言を行い,同時に新たな課題を明らかにする.最後に,最初に立てた研究仮設に対して判断や結論を示す.
1.5. レポートの書き方#
1.5.1. PPDACメソッドとの対応#
PPDACメソッドによる問題解決によって得られた結果はレポートや論文の形にまとめることになる.通常,レポートや論文は,Introduction(導入),Method(方法),Result(結果),Discussion(考察),Conclusion(結論),という手順でまとめる.
PPDACメソッドとの対応関係はおおよそ以下のようになる:
PPDAC |
レポート,論文 |
---|---|
Problem |
Introduction(導入,はじめに) |
Plan, Data |
Method(方法) |
Analysis |
Result(結果) |
Coclusion |
Discussion(考察), Conclusion(結論) |
1.5.2. 最低限遵守すること#
レポートとは,科学的な研究で得られた知見を,研究をやっていない人でも分かるようにまとめたフォーマルな報告書である. よって,見栄えが整っていることは大前提であり,その上で内容が伝わるように書く.最低限以下を遵守する:
鉄則:当事者でなくても分かるように書く
想定する読者を明確にすると,本文中で前提知識として扱って良い範囲が分かる.
例えば,同じ学部の学生を想定読者として設定すると書きやすい.
です・ます調ではなく,である調で書く
ワープロソフト(Word,LaTeXなど)を使って書いても良いが,書式は統一する
フォントや文字サイズを統一する,見出しをつける,数式エディタを使うなど
ソフトを使いこなせないなら手書きでも良い
初めにレポートのタイトル,学籍番号・氏名を書く
項目ごとに番号と見出しをつける(章立て)
PPDACメソッドに対応させると書きやすい
方法
2.1 使用データ
2.2 解析方法
本文は(この講義ノートのように)フォーマルな文章で過不足なく記述する
省略記号の使用,メモ書き,スライドのような簡略化した記述はレポートとして相応しくない
ファイル形式はPDF(手書きの場合はスキャンしてPDF化する)
レポートは1つのファイルにまとめ,ファイル名は
211k00000_narizuka.pdf
などとする
1.5.3. 各項目の書き方#
Introduction(はじめに)
まず,一般的な話題から書き始め,レポートで扱う研究課題に向けて焦点を絞っていく
次に,扱う課題がなぜ問題なのか,なぜ研究する必要があるのかを論理立てて説明する
最後に,レポートの目的を簡潔に述べる
レポートが長くなる場合には,レポートの構成を簡単に述べる
Method(方法)
課題解決のために用いる方法について述べる
どのようなデータを用いたのか?
どのようにデータを集めたのか?
データをどのような手法で解析したのか?
Result(結果)
分析によって得られた結果について図や表を用いながらまとめる
分析結果から直接分かることを中心に述べる
Discussion(議論)とConclusion(結論)
※ Discussion(議論)とConclusion(結論)を別々に書いても良い
分析結果に基づいた発展的な考察や提言について述べる
新たな課題について述べる
レポートの目的に対応させる形で結論を簡潔に述べる
※ 個人の感想は書かなくて良い
1.5.4. 参考文献について#
レポートの末尾に以下のように参考文献を記載する
書籍の場合:[1] 著者名,書籍のタイトル,出版社,出版年.
論文の場合:[2] 著者名,論文のタイトル,雑誌名,巻,出版年.
Webサイトの場合:[3] 著者名,ページ名,Webサイト名,URL,アクセス日.
本文で引用する際には,[1],[2],[3]のように番号を振る.
例)アイスクリームの消費量と気温の間には正の相関があることが報告されている [1,2].
例)ジニ係数は,集団内のばらつきを表す指標である [3-5].
1.5.5. 図・表について#
図の下部に図番号,タイトル,図の簡単な説明を付ける.
例)図1. テューキーの方式による箱ひげ図の例.
表の上部に表番号,タイトル,表の簡単な説明を付ける.
例)表1. 男女別の平均身長と標準偏差.
図・表は中央揃えにする.
レポートに載せた図と表は本文でも詳細を説明する.
例)図1は○○○についてまとめた図である.この図から△△△が分かる.
図・表は本文中の対応する説明文と近い位置に配置する.