科目

データサイエンス

科目区分 専門教育科目(情報) 対象学年(以上) 3年
科目名称 データサイエンス 単位数 2.00単位
講義題目 ビッグデータに関する並列分散処理・解析 曜日・時限 月曜2限
担当教員 小畑 建太、吉岡 博貴 開講時期 2019年度後期
到達目標 データサイエンスとは何か,また,データサイエンティストに求められることを説明できる。さらに,以下の(1)-(3)の項目については基礎的な内容を実践できる:(1)並列処理プログラミング,(2)ビッグデータの並列・分散処理プログラミング,(3)データ分析と分析結果の可視化。
授業概要 データサイエンスを支える基礎的な情報処理技術である,ビッグデータの並列・分散処理,ならびに,データ分析手法および分析結果の可視化について,講義やMatlabの演習を通して,その基礎から実践に役立つ技術を身につけていく。なお,この授業は,産業技術総合研究所での研究経験を通して,衛星センサの相互校正業務に関する実務経験を有する教員による講義である。(2019年度は主に小畑建太が担当する。)講義内容には, 人工衛星による環境ビッグデータを用いたデータ処理・分析(相互校正等)を含める。
授業計画 1:概要(データサイエンスとは,ビッグデータとは,データサイエンティストに求められること)
2:並列・分散処理アーキテクチャ・並列化効率
3:並列・分散処理アルゴリズム
4:並列・分散処理プログラミング実践
5:ビッグデータの並列・分散処理アルゴリズム
6:ビッグデータの並列・分散処理プログラミング実践
7:前半のまとめ,および,中間試験とその解説
8:統計解析・可視化
9:統計解析・可視化のプログラミング
10:予測モデリング
11:予測モデリングのプログラミング
12:ビッグデータ分析に関するプログラミングの実践
13:ビッグデータ分析の演習(演習用データの確認、処理方針の検討等)
14:ビッグデータ分析の演習(処理結果の検討、その解釈に関する議論等)
15:まとめ・データサイエンス分野の今後の展開
定期試験
授業外学習 講義の一週間前までに配布する資料を予習しておくこと。講義後には確認のための小テストを予定している。講義資料と合わせて復習をしておくこと。講義中に指示する演習課題については,講義時間外に必ず実施しておくこと。
履修上の注意 本講義ではMatlabを使った演習を複数回実施する。Matlabによるプログラミングの基礎を学習していることを前提とする。
成績評価の方法 小テスト(約15%)と中間試験(約30%),期末試験(約45%),講義への積極性や演習課題への取り組み方(約10),を総合的に判断する。
教科書 適宜資料を配布する。
参考書 [1]吉田琢也,すべてがわかるビッグデータ大全,日経BP社,2016
[2]フレデリック・マグレス, フランソワ=グザヴィエ・ルー著, 桑原拓也著訳, 並列計算の数理とアルゴリズム, 森北出版社, 2015
[3]アクセンチュアアナリティクス, データ・アナリティクス実践講座, 翔泳社, 2016
[4]速水悟, 事例+演習で学ぶ機械学習, 森北出版社, 2016