2019.12.07
経営科学系研究部会連合協議会が主催するデータ解析コンペティションにおいて提供された,2016年4月~2018年3月の2年間の都内タクシー約1万台のプローブデータの分析結果を発表しました.約800Gbyteのデータを16台のコンピュータを使った並列計算によって,集計と分析を行いました.このために,分散処理システムのHadoopが利用している分散ファイルシステム(HDFS; Hadoop Distributed File System)とメモリ内処理をサポートするオープンソースの並列処理フレームワークのApache Sparkを使用しました.今後は,機械学習の手法を適用して予測を行う予定です.