データ処理言語の使い分け
『前処理大全』を読んでいる。
SQL・R・Pythonの特徴を活かした使い分け
前処理のフェーズの向き・不向き
処理による言語の向き・不向き
- データサイズが大きいデータから抽出処理をするときはSQL
- R/Pythonではメモリ上に展開できるデータサイズしか通常扱うことができない
- データを縦持ちから横持ちに変換するときはR/Python
- 前処理をシステム化するならSQLやPython
- システム化環境が充実しており、他システムとの連携も容易
- 実行結果を記録しつつ分析作業を進めるアドホック分析の実現はR/Python
- 容易なのはRだが、PythonもJupyterNotebookを用いれば実現可能
弊社の環境ではSQL in BigQuery + Pythonで、Rはほぼ使わない。 アドホック分析はBQのログを溜めていくか、Pythonでやるしかない。 そうか、縦横変換はPythonなら楽なのか...