なむなむ

@namb_nam による恥晒し

2022-03-01から1ヶ月間の記事一覧

データ処理言語の使い分け

『前処理大全』を読んでいる。 amzn.to SQL・R・Pythonの特徴を活かした使い分け 前処理のフェーズの向き・不向き データ構造を対象とした前処理 → SQL レポーティングやアドホックな分析をするときの「データ内容を対象とした前処理」 → R システム化すると…

BigQueryのコスト削減メモ

見つけたので読む。 towardsdatascience.com BigQueryにおけるlimit句は、メインのクエリ実行後に適用され、スキャン時間・コストを削減するためには使えない スキャン時間・スキャンコストを削減するためには、join か where句を使う テーブルの上位100けん…

BigQueryのクエリパフォーマンス最適化を学ぶ①

ベストプラクティスを学ぶシリーズ、どんどん続けていくぞ。 cloud.google.com クエリパフォーマンスの概要 クエリパフォーマンスに影響する要素 入力データとデータソース(I/O): クエリで何バイト読み取るか。 ノード間の通信(シャッフル): クエリから…

dbtのベストプラクティスを知る③

前回までの記事 dbtのベストプラクティスを知る① - なむなむ dbtのベストプラクティスを知る② - なむなむ 今回は、ベストプラクティスの中にあった、Git guideを読む。 github.com Git guide ゴールは2つ 複数のアナリストがコードベースで作業する際にも一…

BigQueryで月曜はじまりの週ごとに集計する

zenn.dev 初めてZennで記事書いた。

dbtのベストプラクティスを知る②

前回の記事 dbtのベストプラクティスを知る① - なむなむ 今回は、最後の2章からPro-tipsを学ぶぞ。 Pro-tips for workflows Use the model selection syntax when running locally 開発中、作業中のモデルと下流のモデルのみ実行するのが良いことがある モデ…