なむなむ

@namb_nam による恥晒し

2022-01-01から1年間の記事一覧

WINDOWフレーム句のROWSとRANGEの違い

ウィンドウ関数の指定をROWでなくRANGEで指定するパターンを学んだ。 直前の日付のレコードがない場合は計算しない、などの使い方ができるから便利だ。 zenn.dev

Linux ディレクトリと空ファイルを作成する

ディレクトリを作るのは mkdir -p オプションをつけると、親ディレクトリも含めて作成する mkdir -p dirA/dirB を実行すると、dirAが存在する場合はその配下にdirBを、dirAが存在しない場合はdirAとその配下のdirBを作成する 空ファイルを作るのは touch 本…

インターポレーション / interpolation

インターポレーション / interpolation 内挿の意。 少なくともterraformの記述においては、 ${...}の中に与えられた式を評価し、 必要に応じてその結果を文字列に変換し、 最終的な文字列に挿入する補完処理 例 "Hello, ${var.name}!" ↓ "Hello, John!" www.…

BigQueryでtimestampの差分を出す

zenn.dev

データ処理言語の使い分け

『前処理大全』を読んでいる。 amzn.to SQL・R・Pythonの特徴を活かした使い分け 前処理のフェーズの向き・不向き データ構造を対象とした前処理 → SQL レポーティングやアドホックな分析をするときの「データ内容を対象とした前処理」 → R システム化すると…

BigQueryのコスト削減メモ

見つけたので読む。 towardsdatascience.com BigQueryにおけるlimit句は、メインのクエリ実行後に適用され、スキャン時間・コストを削減するためには使えない スキャン時間・スキャンコストを削減するためには、join か where句を使う テーブルの上位100けん…

BigQueryのクエリパフォーマンス最適化を学ぶ①

ベストプラクティスを学ぶシリーズ、どんどん続けていくぞ。 cloud.google.com クエリパフォーマンスの概要 クエリパフォーマンスに影響する要素 入力データとデータソース(I/O): クエリで何バイト読み取るか。 ノード間の通信(シャッフル): クエリから…

dbtのベストプラクティスを知る③

前回までの記事 dbtのベストプラクティスを知る① - なむなむ dbtのベストプラクティスを知る② - なむなむ 今回は、ベストプラクティスの中にあった、Git guideを読む。 github.com Git guide ゴールは2つ 複数のアナリストがコードベースで作業する際にも一…

BigQueryで月曜はじまりの週ごとに集計する

zenn.dev 初めてZennで記事書いた。

dbtのベストプラクティスを知る②

前回の記事 dbtのベストプラクティスを知る① - なむなむ 今回は、最後の2章からPro-tipsを学ぶぞ。 Pro-tips for workflows Use the model selection syntax when running locally 開発中、作業中のモデルと下流のモデルのみ実行するのが良いことがある モデ…

dbtのベストプラクティスを知る①

ベストプラクティスから読んで始めるdbt という記事が、とても素晴らしいなと。 しっかり公式のdocsを読む 自分なりの感想(得られた事項)を持つ わからないこともメモしておく 同じようにやってみよう。 馬鹿みたいだけど、同じ記事で。 (ついでに英語の…