public note

ストーリーで学ぶ Google BigQuery を読んだ

読書感想文です。

読んだ本

Google Cloud Platform実践ビッグデータ分析基盤開発 ストーリーで学ぶGoogle BigQuery

著者: 株式会社トップゲート

出版社: 秀和システム

ISBN-10: 4798059560

www.amazon.co.jp

どんな本か

紹介文より引用

Google BigQuery(ビッグクエリ)は、Googleが自社で保有している膨大なデータを効率的かつ高速に分析するために構築した社内データ分析基盤を一般提供したサービスです。その内部ではBorg、Colossus、Jupiter、DremelなどのGoogle独自のコアテクノロジーが活用されており、実行されたクエリはGoogle保有する膨大なインフラリソース上で瞬時に並列・分散処理されます。 その処理速度は1000億行のデータセットに対してインタラクティブに数十秒で結果を返してしまう程です。 本書では、社内に蓄積されているビッグデータを、新人さんがBigQueryを駆使してその優れた機能に感動しながらも悪戦苦闘し、分析基盤として利用していくサンプルケースを通して、BigQueryの利用方法を具体的に解説していきます。まずは気を楽にして物語を楽しみながら、登場人物達と共にBigQueryや関連するGCPサービスについて理解を深めていただければと思います。

読んだ感想

心得があったこともあり、1時間くらいでさくっと読み終えました。データ分析基盤 入門、といった様相で始まる本書。基盤を構築するぞ!という大本営発表がなされ、Google Workspace と GCP は使える状態だけど、これからどうしたらいいの…?という悩みを抱えたエンジニアが参考にすると良い本だな、というのが感想のひとつめです。BigQueryにデータを投入する方法、Google スプレッドシートGoogle データポータルとの連携方法など、基礎となる活用方法が紹介されていきます。また、BigQueryのアーキテクチャ概要やクエリを投げる際の注意点、bqコマンドによるバッチ処理パーティションクラスタ化によるチューニングといった、BigQueryを使っていく上で欠かせない前提知識やTipsが紹介されており、「これもっと早く読んでおけばな…」と軽めの青色吐息が出かけたそのとき、

"Chapter 5.4: ワークフローのオーケストレーション" (p.128) から、状況は一変します。ここから約 70ページに渡り、タイトルとは裏腹にCloud Composerについての話題が展開されます。本書は全233ページで構成されていますので、紙面の約三分の一が Cloud Composer に割かれていることになります。BigQueryの活用方法が知りたくて手にとった方からしてみれば、戸惑いを隠しきれない熱の入りようです*1。とはいえ、基盤を構築するとなればワークフローは必須で、GCPを使うとなればこの内容になるのも納得できます。

そして冷静になって考えてみると、Airflow・Cloud Composer を入門レベルで解説している書籍は大変珍しく、個人的にはこの章が最も参考になりました。Cloud Composer のアーキテクチャ概要やメジャーなOperator、Trigger Ruleの解説、DAGのサンプルなど丁寧に紹介されており、これから初めてAirflowを触る人(≒僕)にとって、良い入り口となる書籍なのではないか、というのが感想のふたつめです。

入門という位置づけなので仕方のないことではありますが、この一ヶ月で僕が何度も踏み抜いた大型地雷、 "start_date" や "execution_date" といったスケジューリング系に関する記述が少なかったのが、わたし大変気になりました。この本を読んで Cloud Composer に入門するぞ!と決意された方は、僕と同じ轍を踏まないためにも、フューチャーさんの下記ブログ記事をぜひともご参照いただき、快適なAirflow生活をお楽しみいただければと思います*2

future-architect.github.io

*1:僕はこういった著者の"熱"が感じられる文章を読むのが大好きです。

*2:ちなみに、僕は読んでいたのに踏みました。