public note

Entries from 2022-01-01 to 1 year

Debezium Server による Change Data Capture: from MySQL to Google Cloud Pub/Sub

GCP

この記事は、datatech-jp Advent Calendar 2022 の19日目の記事です。 @tosh2230 と申します。以前から気になっていた Debezium Server による Change Data Capture(CDC) をやってみました。 具体的には、MySQL のレコードに変更が加わった際に、その情報を …

aws batch list-jobs コマンドでのフィルタリング方法

AWS

AWS Batch Job のステータスを AWS CLI で確認する際のフィルタリング方法を調べました。 list-jobs コマンド ジョブのステータスを確認するには、aws batch list-jobs コマンドを使います。 docs.aws.amazon.com aws batch list-jobs --profile $PROFILE --…

Stairlight の運用方法を考える - 2022年、夏

データリネージツール Stairlight の運用方法について、こうするとよいのでは?と検討したことを書きます。 運用にあたっての課題 いま見えている範囲では2つあります。 設定ファイルを更新するタイミング リネージ抽出結果だけではその鮮度がわからない 設…

Fundamentals of Data Engineering を読んで

オライリーから出版された Fundamentals of Data Engineering を読みましたので、感想を書きます。 書籍情報 Fundamentals of Data Engineering by Joe Reis, Matt Housley Released June 2022 Publisher(s): O'Reilly Media, Inc. ISBN: 9781098108304 www.…

poetry publish コマンドで keyring の ModuleNotFoundError が起きたときの対応メモ

Poetry は依存するパッケージの管理だけでなく、PyPI に公開するのも簡単にできるのでとても便利です。 そんな中、poetry publish コマンドでエラーが発生するようになってしまいました。暫定対応により、現在は publish できています。そのときの対応メモが…

AWS Database Migration Service による Change Data Capture: 後編

Amazon RDS から Google BigQuery への CDC 後編です。後編では、S3 に格納された Parquet ファイルのデータを BigQuery に登録する部分を扱います。 構成図 前編はこちらをご覧ください。 ts223.hatenablog.com ソースコードは、前回同様にこちらで公開して…

AWS Database Migration Service による Change Data Capture: 前編

AWS

AWS Database Migration Service (以下、DMS) で Change Data Capture(CDC) を試してみました。 目的 構成 DMS のしくみ DMS の概要図 MigrationType 環境構築のポイント RDS パラメータグループ RDS への接続情報は SecretsManager に入れると便利 Replicat…

Stairlight v0.3.0: データソースとして Redash に対応しました

データリネージツール Stairlight の v0.3.0 を公開しました。 Stairlight とは テーブルレベルのデータリネージツールです。詳しくはこちらの記事をご参照ください。 ts223.hatenablog.com ts223.hatenablog.com 主なアップデート データソースとして Redas…

AWSのインターフェイス型VPCエンドポイントはAZごとに1つだけ設定できる

AWS

AWS のインターフェイス型 VPC エンドポイント (以下、Interface endpoint)を作成する際に、気になったことがあったのでまとめます。 サブネットの設定でエラーになった 例として、ECR エンドポイントを作成する CloudFormation のコードを挙げます。 ECREnd…