Entries from 2021-01-01 to 1 year
データリネージツール Stairlight の v0.2.0 を公開しました。 Stairlight とは テーブルレベルのデータリネージツールです。詳しくはこちらの記事をご参照ください。 ts223.hatenablog.com ts223.hatenablog.com 主なアップデート ラベル機能 同じテーブル…
この記事は、datatech-jp Advent Calendar 2021 の6日目の記事です。 こんにちは、GMOペパボ株式会社でデータエンジニアをしています、@tosh2230 と申します。 5日目は よしむらさんのデータマネジメント成熟度アセスメント、データ利活用機運アセスメントを…
結論 2021/11/22 現在、google-github-actions/auth など GCP の workload identity federation ログインで利用できるのは gcloud コマンドのみで、gsutil や bq は対象外になっています。 確認したこと この制限に気づかずに、GitHub Actions にて google-g…
Stairlight*1 という、テーブルレベルのデータリネージができるツールをつくりましたので、その特徴や使い方について書きます。 github.com 背景 ETL(Extract, Transform, Load) と呼ばれる一連のデータ加工プロセスにおいて、バッチ処理での Transform は、…
この度、PyCon JP 2021 で発表をするという機会に恵まれました。 発表内容やプロポーザルを出した動機、感想と振り返り、そして多方面への謝辞を述べます。 発表資料 ソースコード 発表内容 プロポーザルを出した動機 感想と振り返り 謝辞 @amedama さま、@n…
ここ数年、毎年ひとつ以上は何かの資格を取ることを目安に動いているのですが、今年は Google Cloud の Professional Data Engineer にしました。 2021/9/19 に受験し、翌日の 2021/9/20 に認定を受けました。資格の有効期間は 2年間です。再受験のときには…
AWS CloudFormation(以下、Cfn) のスタックドリフトを検出して、Slackに通知してみました。 ドリフト検出とは Cfn で定義したスタック内のリソースについて、定義した内容から変更が加わっていないかをチェックする機能です。Cfn で管理していることを知らず…
結論 Python の logging.getLevelName 関数で、ログレベルを表す数値とその名称に当たる文字列を相互変換することができます。関数名の印象だと 数値 -> 名称 の一方向っぽいのですが 、実は双方向で変換できます。 $ python Python 3.8.11 (default, Jul 31…
タイトルのとおり、Cloud Run で Streamlit を動かしてみました。また、特定の人のみがアクセスできるように、Identity-Aware Proxy(IAP) での保護を試しましたので、その設定やコードを紹介します。 Cloud Run で動かすのはすぐにできたのですが、複数の St…
[前回の記事](https://ts223.hatenablog.com/entry/dataflow-beam) では、Cloud Dataflow と Apache Beam に入門しました。その続きとして、今回は BigQuery に対してストリーミングインサートをしてみます。また、Cloud Pub/Sub と組み合わせることで Exact…
BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Bea…
はじめに 先日、BigQueryで「SUM関数の演算対象にNULLが含まれるときに結果はどうなるか?」という話になって、NULLになるんじゃないかな?とその時思ったけど、リファレンスを見たら普通に違った。 標準 SQL の集計関数 | BigQuery | Google Cloud NULL 以…
はじめに GCP のサービスの中には、gcloud コマンドの実行結果がなぜか標準エラー出力に流れてしまうケースがあります。私が把握している限りでは、Cloud Composer がこれに該当します。 エラーハンドリングをしようとしても正常終了時のメッセージが邪魔を…
はじめに AWS の IAM を Miam で管理している中で、AWS Cloud Formation で IAM を別途作成した場合にどのように管理するか、という課題について考えます。 対応方法 対応方法には、2通りあると考えました。 Miam の管理対象として DSL に追加する --exclude…
AWS Lambda に乗せるコンテナのベースイメージを自分でつくりたいときは、”Runtime Interface Clients” をイメージにインストールするとできます、というお話です。 AWSが提供しているベースイメージ docs.aws.amazon.com 2021年5月時点で、6言語のイメージ…
Cent OS 7 に PyAudio を インストールしたときにちょっともたついたのでメモ。 PyAudio は、マイクから得た音声データを Python でリアルタイムに取得できるライブラリ。 pypi.org pip install pyaudio や poetry add pyaudio すればいいと思いきやだめだっ…
3週間ほど前に書いた以下の記事ですが、最後に「これからやりたいこと」をいくつか挙げていました。 ts223.hatenablog.com このうち、2つを実現することができましたので、それらを紹介するとともに、最近の運用状況について書きます。 機能拡張 1. GCP Secr…
AWS Batch で使うシークレットを AWS Secrets Manager から取得したのでメモ。 設定は、前回の Step Functions → Batchの AWS Cloud Formation テンプレートに追加して、動作を確認しています。 GitHub - tosh223/practice-aws-batch: Sample code of AWS Ba…
AWS Step Functions から AWS Batch を呼び出す構成を AWS SAM で定義しました。 AWS Batch のジョブは、Fargate で動くようにしています。 すんなり定義できなかったところがいくつかありましたので、ひっかかったところをまとめました。 つくったテンプレ…
目的は自己管理と習慣化 システム要件 完成図 必要なもの 運用コスト グラフ Goプログラム help ツイート検索 画像内のテキスト解析 解析結果の登録 これからやりたいこと pixelaで草を生やす 過去データ移行 GCP Secret Manager 対応 英語対応 風来のシレン…
適当につくってしまったGoの開発環境を再構築した手順のまとめ。 環境 OS: CentOS 7 (VirtualBox on Windows 10 pro) IDE: Visual Studio Code Macからの Remote Explorer による SSH接続 構築手順 goenv インストール git clone https://github.com/syndbg/…
はじめに 小品ですが、ライブラリをつくっています。 その特徴やつくっている背景、解決したいことについてまとめています。 github.com 特徴 名前のとおり、キューのハブです。 Amazon SQS と Google Cloud Pub/Sub を同一のインターフェースで扱うことがで…
春になったし Cloud Workflows の検証でもしようかと思って、その部品として Cloud Functions を作るぞとなったので、最近入門したGoでやってみようと思いました。しかし、検索してもこの組合せのサンプルが全然出てこなかった。 結論 Terraform では、Go で…
2021/3/4 に以下の記事が出ました。待望のyaml対応! aws.amazon.com これで、Cloud Formation の Template と同じく yaml で統一できます。 どんな感じなのか、以前に json で作成したステートマシンを yaml で定義しなおして確認してみました。 対象とした…
Cloud Scheduler からリクエストをどのように送信するのか気になったので調べていたら、結局表題の内容になった。 Cloud Scheduler リクエストを送信する際の特徴は以下である。 cronで指定したスケジュールでリクエストを送信する --max-retry-attempts で…
Cloud Pub/Sub で作成したTopicのサイズを確認する方法を調べていたのだが、ちょっと癖があったのでメモ。 Python での実装 import os from datetime import datetime from google.cloud import monitoring_v3 from google.cloud.monitoring_v3 import query…
業務都合で GCP を使う機会が増えたけど、サービスアカウントってなんかわかりにくいなぁってずっと思ってた。でもそれは AWS の考え方を引きずっていたからだと気づいたので、両者の権限付与について違いをまとめる。ざっくりしたまとめなので、詳細な仕様…
SQL tester and cost estimator for Google BigQuery pypi.org v0.1.3 更新内容 yaml 設定ファイルにGlobalsが加わり、デフォルト設定を記述できるようにしました。 これにより、SQLファイルごとに何度も同じ設定を繰り返さなくてよくなりました。
巨人の肩の上に立ち、言葉の壁を乗り越えます。 悩み Cloud Translation Basic(v2) と Advanced(v3) の違い 対応言語 料金 Rubyでの実装 Basic(v2) Advanced(v3) 所感 悩み 英語のエラーメッセージで何を言われているのかわからない 関数や変数の命名で適切…
2020年12月に、AWS Lambda のパッケージタイプとして「コンテナイメージ」が追加されました。 aws.amazon.com 遅まきながら、どのようなものか体験しましたので、感想を適当に書きます。 やったこと 感じたこと イメージについて確認したこと 気になったこと…