新卒エンジニアなので「エンジニアのためのデータ分析基盤入門」読みました

読んだ本

エンジニアのためのデータ分析基盤入門　データ活用を促進する！プラットフォーム＆データ品質の考え方 / 斎藤友樹

全員参加のデータ分析基盤の構築は大変だが、企業の意思決定などにおいて極めて価値のある仕事である。

前半の1〜4章では、データエンジニアリングの基礎知識やデータ分析基盤の構築・管理、技術スタック・プロダクトについて解説している。

5章はメタデータの重要性について。

メタデータはデータの生成時刻やフォーマット、保存場所など様々な情報のことを言う。

メタデータの考え方は無限であり、どのようなメタデータを保持するかは想像力とセンスが問われる。

同様に、リネージュ (データ同士の紐づき。ER図の発展版のようなもの)やプロバナンス (データの生成場所)、データモデル (粒度) などの情報を保持しておくと、運用・保守の役に立つ。

6章はデータマートの開発・管理に関して。

セルフサービス化によって、データマートの作成をエンジニアではなく誰でも行えるような環境を整備することが得策。

特にデータマートはエンジニアが作ったからといって活用される保証はなく、それよりも色々な人がトライ&エラーで作成できる方がリスクが少なく合理的である。

また、いきなりデータマートなどのテーブルを作成するのではなく、SQL Viewなどを活用して素早くPDCAサイクルを回せるようにしたほうが効率的である。

7章はデータの品質管理について。

データは時間の経過や転送、変換などの要因によって劣化する。

劣化を防ぐための制度づくりや、劣化を検出して修正する仕組みを作ることが重要となる。

そのためには、5章で述べたようなメタデータなどを用いてデータを管理することが有効である。

最後の8章はデータドリブンについて。

KGI/KPIを設定することで、BIを用いて可視化することの効果が強まる。

また、データ利用に関するKPI (アクセス頻度や実行ジョブ数など) を設定することで、データ基盤の利用状況のモニタリングや効率的なデータ提供が可能となる。

ただし、誰でも利用できるデータ分析基盤を整備して企業の意思決定を助けられるようになるまでには、数年単位の時間を要することになるだろう。

データエンジニア初心者向けの本。

前半はエンジニアリング・テクノロジ関係の内容が多いが、後半はマネジメントや運用・保守などビジネス寄りの内容となっている。

ハンズオンなどは特にないので読み物としての側面は強い。

出版時期が2022年2月と比較的新しく、AWSやGCPの解説や関係するURLなども提供されており、最新の技術スタックについても知ることができる。

ただし、これを読むだけで何か特定の技術や能力が習得できるわけではない。

特に自分のような新米エンジニアにとっては、せいぜいHadoopやSparkなどのプロダクトについて理解したりするのがせいぜいかと思われる。

もちろん、運用面についても様々な知識が盛り込まれており、自分は楽しく読むことができたが、これらの知識を活用できる場面はまだ想像できていない。

つまり、前半の内容はバッチリ「データ分析基盤入門」であるが、後半の内容はもう少し経験を積んでからでないと本当の意味で理解することは難しいと思われる。

だが、念頭に入れておいて損はないので、自分は割と満足している。

下っ端とはいえ、PMの行動を見て本書の内容と関連づけることができれば、もっと成長できそうだ。