後で考える

本、旅行、資格、お酒について書くと思います

データエンジニアのための用語集

データレイク

生データの保存場所。データストアとも。

データウェアハウス (DWH)

構造化データの保存場所だが、データマートと明確な区別はない。

データマート

特定の用途に向けて加工したデータの保存場所だが、DWHと明確な区別はない。

RDB

Relational Database

データを複数の表 (table) として保持するデータベース。

RDBMS

Relational Database Management System

RDBを管理するソフトウェア。

データクレンジング

データの重複、欠損、表記揺れをなくすための加工処理。

BI

Business Intelligence

データの可視化ツール。ダッシュボードを通してビジネス上の意思決定を助ける。

CI/CD

継続的インテグレーション (Continuous Integration) / 継続的デリバリー (Continuous Delivery)

DataOps

データの収集から分析を通した価値提供までの速度を最大化する。

  • 計画...データの収集・蓄積・活用、分析基盤の用途に関して合意
  • 実施...計画内容をエンジニアリング
  • 分析/可視化...BIやコーディングでパターンと関係を見出し、施策立案
  • フィードバック...試作の効果測定

SSoT

Single Source of Truth

信頼できる唯一の情報源。すべてのビジネスデータを一箇所に集約する。

サイロ化

データが部門ごとなどに別れて存在し、連携ができていない状態。

構造化データ

型・配置場所が決まっているデータ (e.g., RDB)

半構造化データ

配置場所が決まっているデータ (e.g., JSON)

非構造化データ

スキーマが決まっていないデータ (e.g., 画像)

ETL

Extract, Transform, Load

分析向けにデータを整形・加工する処理全般。

ELT

Extract, Load, Transform

データを加工する前にDBに格納する。

データラングリング

非構造化データ、半構造化データを構造化データに変換。

スケールアップ

計算リソースの質を向上させる (メモリ増強など)。

スケールアウト

計算リソースのノード数を増やす。

カップリング

計算能力とストレージを切り離すこと。

スレッド処理

同一ノード内における並列処理。スケールアップにより増強。

マルチノード処理

いわゆる分散処理。スケールアウトにより増強。

Apache Hadoop

分散処理のためのミドルウェア。計算処理とストレージのデカップリングがされない。

Kubernetes

仮想環境を運用管理する。デカップリングが可能。

MPPDB

Massively Parallel Processing Database

構造化データを並列処理するデータベースであり、収集・処理・蓄積を一手に担える。 Amazon Redshift や Google BigQueryなど。

Apache Spark

分散処理フレームワーク。インメモリを活用し高速化。同じデータを何度も見る機械学習にも適している。

Apache Hive

Hadoop向けのSQLのようなもの。

Presto

HadoopAWS S3 向けのクエリエンジン。

Snowflake

処理速度に強みを持つクラウドDWHサービス。

MapReduce

分散処理のためのフレームワーク

  • Map...データからKeyとValueのペアを生成
  • Combine...ローカルなReduce処理
  • Partition...Reduce処理の引き渡し先の決定
  • Shuffle...Reduce処理への引き渡し
  • Sort...キーに基づいてデータの並べ替え
  • Reduce...集約されたデータに対して処理を行う

データ仮想化

データマートを用意せず、クエリに応じて直接データソースへとアクセスする。

データパイプライン

データの収集からユーザーへの提供までの一連の流れ。

CDP

Customer Data Platform

年齢・性別やサイト閲覧履歴など顧客に関する様々なデータを管理する。

CRM

Customer Relationship Management

顧客関係管理。顧客満足度の向上を通して利益の拡大を図る。

MA

Marketing Automation

それぞれの (潜在) 顧客に対する適切なマーケティング方法を自動で行い、生産性向上などを狙う。

Treasure Data

CDPのサービス名。

ワークフロー

データパイプラインにおける一連の処理。

Digdag

Treasure Dataのワークフロー管理ツール。yml形式で記述。

Apache Airflow

Pythonで記述でき、自由度が高いワークフロー管理ツール。

Rundeck

GUIで設定できるエンジニア以外向けのワークフロー管理ツール。

データエンジニア

データパイプライン設計能力が求められる。

データサイエンティスト

機械学習、AIに関する知見が求められる。

データアナリスト

SQLベースの分析技術が求められる。