AWS Lake Formation
1. サービス概要¶
AWS Lake Formation は、AWS が提供するフルマネージドサービスで、データレイクを構築、保護、管理するための機能を提供する。
このサービスを利用することで、様々なデータソースからデータを効率的に収集し、カタログ化、変換、共有できる。
Lake Formation は、データのアクセス制御やセキュリティポリシーを一元的に管理し、データレイクの運用を簡素化する。
主なユースケースとして、
- データレイクの構築
- データカタログの作成
- データアクセス制御
- データのガバナンス
- データ共有
などが挙げられる。
2. 主な特徴と機能¶
2.1 データレイクの構築と設定¶
AWS Lake Formation は、Amazon S3 を基盤としたデータレイクを容易に構築できる。
データレイクの構成、ストレージ設定、データアクセス制御などを設定できる。
2.2 データカタログの作成と管理¶
AWS Glue Data Catalog を利用して、データレイク内のデータセットを自動的に検出、カタログ化できる。
データテーブルのスキーマ、パーティション、ロケーションなどのメタデータを管理できる。
2.3 集中型アクセス制御¶
データレイク内のデータに対するアクセス権限を一元的に管理できる。
テーブル、カラム、行レベルでのアクセス制御をサポートしている。
2.4 細粒度なアクセス制御¶
データに対する読み取り、書き込み、削除などの権限を、ユーザーやグループごとに詳細に設定できる。
これにより、データのセキュリティを強化できる。
2.5 データ共有¶
データレイク内のデータを、異なる AWS アカウントや組織間で安全に共有できる。
これにより、データコラボレーションを促進できる。
2.6 データ変換¶
AWS Glue と連携して、データレイクに格納されたデータを変換できる。
ETL ジョブを作成し、データのクリーニング、変換、正規化などを実行できる。
2.7 ブループリント¶
一般的なデータレイクの構成パターンを定義したブループリントを提供している。
これにより、データレイクの構築を迅速に行える。
2.8 統合性¶
Lake Formation は、AWS の他のサービス(AWS Glue, Amazon Athena, Amazon Redshift, Amazon EMR など)と統合されており、データレイクの構築、分析、活用を効率的に行うことができる。
AWS Lake Formation タグを利用して、リソースを分類できる。
3. アーキテクチャおよび技術要素¶
- ユーザーは、Lake Formation コンソールまたは API を使用して、データレイクを設定。
- Lake Formation は、データソース(Amazon S3 など)からデータを収集し、AWS Glue Data Catalog にメタデータを登録。
- ユーザーは、Lake Formation を通じてデータアクセス権限を管理。
- 必要に応じて、AWS Glue でデータ変換を実施。
- Amazon Athena、Amazon Redshift、Amazon EMR などのサービスでデータを分析。
AWS Lake Formation は、フルマネージドサービスとして提供され、高い可用性、スケーラビリティ、セキュリティを内包している。
データレイクの構築、管理、共有を簡素化し、ユーザーはデータ分析に集中できる。
4. セキュリティと認証・認可¶
セキュリティは Lake Formation の重要な要素である:
- IAM によるアクセス制御: AWS IAM を利用して、Lake Formation リソースへのアクセスを制御し、権限を管理。
- データ暗号化: 転送中および保存中のデータを暗号化し、データの機密性を保護。
- VPC サポート: Amazon VPC 内で Lake Formation を使用する場合、プライベート接続を確立。
- 監査ログ: AWS CloudTrail を利用して、API 呼び出しやリソース変更を記録。
- タグベースのアクセス制御: AWS Lake Formation タグを利用して、リソースレベルのアクセス制御を実施。
これにより、データレイクの安全性とコンプライアンスを確保できる。
5. 料金形態¶
AWS Lake Formation の料金は主に以下に基づく:
- データカタログ操作: データカタログのメタデータ操作数に応じた課金。
- データアクセス制御: アクセス権限の付与、変更回数に応じた課金。
- データ変換: AWS Glue によるデータ変換に要した時間に応じた課金。
6. よくあるアーキテクチャ・設計パターン¶
一般的なパターンは以下の通りである:
- データレイクの構築: 複数のデータソースからデータを S3 に集約し、Lake Formation で管理されたデータレイクを構築。
- データカタログの作成: AWS Glue Data Catalog を利用して、データレイク内のデータをカタログ化し、メタデータを管理。
- データアクセス制御: データレイク内のデータに対するアクセス権限を一元的に管理し、セキュリティポリシーを適用。
- データ共有: データレイク内のデータを、異なる AWS アカウントや組織間で安全に共有。
- データガバナンス: データ品質、データ lineage、データアクセス履歴などを管理し、データガバナンスを実現。
7. 設定・デプロイ手順(ハンズオン例)¶
- AWS コンソールで Lake Formation を有効化。
- データレイクの管理者とデータレイクのロケーションを設定。
- AWS Glue Data Catalog にデータソース(Amazon S3 など)を登録。
- データに対するアクセス権限を付与。
- AWS Glue でデータ変換ジョブを作成し、実行。
- Amazon Athena でデータクエリを実行。
8. 試験で問われやすいポイント¶
8.1 データレイクの構築と設定¶
- S3 基盤: Amazon S3 をデータレイクの基盤としていることを理解。
- 設定管理: ストレージ設定、データアクセス制御などを設定できることを理解。
8.2 データカタログの作成と管理¶
- Glue Data Catalog: AWS Glue Data Catalog を利用してメタデータを管理することを理解。
- メタデータ管理: スキーマ、パーティション、ロケーションなどのメタデータを管理できることを理解。
8.3 集中型アクセス制御¶
- 一元管理: データレイク内のデータに対するアクセス権限を一元的に管理できることを理解。
- アクセスレベル: テーブル、カラム、行レベルでのアクセス制御をサポートしていることを理解。
8.4 料金体系¶
- データカタログ操作: メタデータ操作数による課金を理解。
- データアクセス制御: アクセス権限の付与、変更回数による課金を理解。
- データ変換: AWS Glue によるデータ変換時間による課金を理解。
8.5 類似・関連サービスとの比較¶
- AWS Glue: ETL サービス。Lake Formation はデータレイク管理サービス。
- Amazon Athena: インタラクティブなクエリサービス。Lake Formation はデータアクセス管理サービス。
8.6 試験で頻出となる具体的な問われ方と答え¶
- Q: AWS Lake Formation の主な用途は?
- A: データレイクの構築、保護、管理、共有を容易にすること。
- Q: Lake Formation のデータレイクの基盤は何?
- A: Amazon S3。
- Q: Lake Formation でデータカタログを作成するために利用するサービスは?
- A: AWS Glue Data Catalog。
- Q: Lake Formation はどのようなアクセス制御をサポートする?
- A: テーブル、カラム、行レベルでのアクセス制御。
- Q: Lake Formation の料金体系は?
- A: データカタログ操作、データアクセス制御、データ変換に応じた課金。
- Q: Lake Formation と AWS Glue の違いは?
- A: Glue は ETL サービス、Lake Formation はデータレイク管理。
- Q: Lake Formation と Athena の違いは?
- A: Athena はクエリサービス、Lake Formation はアクセス管理サービス。