Azure Data Factoryとは?
Azure Data Factory(ADF)は、Microsoft Azureが提供するクラウドベースのデータ統合サービスです。 データの移動、変換、統合を自動化するためのプラットフォームであり、以下のような特徴があります。
【主な特徴】
特徴①:データの移動
異なるデータソース間でデータを移動することができます。
(例)オンプレミスのデータベースからクラウドストレージへのデータ転送などが可能です。
特徴②:データの変換
データの変換やクレンジングを行うためのデータフローを作成できます。
これにより、データの形式を統一したり、不要なデータを除去したりすることができます。
特徴③:スケジュールとオーケストレーション
データの移動や変換のプロセスをスケジュールし、自動化することができます。
これにより、定期的なデータ処理を効率的に行うことができます。
特徴④:統合と拡張性
Azureの他のサービス(Azure Synapse Analytics、Azure Databricksなど)と統合することができ、 データ処理のワークフローを拡張することができます。
実際の利用シナリオイメージ
【データウェアハウスの構築】
異なるデータソースからデータを収集し、データウェアハウスに統合するプロセスを自動化することができます。
【ETL(Extract, Transform, Load)プロセスの自動化】
データの抽出、変換、ロードの一連の処理を自動化し、データの整合性を保ちながら効率的に処理が可能です。
【データのバックアップとリストア】
定期的なデータのバックアップをスケジュールし、必要に応じてデータをリストアするプロセスを管理できます。
Data Factoryで押さえておきたい用語
[データソース]
- データが格納されている場所やシステムそのものを指す。
- データを取得するための最初の要素となります。
- データソースにはAzure Blob StorageやAzure SQL Databaseなど指定可能。
※上記以外にもオンプレミスDBやAmazon S3なども指定できる。
[データセット]
- データの構造(スキーマやフォーマット)、配置場所などを定義する。
- データセットはデータのソースやシンク(出力先)に対して操作を行うための情報。
- データのソースやシンクを設定する前に作成する必要がある。
[シンク]
- データが書き込まれる場所やシステムを指す。
- データソースから取得したデータをシンクに書き込むことで、データの移動や変換が成立する。
[リンクサービス]
- データソースやシンクに接続するための接続情報を定義する。
- 接続先の認証情報や接続文字列などを含む。
- データセットがどのデータソースやシンクにアクセスするかを指定する。
[パイプライン]
- データの移動や変換のプロセスを定義する。
- パイプラインには以下のようなアクティビティが追加できる。
- コピーアクティビティ(データをソースからシンクにコピーする)
- データフロー(データ変換を行う)
※上記以外にデータ統合や制御フローなど様々なものがある。
[トリガー]
- パイプラインの実行タイミングを制御する。
- トリガーには以下の種類がある。
- スケジュールトリガー(特定の時間や間隔で実行)
- イベントトリガー(特定のイベントで実行)
まとめ
今回紹介させていただいたAzure Data Factoryは、前述のとおりデータ移動や変換に 特化したサービスであり、Azureクラウド間だけでなくオンプレミスを含めた 様々な場面で活躍できるサービスです。
クラウドベースサービスの利点であるデータ量や処理負荷に応じた スケール調整ができるため、リソースを効率的に使うことが可能です。
開発についてもGUIベースのインターフェースで完結し、コードを書かずに パイプライン構築が完成するため開発知識の少ない運用保守者でも メンテナンスや改修ができる点も魅力です。
コスト面でも従量課金制のため初期投資が不要となり、コストを抑えながらデータ処理が できるため比較的導入の敷居は低いサービスの位置づけとなりますので 大量データに限らずデータの移動や変換が必要な際は是非利用を検討してみてはいかがでしょうか?