XI 本部 クラウドイノベーションセンターの米谷です。本記事は 電通国際情報サービス Advent Calendar 2023 の 1 日目の投稿です。今年のアドベントカレンダーの栄えあるトップバッターを務めさせていただきます。よろしくお願いします。
先日実施された Microsoft の年次テクニカルカンファレンス Ignite にて Microsoft Fabric の GA が発表されました!Microsoft Fabric は Microsoft のデータ関連製品として SQL Server 以来最もインパクトのある製品と言われており、Ignite の基調講演の中でも取り上げられるなど注目を集めています。
Microsoft Fabric には様々な機能があり GA のタイミングで新しい発表も多くあったため、本稿ではそれらの情報を整理し Microsoft Fabric の特徴や魅力を改めて確認していきたいと思います。
- はじめに
- OneLake
- Data Factory
- Synapse Data Engineering
- Synapse Data Science
- Synapse Data Warehouse
- Synapse Real-Time Analytics
- Power BI
- Data Activator
- Purview
- まとめ
はじめに
データ分析基盤を取り巻く課題
機能紹介の前に Microsoft Fabric が登場するに至った背景をおさらいしておきたいと思います。データ分析基盤の構成要素はデータレイク、ETL、データウェアハウス、BI など多岐に渡りそれぞれに適したツールがあります。例えば Microsoft の Azure や Microsoft 365 では以下のようなサービスが提供されています。
- データレイク : Azure Data Lake Storage Gen2
- ETL : Azure Data Factory
- データウェアハウス : Azure Syanapse Analytics(専用 SQL プール)
- BI : Microsoft Power BI
- データカタログ、データガバナンス : Microsoft Purview
これらを適切に組み合わせることではじめてデータ分析基盤ができあがります。Azure の場合上記のサービスは PaaS として提供されており比較的容易に構築できますが、それでも相応に労力の割かれる作業となることは事実であり、データを分析するためのスタートラインに立つまでにやることが多いというのが悩みの種となります。
Microsoft Fabric のコンセプト
このような背景の中で発表された Microsoft Fabric は、上述の課題解決を狙いとした以下に示す 4 つのコンセプトを持ちます。
Microsoft Fabric には DWH、ETL、BI といったデータ分析に必要な機能が全て含まれた形で SaaS として提供されているため、ユーザーは導入後すぐにこれらの機能を使いデータ分析を行うことができます。分析に必要なデータは OneLake と呼ばれる場所で集約・管理され、使う機能によってデータを重複管理する必要はありません。データ分析には様々な役割のユーザーが関わりますが、皆がMicrosoft Fabricという一つのサービスでコラボレーションできます。搭載されたAI 機能により、分析作業の質やスピードの向上が期待されます。
以降、各機能紹介の中でこれらのコンセプトがどのように組み込まれているかを都度解説します。
OneLake
いよいよここから Microsoft Fabric の各機能の紹介に移っていきます。初めに紹介するのは、上述のレイクセントリックなアーキテクチャーで中心的な役割を果たす OneLake です。個人のデータ管理のために使用される OneDrive と対比する形で、組織のデータ分析に使用される場所という意味で OneLake という名称が付けられました。OneLake では Azure Data Lake Storage Gen2 ベースのオブジェクトストレージに分析データが Delta-Parquet 形式で保管されます。オープンスタンダードな形式である Delta-Parquet を用いることで、各機能の API が同一のデータに対してアクセス・分析可能になります。
実際に使用するに当たっては、分析対象となるデータをどのように OneLake に持ってくるか?という取り込みにかかるコストが重要になります。この点における解決策として OneLake ではショートカットとミラーリングという 2 つの機能を提供しています。ショートカットとはファイルシステムのシンボリックリンクのようなイメージで、データの実体は取り込み元にあるままで Microsoft Fabric で取り扱えるようにする仕組みです。データを移動させることなく分析ができるという非常に強力な機能となっています。一方のミラーリングは取り込み元のデータをシームレスに OneLake にコピーする仕組みとなっており、データの取り込み作業の簡略化が期待できます。
現時点でショートカットは Azure Data Lake Storage Gen2 や Amazon S3、Dataverse が、ミラーリングは Azure SQL Database や Snowflake、Azure CosmosDB などがそれぞれ対応しています。今後もショートカットにはオブジェクトストレージ系のサービスが、ミラーリングにはデータベースや NoSQL 系のサービスが追加されていくのではと予想されます。
Data Factory
Microsoft Fabric で ETL の役割を果たすのが Data Factory です。Azure Data Factory と同様に 100 を超えるコネクタを有し、オンプレミスや/クラウドを問わず様々な場所のデータを Microsoft Fabric と連携させることが可能です。GUI による処理の定義/パイプライン実行/ログの確認が可能となっており、Dataflow Gen2 という新しいエクスペリエンスの提供に加え、Copilot for Data Factory もパブリックプレビューとなり AI アシスタントを活用したフロー開発が順次利用可能となる予定となっています。
また、GA のタイミングで Virtual Net Data Gateway がパブリックプレビューとなりました。これにより Azure 環境内にある分析データと Microsoft Fabric の通信をよりセキュアに実現できるようになるため、データ連携の選択肢の一つとしての活用が期待されます。
Synapse Data Engineering
大量のデータを変換しレイクハウスアーキテクチャを構築するデータエンジニアを支援するための機能が Synapse Data Engineering です。Synapse Data Engineering によってデータエンジニアは Notebook を用いた Spark 実行環境を利用可能となります。
現時点で Synapse Data Engineering のランタイムには Spark 3.4、Delta 2.4、Java 11、Python 3.10 が含まれており、今後の最新バージョンへの追従は Microsoft Fabric で管理・対応されます。また、ノートブックとレイクハウスの Git 統合、Environment アーティファクトによる構成管理、VS Code 拡張機能などがパブリックプレビューとなっており、データエンジニア向けの開発環境が順次拡充されていることが伺えます。
Synapse Data Engineering においても Copilot がパブリックプレビューとなっています。これにより Notebook 上で AI と対話しながら任意のコードを記述・実行していくようなことがまもなく実現可能となります。
Synapse Data Science
ビジネスにおける洞察・予測のためのデータサイエンス実行管理機能が Synapse Data Science です。データの探索から始まり前処理、モデル作成とその管理までデータサイエンスに必要な機能が網羅的に提供されます。
今回の GA に合わせて Synapse ML 1.0 がリリースされています。これは大規模な機械学習のアプリケーションを簡素化する Spark 用のオープンソース ML ライブラリで、MLFlow に加え Azure AI Search でのベクトル検索や Azure Open AI Service 統合のための API などが含まれます。
Synapse Data Engineering の項で述べた Notebook の Copilot は Synapse Data Science でも同様に提供予定となっており、データサイエンス領域における AI 活用を促進する機能がそろった環境といえるかと思います。
Synapse Data Warehouse
Microsoft Fabric ではオープンデータ形式をネイティブにサポートする次世代のデータウェアハウスとして Synapse Data Warehouse が提供されます。オープンデータ形式とは OneLake の項で述べた Delta-Parquet 形式のことであり、OneLake 上で管理される Parquet ファイルに対して SQL の API を発行し分析を行うというのが大まかな処理のイメージとなります。
Synapse Data Warehouse についてはパブリックプレビュー後も継続的に機能強化が行われていましたが、今回の GA のタイミングでもいくつか新しい発表がありました。一例をあげると SQLPackage や REST API によるプログラマブルな開発のサポート、Query Insights によるソリューション監視、SQL 動的データ マスキング (DDM) を使用したアプリケーションの保護などです。前述のミラーリングの機能についても、データベースが主対象になりそうなことを踏まえると Synapse Data Warehouse との親和性が高い機能に見えています。
Synapse Real-Time Analytics
昨今の分析に必要なデータは多種多様となっており、IoT デバイスや API からのリアルタイムデータも例外ではありません。Synapse Real-Time Analytics はログ、イベント、テレメトリといったリアルタイムデータを分析するためのサービスです。
Synapse Real-Time Analytics においてもレイクセントリックな思想は受け継がれており、データが OneLake 上で管理されることに変わりはありません。また、OneLake ショートカットとして Azure Data Explorer のソースデータベースを設定できるため、既存の Azure Data Explorer 環境に対しての KQL 発行といったこれまで Azure 上で実施していた分析エクスペリエンスが Microsoft Fabric 上でも実現可能となっています。
Synapse Real-Time Analytics を理解するうえで重要な要素がイベントストリームです。これは受信したリアルタイムイベントをシームレスに取り込みキャプチャ・変換した後に Microsoft Fabric のさまざまな宛先にルーティングするという、データの中継役を果たします。ソース・宛先ともに複数の形式をサポートしており、リアルタイムデータの分析をする上では欠かせない仕組みといえます。
Power BI
Microsoft が長年にわたり提供してきた Power BI が、今回 Microsoft Fabric に統合されました。現在 Power BI をお使いのユーザーは適切なライセンスを割り当てることで自身の環境で Microsoft Fabric の機能を使っていくことが可能になります。
Power BI に関してはパブリックプレビュー公開当初から魅力的な機能が追加されていきました。その一つが Direct Lake モードです。従来の Direct Query モードとインポートモードの長所を掛け合わせた、リアルタイムかつ高速なレポート表示を実現した機能で、今後のレポート開発で標準となっていくことが期待されます。
Power BI Desktop の開発モードで Git 統合がサポートされレポートおよびセマンティックモデル(従来のデータセット)のバージョン管理が可能となったのも嬉しいアップデートです。現在対応する Git リポジトリは Azure DevOps のみですが、今後 GitHub への対応がなされていくとより利用の幅が広がってくると思われます。
Data Activator
これまで紹介してきた機能は Azure や M365 で類似のサービスが存在していましたが、この項で紹介する Data Activator は Microsoft Fabric で新しく登場した機能です。データ分析においては得られた洞察から何かしらのアクションを起こしていくわけですが、それを人手で実施するのは限界があるため自動化の仕組みが必要となります。
Data Activator はそのようなニーズに応える機能となっており、特定のルールに基づく分析結果をトリガーとしてその後のアクションを実行するまでをノーコードで実装できます。使用例としては、来月の在庫予測がしきい値を下回りそうな分析結果が出たため Teams で関係者に通知するとともに後続のアクション実行のための API を呼びだすといった処理などが考えられます。
イベントの検知箇所として現在対応しているのは Power BI のセマンティックモデルと Synapse Real-Time Analytics のイベントストリームの 2 か所となっており活用の場面が限られますが、今後拡充されて利用シナリオが広がっていくことを期待したいです。
Purview
Power BI と同様に Microsoft Purview も Microsoft Fabric に統合されました。これによって提供されるようになるのが Purview ハブで、これまでデータカタログと監査で分かれていた UI の入り口が一つに統一されます。
Microsoft Fabric 上のアイテムに対してデータカタログおよび監査機能が適用されることとなり、Microsoft Fabric にデータを集めることで自然にデータガバナンスが向上する仕組みとしていくことも可能といえます。
まとめ
各機能の紹介としては以上となります。ここまで読んでいただくだけでも非常に多くの機能の集合体であることがお分かりいただけたかと思います。個々の機能において紹介しきれていない発表などもたくさんありますので、気になる方は Microsoft の公式ドキュメントやブログもぜひチェックしてみてください。以下にリンクをまとめておきます。
- Microsoft Fabric のドキュメント
- Prepare your data for AI innovation with Microsoft Fabric—now generally available(MSの公式ブログ)
- Fabric workloads are now generally available!(MSの公式ブログ)
最後までお読みいただきありがとうございました。アドベントカレンダーは本日から始まり今月いっぱい続いていきます。明日以降も面白い記事が目白押しですので、ぜひご覧ください。
私たちは一緒に働いてくれる仲間を募集しています!
クラウドアーキテクト執筆:@yoneya.fumihiko、レビュー:@yamashita.tsuyoshi
(Shodoで執筆されました)