PASS Summit 2015の発表を受けてか今日Azure Data LakeがPublic Previewになりました。またSQL Server 2016周りもUpdateがあります。
- SQL Server 2016: Everything built-in
- PASS SUMMIT 2015 のキーノート / SEの雑記
- Azure Data Lake reaches Public Preview
PASS Summit 2015のキーノートについてはSEの雑記を見れば安心ですね。
※ ほかにもAzure SQL Database In-Memory OLTP and Operational AnalyticsなどもPublic Previewになっています。
Azure Data Lake (Public Preview)
これまで1つと思ってたサービスとしての実態は2つありました(ブランド?としてはData Lakeですが)。Azure Data Lake Analytics と Azure Data Lake Store の2つです。どちらも今日からPublic Previewです。(現状East US2でしか利用できません)
それぞれざっくり見ていきましょう。
Data Lake Analytics (Public Preview)
Data Lake Analyticsはそのまんま書くと動的にコードをスケールできる分散BigDataサービスという感じです。Apache YARNをベースに構築されたクラウド用に設計されたData Lake用の分析サービスです。Azure ADによるロール管理などもサポートしてるのでオンプレのIDと連携して権限コントロールをシンプルに統合できそうです。
課金は料金を見てもらうのが良いですが、Analytics Unit (AU) が分あたり1.74円(Preview価格で50%オフ)、完了したジョブあたり2.55円(Preview価格で50%オフ)のようです。現状の制限としては1AUあたり50ジョブまで、アカウントあたりの同時実行ジョブが3ジョブまでのようです。
さて本題。Data Lake AnalyticsはData Lake Storeや他のデータソース(BlobやSQL Databaseなど)も参照することができそうです(ドキュメントが404でまだちゃんと見れてませんが)
Data Lake Analyticsの本領は各データソースに接続してクエリを基にデータの分析を行うところにあります。この際、使用するクエリ言語がU-SQLになります。
U-SQLはSQL Serverなどで使っているSQLにC# Expressionなどが扱えるように拡張されたものになります。
複数のデータソースをまとめたりデータを加工するのにC#の機能が使えます。(SplitしたりLINQでWhereしたり)
U-SQLでクエリをゴリゴリ書いた後はそれをジョブとして登録します。
またVisual Studio用のSDKもあるのでビジュアル的にデータの塊を見ることができます。
ざっくりな流れはこんな感じです。詳しくはドキュメントを参照。
Data Lake Store (Public Preview)
Data Lake Storeはペタバイト級のデータを保存するハイパースケールなデータストアです。ある意味スキーマレスでデータの種別やサイズを意識せずに保存できます。またHDInsightクラスターで使用可能なWebHDFS互換のREST APIを持っているのでHadoopからアクセスしたりできます。もちろんData Lake Analyticsも。
価格的には1GBあたり4.08円/月で+トランザクション100万あたり7.14円となります。(Preview価格なので50%オフ)
細かな機能でいえばAzure ADと連携できるので認証、アクセスコントロールが容易なこともあります。またHDInsight上で動作するApache StormやHBaseといったオープンソースなアプリケーションと統合的に利用することができます。
Data Lake File Systemへのアクセス用プロトコルとしてadl:// が用意されてます。HDInsightクラスター内のHadoop等で利用できます。内部から触る場合はWebHDFSを介さないでいい感じですかね?
という感じで詳細はドキュメントをどうぞ。
作り方
Preview ポータルから新規作成でData+Storage、Data+AnalyticsにそれぞれData Lake StoreとData Lake Analyticsがありますのでそこから作成します。(Azure PowerShellからも作成可能です)
ただ、現状は最初にPreviewの規約にサブスクリプション単位でサインアップ(同意)し、承認させる必要がありますので注意ください。
※Pendingになったので今日はここまで。
リンクなど
Where can I get more information?
- Head over to the announcement blog for more details.
- Check out the Visual Studio’s U-SQL blog to learn more about the new big data language.
- Go to the Azure.com marketing Data Lake solution page.
- Watch a video how we make big data easy in Azure.
Documentation and How-To’s
- Azure Data Lake Analytics
- Overview of Azure Data Lake Analytics
- Getting started with Azure Data Lake Analytics in the portal
- Getting started with Azure Data Lake Analytics with PowerShell
- Getting started with Azure Data Lake Analytics and the tooling
- Getting started with Azure Data Lake Analytics with the SDK
- Managing Azure Data Lake Analytics with the portal
- Managing Azure Data Lake Analytics with PowerShell
- Interactive tutorials on Azure Data Lake Analytics
- Analyzing web logs with Azure Data Lake Analytics
- U-SQL
- Azure Data Lake Store
- Overview of Azure Data Lake Store
- Getting started with Azure Data Lake Store from the Portal
- Getting started with Azure Data Lake Store from PowerShell
- Getting started with Azure Data Lake with .NET SDK
- Securing data with Azure Data Lake Store
- Connecting Azure HDInsight with Azure Data Lake Store
- Connecting other OSS applications with Azure Data Lake Store
- WebHDFS APIs with Azure Data Lake Store