松本美穂と松本崇博が執筆した SQL Server 2014 自習書シリーズの「No.5 Microsoft Azure SQL Database 入門」の HTML 版です。 日本マイクロソフトさんの Web サイトで Word または PDF 形式でダウンロードできますが、今回、HTML 版として公開する許可をいただきましたので、ここに掲載いたします。[2015年12月29日]
Azure SQL Database は、SQL Server でお馴染みの「データ圧縮」機能も利用することができます。データ圧縮は、テーブル内のデータそのものを圧縮できる機能で、データを圧縮することによって、ディスクへの書き込み/読み取り量(I/O 数)を減らすことができるので、性能向上を実現できる機能です。ただし、圧縮を行う分、CPU パワーを余分に消費することになるので、それとのトレードオフになります。
データ圧縮は、SQL Server と同様、次のように設定することができます。
ALTER INDEX ステートメントでインデックスを再構築(REBUILD)するときに、WITH 句で DATA_COMPRESSION を指定することで、データ圧縮を行うことができます。データ圧縮には、「行圧縮」(Row Compression)と「ページ圧縮」(Page Compression)の2種類があり、DATA_COMPRESSION で ROW を指定した場合が行圧縮、PAGE を指定した場合がページ圧縮、NONE を指定した場合が非圧縮(圧縮なし)になります。
行圧縮では、次のように、固定長データ型の利用していない領域を削る(可変長データ型のように扱う)ことで、データを圧縮しています。
int データ型は、4バイトの固定長データ型ですが、「99」のように 0~255の間の整数を格納する場合には、1バイトの使用領域で済むので、残りの 3バイトを圧縮することができます。また、「8888」のように -32,768~32,767 の間の整数である場合は、2バイトの使用領域で済むので、残りの 2バイトを圧縮することができます。
char/nchar などの固定長文字列のデータ型の場合は、末尾に余分な空白がある場合に、そこを圧縮することができます。
ページ圧縮は、行圧縮よりもさらに圧縮ができる(サイズを小さくすることができる)機能です。ページ圧縮では、行圧縮を行った後に、さらにページ単位での圧縮を行うことで、サイズを小さくすることができます。具体的には、次のようにページ内での重複部分を圧縮(プレフィックスを圧縮)しています。
ただし、ページ圧縮では、より高度な圧縮をかけるので、CPU のオーバーヘッドが行圧縮よりも上がってしまうというデメリットがあります。
データ圧縮は、次のように試すことができます。
このように、ALTER INDEX ステートメントを利用して、インデックスを再構築(REBUILD)するときに、DATA_COMPRESSION を指定することで、データ圧縮を行うことができま(ROW を指定すれば行圧縮になります)。
圧縮したものを、元に戻したい場合は、次のように NONE を指定するようにします。
次のグラフは、筆者のお客様のデータベース(4億件のデータ)を、Azure SQL Database 上に配置して、データ圧縮(行圧縮、ページ圧縮)を行った場合の結果です。
通常テーブル(圧縮なし)が 8.2GBであるところを、行圧縮では 6.5GB(約20.1%)、ページ圧縮では 4.46GB(約45.4%、半分近いサイズ)に圧縮することができています。このお客様のデータは、普段から tinyint や snallint などの小さいデータ型を活用されているので、行圧縮ではあまり圧縮ができていませんが、int や bigint などの大きいデータ型を利用している環境であれば、行圧縮でも30%ぐらいの圧縮をすることができます。
また、このときのクエリの実行時間は、次のようになりました(S3 プレビュー版で計測)。
クエリ1 では、行圧縮で 2.4倍の性能向上、ページ圧縮では 1.9倍の性能向上を実現することができたものの、クエリ2 では、行圧縮で 28%の性能ダウン、ページ圧縮では 54.2%の性能ダウンとなりました。データ圧縮では、速くなるクエリがある反面、CPU 利用のオーバーヘッドによって、遅くなるクエリも出てくるので、実際のクエリで検証を行うことが非常に重要になります。また、より利用頻度の高いクエリ(重要なクエリ)のスピードに注目するようにして、データ圧縮を利用すべきかどうかを検討してみてください(使いどころをうまく選択すれば、データ圧縮は非常に大きな効果を得ることができるので、ぜひ活用してみてください)。
なお、データ圧縮については、SQL Server 2014 の自習書シリーズの「SQL Server 2005 ユーザーのための SQL Server 2014」編でも詳しく説明しているので、こちらもぜひご覧いただければと思います。
クエリの性能を向上させたい場合には、上位のエディションを利用するという方法もあります。前述の事例グラフは、Standard エディションの S3(プレビュー版)で、データ圧縮を利用して性能を向上させる例でしたが、これを Premium エディションに変更したり、Premium エディションでサポートされる「インメモリの列ストア インデックス」を利用したりすることで、次のように性能を向上させることができます。
Premium エディションの P1 に変更することで 2.9倍、P2 で 5.7倍、P3 なら 23.5倍もの性能向上を実現することができます。Premium エディションでは、高速ストレージの利用や、並列クエリがサポートされていることによって、Standard エディションよりも良い性能でクエリを実行することができます。また、列ストア インデックスに関しては、この後詳しく説明しますが、これを利用すると、集計関連のクエリで驚異的な性能向上を実現することができます(グラフのようにクエリ1 では 184.5倍もの性能向上)。
データ圧縮では性能が向上しなかった、前述の「クエリ2」でも、Premium エディションや列ストア インデックスを利用すれば、次のように性能向上を実現することができます。
Premium エディションの P1 への変更では、性能向上はありませんでしたが、P2 に変更することで 1.8倍、P3 なら 6.7倍もの性能向上を確認することができました。また、インメモリの列ストア インデックスを利用すれば、172.6倍もの性能向上を実現できることも確認できました。
列ストア インデックスは、Premium エディションでのみ利用できる機能なので、P3 だけでなく、P1 や P2 でも利用することができます。P1 や P2 で利用したときの結果は、次のとおりです(クエリ1 とクエリ2 は、前述のクエリと同じものです)。
このように、列ストア インデックスを利用すれば、20倍以上の性能向上を簡単に実現することができます。列ストア インデックスの作成方法や、どういった場面で利用するのかについては、次の項で説明します。
第60回:SQL Server 2017 自習書 No.3「SQL Server 2017 Machine Learning Services」のご案内
第59回:SQL Server 2017 自習書 No.2「SQL Server 2017 on Linux」のご案内
第58回:SQL Server 2017 自習書 No.1「SQL Server 2017 新機能の概要」のご案内
第57回:SQL Server 2017 RC 版とこれまでのドキュメントのまとめ
第56回:「SQL Server 2016 への移行とアップグレードの実践」完成&公開!
第55回:書籍「SQL Server 2016の教科書 開発編」(ソシム)が発刊されました
第54回:「SQL Server 2016 プレビュー版 Reporting Services の新機能」自習書のお知らせ
第 53 回:SQL Server 2016 Reporting Services の新しくなったレポート マネージャーとモバイル レポート機能
第 52 回:SQL Server 2016 の自習書を作成しました!
第 51 回:PASS Summit と MVP Summit で進化を確信!
第 50 回:新しくなった Power BI(2.0)の自習書を作成しました!
第49 回:Excel 2016 の Power Query を使う
第 48 回:新しくなった Microsoft Power BI ! 無料版がある!!
第 47 回:「Microsoft Azure SQL Database 入門」 完成&公開!
第 46 回:Microsoft Power BI for Windows app からの Power BI サイト アクセス
第 45 回:Power Query で取得したデータを PowerPivot へ読み込む方法と PowerPivot for Excel 自習書のご紹介
第44回:「SQL Server 2014 への移行とアップグレードの実践」ドキュメントを作成しました
第43回:SQL Server 2014 インメモリ OLTP 機能の上級者向けドキュメントを作成しました
第42回:Power Query プレビュー版 と Power BI for Office 365 へのクエリ保存(共有クエリ)
第41回:「SQL Server 2014 CTP2 インメモリ OLTP 機能の概要」自習書のお知らせです
第40回: SQL Server 2012 自習書(HTML版)を掲載しました
第39回: Power BI for Office 365 プレビュー版は試されましたか?
第38回: SQL Server 2014 CTP2 の公開
第37回: SQL Server 2014 CTP1 の自習書をご覧ください
第36回: SQL Server 2014 CTP1 のクラスター化列ストア インデックスを試す
第35回: SQL Server 2014 CTP1 のインメモリ OLTP の基本操作を試す
第34回: GeoFlow for Excel 2013 のプレビュー版を試す
第33回: iPad と iPhone からの SQL Server 2012 Reporting Servicesのレポート閲覧
第32回: PASS Summit 2012 参加レポート
第31回: SQL Server 2012 Reporting Services 自習書のお知らせ
第30回: SQL Server 2012(RTM 版)の新機能 自習書をご覧ください
第29回: 書籍「SQL Server 2012の教科書 開発編」のお知らせ
第26回: SQL Server 2012 の Power View 機能のご紹介
第25回: SQL Server 2012 の Data Quality Services
第24回: SQL Server 2012 自習書のご案内と初セミナー報告
第23回: Denali CTP1 が公開されました
第22回 チューニングに王道あらず
第21回 Microsoft TechEd 2010 終了しました
第20回 Microsoft TechEd Japan 2010 今年も登壇します
第19回 SQL Server 2008 R2 RTM の 日本語版が公開されました
第18回 「SQL Azure 入門」自習書のご案内
第17回 SQL Server 2008 自習書の追加ドキュメントのお知らせ
第16回 SQL Server 2008 R2 自習書とプレビュー セミナーのお知らせ
第15回 SQL Server 2008 R2 Reporting Services と新刊のお知らせ
第14回 TechEd 2009 のご報告と SQL Server 2008 R2 について
第13回 SQL Server 2008 R2 の CTP 版が公開されました
第12回 MVP Summit 2009 in Seattle へ参加