2017年12月31日
前々回のコラムに引き続き、3冊目の SQL Server 2017 の自習書をご紹介します。
SQL Server 2017 自習書 No.3
「SQL Server 2017 Machine Learning Services」(全109ページ)
SQL Server 2017 は非常にインパクトのある進化を遂げました。1つ目が Linux 対応、そして 2つ目が Machine Learning Services(機械学習サービス)の提供です。
SQL Server 2016 の時に提供された SQL Server R Services に Python が加わって Machine Learning Serivces となりました。
これによって、R 言語はもちろん、Python で機械学習のモデルの作成や予測ができるようになりました。私たちも Phthon は非常に気に入っている言語ですが、SQL Server で Machine Learning なんて、すごい時代になりましたね!
私たちが執筆した 3つ目の自習書の 「SQL Server 2017 Machine Learning Services」では、R 言語や Python、機械学習に詳しくなくても、この Machine Learning Services を一通りためせるようになっておりますので、ぜひとも試してみてください。
ダウンロードはこちら↓からできます。
http://download.microsoft.com/download/7/2/9/729DF466-7E91-4351-AD33-029B4232A9DF/SQL_2017_SelfLearning_03_Ver1.pdf
SQL Server 2017 自習書 No.3「SQL Server 2017 Machine Learning Services」の目次
STEP 1. SQL Server 2017 Machine Learning Services の概要 4
1.1 SQL Server 2017 で提供された主な新機能 5
1.2 Machine Learning Services(機械学習サービス)の概要 6
- SQL Server 2017 の Machine Learning Services(ビルトイン AI) 6
- ML Services の利点(SQL Server 上のデータを直接指定、高速取得) 8
- エンタープライズ対応の R(RevoScaleR) 9
- ネイティブ スコアリング(PREDICT 関数) 10
1.3 ML Services(Machine Learning Services)のインストール 11
- Python スクリプトの実行 ~sp_execute_external_script~ 14
- R スクリプトの実行 14
STEP 2. 機械学習の基礎 15
2.1 機械学習の基本 16
- この章で利用するデータ(iris:アヤメ) 16
- アヤメ(iris)の Sepal と Petal 18
2.2 決定木(Decision Tree:ディシジョン ツリー) 20
- Let's Try 20
- モデル(決定木)の中身 21
- 予測(Predict) 24
2.3 RevoScaleR の決定木(rxDTree) 29
- Let's Try 29
2.4 ランダム フォレスト(Random Forest) 31
- R で外部パッケージの利用(CREATE EXTERNAL LIBRARY) 32
- ランダム フォレストのモデルを作成 33
- ランダム フォレスト内の決定木の中身 35
- ランダム フォレストのモデルで予測(Predict) 37
2.5 RevoScaleR のランダム フォレスト(rxDForest) 39
- Let's Try 39
- メモリ使用量の差(randomForest vs. rxDForest) 41
2.6 SQL Server のデータを利用してモデルを作成 42
- iris データを SQL Server のテーブルに変換 42
- SQL Server のデータを利用してモデルを作成 43
- InputDataSet の名前を変更したい場合(@input_data_1_name) 44
2.7 Python を利用する場合のモデル作成と予測 45
- Let's Try 45
- 参考情報: scikit-learn(sklearn)の iris データを利用する場合 47
2.8 モデルの保存とネイティブ スコアリング(PREDICT) 50
- Let's Try 50
- ネイティブ スコアリング(Transact-SQL の PREDICT 関数) 52
- R の場合のモデル保存(rxSerializeModel) 54
- SQL Server 2017 on Linux で PREDICT 関数でネイティブ スコアリング 55
2.9 トレーニング データとテスト データの分割 57
- SQL Server 上のデータをトレーニング データとテスト データに分割 57
STEP 3. Python を利用した 機械学習 61
3.1 SQL Server 2017 に統合された Python 62
- sp_execute_external_script の復習 62
- @params での入力変数/出力変数 63
- WITH RESULT SETS 64
- 通常の Python スクリプトとの違い 65
3.2 バージョン確認、利用可能な Python ライブラリの一覧 67
- Python のバージョンの確認(Python 3.5.2) 67
- Anaconda のバージョンの確認(4.3.22) 68
- 利用可能なライブラリの一覧 68
3.3 追加のライブラリのインストール(pip install ~) 70
3.4 scikit-learn(sklearn)で機械学習 71
- ランダム フォレスト(RandomForestClassifier) 71
- @input_data_1 に SQL Server のデータを指定する場合 73
- scikit-learn のサポート ベクター マシン(SVM)を利用する場合 74
- scikit-learn の SGD(Stochastic Gradient Descent)での分類 75
- scikit-learn のニューラル ネットワークを利用する場合(MLPClassifier) 76
3.5 pickle によるモデルの保存、予測結果の保存 79
- pickle でモデルを保存(pickle.dumps) 80
- pickle でモデルの取り出し(pickle.loads) 81
- 予測結果の保存 82
3.6 モデルの保存方法の違い(pickle vs. rx_serialize_model) 85
- pickle vs. rx_serialize_model 85
3.7 Microsoft Cognitive Toolkit(CNTK)を利用した画像認識 88
- Microsoft Cognitive Toolkit のインストール(CNTK 2.3 の場合) 88
- Microsoft Cognitive Toolkit のチュートリアル 91
- Microsoft Cognitive Toolkit で画像認識モデルの作成(MNISTの手書き数字) 91
- モデルの保存(save) 96
- 保存したモデルを SQL Server 2017 から利用(load_model、eval) 97
STEP 4. R による機械学習 やその他の利用方法 100
4.1 R を利用したクラスタリング(k-means 法) 101
- Let's Try 101
- rxKmeans の結果をテーブルに保存する 102
4.2 ML Services が利用するメモリ使用量の調整(リソース ガバナー) 104
4.3 モデル作成時のデータ処理件数を制御(rowsPerRead) 106
4.4 その他の参考資料 107
- おわりに 108
■ おわりに
この自習書を作成中に実家猫リッチが他界しました(享年17歳)。リッチはいつもみんなを笑わせて明るしてくれました。リッチはもと野良ネコで自分たちが幸せにしたつもりだったけど、いつの間にか逆になってましたね。幸せにしてもらっていたのは私たち家族の方です。祖母が100歳も長生きして表彰されたのもリッチのおかげだと思っています。ありがとうリッチ!
第60回:SQL Server 2017 自習書 No.3「SQL Server 2017 Machine Learning Services」のご案内
第59回:SQL Server 2017 自習書 No.2「SQL Server 2017 on Linux」のご案内
第58回:SQL Server 2017 自習書 No.1「SQL Server 2017 新機能の概要」のご案内
第57回:SQL Server 2017 RC 版とこれまでのドキュメントのまとめ
第56回:「SQL Server 2016 への移行とアップグレードの実践」完成&公開!
第55回:書籍「SQL Server 2016の教科書 開発編」(ソシム)が発刊されました
第54回:「SQL Server 2016 プレビュー版 Reporting Services の新機能」自習書のお知らせ
第 53 回:SQL Server 2016 Reporting Services の新しくなったレポート マネージャーとモバイル レポート機能
第 52 回:SQL Server 2016 の自習書を作成しました!
第 51 回:PASS Summit と MVP Summit で進化を確信!
第 50 回:新しくなった Power BI(2.0)の自習書を作成しました!
第49 回:Excel 2016 の Power Query を使う
第 48 回:新しくなった Microsoft Power BI ! 無料版がある!!
第 47 回:「Microsoft Azure SQL Database 入門」 完成&公開!
第 46 回:Microsoft Power BI for Windows app からの Power BI サイト アクセス
第 45 回:Power Query で取得したデータを PowerPivot へ読み込む方法と PowerPivot for Excel 自習書のご紹介
第44回:「SQL Server 2014 への移行とアップグレードの実践」ドキュメントを作成しました
第43回:SQL Server 2014 インメモリ OLTP 機能の上級者向けドキュメントを作成しました
第42回:Power Query プレビュー版 と Power BI for Office 365 へのクエリ保存(共有クエリ)
第41回:「SQL Server 2014 CTP2 インメモリ OLTP 機能の概要」自習書のお知らせです
第40回: SQL Server 2012 自習書(HTML版)を掲載しました
第39回: Power BI for Office 365 プレビュー版は試されましたか?
第38回: SQL Server 2014 CTP2 の公開
第37回: SQL Server 2014 CTP1 の自習書をご覧ください
第36回: SQL Server 2014 CTP1 のクラスター化列ストア インデックスを試す
第35回: SQL Server 2014 CTP1 のインメモリ OLTP の基本操作を試す
第34回: GeoFlow for Excel 2013 のプレビュー版を試す
第33回: iPad と iPhone からの SQL Server 2012 Reporting Servicesのレポート閲覧
第32回: PASS Summit 2012 参加レポート
第31回: SQL Server 2012 Reporting Services 自習書のお知らせ
第30回: SQL Server 2012(RTM 版)の新機能 自習書をご覧ください
第29回: 書籍「SQL Server 2012の教科書 開発編」のお知らせ
第26回: SQL Server 2012 の Power View 機能のご紹介
第25回: SQL Server 2012 の Data Quality Services
第24回: SQL Server 2012 自習書のご案内と初セミナー報告
第23回: Denali CTP1 が公開されました
第22回 チューニングに王道あらず
第21回 Microsoft TechEd 2010 終了しました
第20回 Microsoft TechEd Japan 2010 今年も登壇します
第19回 SQL Server 2008 R2 RTM の 日本語版が公開されました
第18回 「SQL Azure 入門」自習書のご案内
第17回 SQL Server 2008 自習書の追加ドキュメントのお知らせ
第16回 SQL Server 2008 R2 自習書とプレビュー セミナーのお知らせ
第15回 SQL Server 2008 R2 Reporting Services と新刊のお知らせ
第14回 TechEd 2009 のご報告と SQL Server 2008 R2 について
第13回 SQL Server 2008 R2 の CTP 版が公開されました
第12回 MVP Summit 2009 in Seattle へ参加