AutoMLの公式ドキュメントにも紹介されている分析を試します。
対象データは AI Studioにサンプルデータとして入っているTitanicです。Titanicは機械学習のサンプルとして著名なデータで、事故後に生存したかどうかを各搭乗者のデータから予測するものです。
AI Studioを立ち上げて画面上部のAuto Modelタブを選択します。
ファイルを選択する画面が表示されておりますので、SamplesディレクトリからTitanicのデータを選択しましょう。今回は「Titanic Training」データを選択します。データ上でマウスをホバーするとデータの詳細がポップアップします。データ行数916行で、7カラムのデータです。一般的なTitanicのデータに下処理を加えてカラム数をあらかじめ減らしたデータだと考えられます。
Titanicのデータとしておそらく生データである「Titanic」と訓練用データと対になる「Titanic Unlabeled」も存在します。「Titanic Unlabeled」は作成したモデルを適用する際に使用します。
データを選択して画面上部の「> NEXT」で次の画面へ進みます。
どのような処理を行うか選択します。Predict、Cluster、Outliersの3つのタスクの中から選びます。それぞれ「Predict」は予測、「Cluster」は分類、「Outliers」は異常検知です。今回は生存したかどうかを調べますので「Predict」を選択します。どの列を予測するかを選択する必要がありますので、「Survived」カラムを選択してください。
「> NEXT」で次の画面へ進みますと、目的変数の詳細が表示されます。設定項目も存在しますが今回はデフォルトのまま先に進みましょう。設定項目としてはコスト考慮型学習のコスト割り振りと別の値へのマッピングです。
次の画面へ進みますと、説明変数の詳細が表示されます。今回は「Age」カラムと「Sex」カラムに警告が表示されましたので説明変数から外しておきました。
次の画面でモデルを選択します。今回はデフォルト選択のまま実行します。「Run」を押すと学習が始まります。
選択したアルゴリズムが順番に実行されて行きます。Modelの横についているアイコンは左から順にBest Performace、Best Gain、Fastest Scoring Time、Fastest Total Timeの各指標が高いモデルを表しています。今回は特にスコアリングの時間的な制約もないため Best Performace のモデルを採用します。
Best Performanceだったのは「Random Frorest」でした。詳細を確認しましょう。
結果を解釈するとPassenger Fare が高いほど生存しやすいようです。
結果にシミュレーターがついていますので触ってみましょう。Passenger Fareを513(最大値)へ変更するとSurvivedのYesが60%だったのが84%まで向上しました。
他の詳細も見てみましょう。Confusion Matrix を見るとまだ改善の余地があるようです。
複数のモデルを比較、交差検証まで行った機械学習のモデル検討フェーズが一瞬で完了しました。ここから下処理のデータハンドリングや各種設定を変更して精度を上げることも可能です。
次回はAuto Model から出力されるファイルについて解説します。
コメント
0件のコメント
記事コメントは受け付けていません。