今回はAuto Modelの結果を保存した際に作成されるファイルの詳細について確認します。ここで保存されている「score_set」オペレータを利用することにより別のデータへモデルを適用する(スコアリングする)ことが可能です。
まず、TitanicのデータでAuto Modelを実行して結果をLocal Repositoryに保存します。今回は時間の節約のためアルゴリズムは決定木のみを指定しておきました。結果の保存はAuto Modelの結果画面の左ペインの下部にある「SAVE RESULTS」のボタンを押下することで行います。
アルゴリズム問わず出力項目のファイル構成は同じです。AI Studio上では拡張子は表示されておりません。
ファイル一覧です。説明の際に使用する便宜的な番号も添えました。
(1)Titanic_automl_only_dicision_tree(ディレクトリ):Auto Modelを保存する際に指定した名称
(2)Correlations(ディレクトリ):相関分析に関するディレクトリ
(3)Correlations:各変数の相関係数の一覧表
(4)process:相関係数の一覧表を作成するプロセス
(5)Data(ディレクトリ):データ下処理に関するディレクトリ
(6)process:データ下処理に関するプロセス。おそらくある程度は共通のデータ処理
(7)Transformed Data:下処理で変形後のデータ
(8)Transformed Statistics:下処理で変形後のデータの統計データサマリー
(9)Decision Tree(ディレクトリ):決定木アルゴリズムのディレクトリ
(10)Encoding Processing:特徴量エンジニリングでカテゴリカル(質的)データを数値に変換している処理だと思われる
(11)Feature Engineering Performances:モデルの選択時に特徴量エンジニアリングの項目を指定した場合の結果。選択していない場合には空となる
(12)Feature Set Tradeoffs:特徴量エンジニアリングで作成した特徴量の組み合わせ。モデルの選択時に特徴量エンジニアリングの項目を指定した場合のみ複数の組み合わせが用意される
(13)Known Values:入力されたデータのうち、カテゴリカルデータの既知の値
(14)Lift Chart:出力された累積ゲイン図
(15)Missing Processing:欠測データの下処理
(16)Model:作成されたモデルデータ
(17)Model Simulator:Modelの値を変更することで確率を予測できるシミュレーター。「(16)Model」を使用している
(18)Optimal Feature Set:特徴量の最適化結果
(19)Optimal Parameters:モデルのパラメータと分類誤差や混同行列の表示
(20)Parameter Performances:モデルのパラメータごとのパフォーマンス比較
(21)Performance:モデルのパフォーマンス詳細
(22)Predictions:予測結果。「(16)Model」を使用している
(23)process:「(16)Model」作成及び「(25)Production Model」作成の一連のプロセス
(24)Production Data:「(25)Production Model」 を作成するためのデータ
(25)Production Model:作成された本番用モデルデータ。「(16)Model」とは学習データが異なっている。特別な理由がなければこちらを使用する
(26)Production Statistics:本番用データの統計データサマリー
(27)Runtimes:学習及びスコアリングに要した時間
(28)score:モデル全体のグローバルな変数重要度を算出するためのプロセス。モデルは「(25)Production Model」が使用されている。
(29)score_set:スコアリングを実行するプロセス。別のプロセス上でこのプロセスを呼ぶ際に入力にテーブルが指定できる。モデルは「(25)Production Model」が使用されている。
(30)Single Row Original:元データの平均値および最頻値を取り出した一行のみのデータ。「(28)score」で変数の重要度を算出するために用いる。
(31)Text Processing:おそらく文字列の下処理
(32)Training Data:バリデーションの準備で用意されるトレーニング用データ
(33)Weights:各特徴量がモデルの予測に与える影響の大きさ。「(16)Model」を使用している。
(34)Weights by Correlation:相関分析による重みづけ(フォルダ)
(35)process:相関分析によるWeightsを出すプロセス
(36)Weights:各特徴量がモデルの予測に与える影響の大きさ
(37)Auto Model Results:結果サマリーとAuto Model上で結果を表示するためのリンク
(38)Titanic Training:何も下処理をしてない元データ。Auto Modelの途中で設定する未選択の列も残っている。
コメント
0件のコメント
記事コメントは受け付けていません。