AI StudioでのBigQueryのデータ入出力をまとめました。
Altair社の公式ドキュメントにも記載されておりますので合わせてご参照ください。
・In-Database Processing extension
(https://docs.rapidminer.com/latest/studio/connect/in-database-processing.html)
・Using the Google Cloud Services Connector(https://docs.rapidminer.com/latest/studio/connect/google-storage.html)
・Operator Write Google BigQuery (https://docs.rapidminer.com/latest/studio/operators/data_access/cloud_storage/google_bigquery/write_google_bigquery.html)
・Operator Custom Query (In Database)
最初に In-Database Processing extension を導入します。このエクステンションを導入することでGCPのコネクションでBigQueryが使用可能となります。
ツールバーの「エクステンション」から「マーケットプレイス」を選択して下さい。検索窓で「In-Database Processing extension」と入力して「検索」ボタンを押下します。表示されたエクステンションを押下して、「インストールを選択」も押下して下さい。この時点で画面右下の「◯個のパッケージをインストール」がアクティブになりますのでそちらも押下して次の画面へ進みます。ライセンスの同意を行なっていただき、「◯個のパッケージをインストール」を押下すればインストールが開始されます。
インストールされましたらAI Studioを再起動します。再起動後にoperatorに「In-Database Processing」が追加されていることをご確認下さい。
次の手順はconnectorの準備です。
Local Repository に新規接続設定を作成しましょう。
接続名に任意の名称を入力して下さい。
接続のタイプのプルダウンから「Google Cloud Services」を選択しましょう。
「作成」ボタンを押下すると下記の画面へ遷移します。今回はサービスアカウントを使用して設定します。
・GCPのプロジェクトIDを入力します。
・「サービスアカウントを使用」にチェックを入れて下さい。
・秘密鍵ファイルの内容にGCPで発行したjsonファイルを指定して下さい。なお、サービスアカウントの秘密鍵の発行方法に関しましてはGCP公式ドキュメントにて詳細をご確認ください。
・アクセススコープで「Google BigQuery Select and Create TAbles」にチェックを入れて下さい。
全て入力しましたらダイアログ下部の「接続をテスト」ボタンを押下して正しく接続できているかを確認します。
「保存」を押下しますとConnections の中に先ほど名称を指定した接続設定が追加されます。
今回紹介しなかったアクセストークン形式はAltair公式ドキュメントにて詳細に説明されております。
エクステンションと接続先が用意できましたらprocessを作成していきましょう。新規processを作成して「In Database Nest」オペレータをprocessへドラッグ&ドロップします。
「In Database Nest」オペレータのパラメータを設定します。先ほど作成した接続を選択して下さい。
パラメータ「limt sample size」は任意の値を入れてください。空白でも実行可能です。
「In Database Nest」オペレータをダブルクリックしてその中に「Custom Query (In Database)」オペレータをドラッグ&ドロップします。出力「exa」を画面右端の「exa」と線で結んで下さい。
このオペレータのパラメータにはBigQueryで実行するクエリを記載して下さい。テーブルはGCPのプロジェクト名、GCPのデータセット名、GCPのテーブル名を「.」で繋げて記載します。これでBigQueryからデータを読み込む準備ができました。
SELECT * FROM `my-gcp-project-name.my-dataset-name.my-table-name`
「In Database Nest」オペレータから抜けて一階層上のProcessへ戻ります。processパネルの左上にあるパンくずリストの左側にある「Process」を押下して下さい。
「In Database Nest」オペレータの右側に「Write Google BigQuery」オペレータをドラッグ&ドロップします。「In Database Nest」オペレータの出力「exa」と「Write Google BigQuery」オペレータの入力「inp」を線で結びます。出力「exa」は上から2番目ですので注意して下さい。また、「Write Google BigQuery」オペレータの出力「thr」と画面右端のresを線で結びます。
「Write Google BigQuery」オペレータのパラメータを設定します。conection entryには「In Database Nest」オペレータで入力したものと同様に作成したGCPの接続を設定して下さい。schema nameには書き込みたいデータセット名、table nameには書き込みたいテーブル名、overwrite modeとbatch sizeには任意の設定を入れて下さい。
全て設定して実行すると、任意のBigQueryのテーブルのデータを読み、その内容を任意の任意のBigQueryのテーブルへ書き込み(設定によって上書き、追加)されます。
コメント
0件のコメント
記事コメントは受け付けていません。