Glue
前回、Glueの開発環境をDockerで作りましたが、zeppelinコンテナを起動してホストからsshフォワードを実行して接続するという構成でホストを意識する必要がありましたが、せっかくzeppelinをdockerで作っているのでsshフォワードを行う部分もdockerで実現で…
GlueでVPCフローログをparquet形式に変換させる定期ジョブを作ろうと思いクロール処理を追加したところ、ビルトインのClassifiersにはなかったため自動でテーブル構造を認識してくれませんでした。 認識させるためにはカスタムClassifiersを作る必要があるこ…
AWS GlueのETLスクリプトを作成する言語として、新たにScalaが追加されました。画面を確認すると以下のようにPythonに加えてScalaも選択できるようになっています。 以下はScalaで自動生成されたETLスクリプトになります。 import com.amazonaws.services.gl…
AWS Glueで自動生成されたETL処理のPySparkの開発について、AWSコンソール上で修正して実行確認は可能ですがかなり手間になります。 そこで開発エンドポイントを使って開発する方法が提供されており、Apache Zeppelinなどを使ってインタラクティブに開発する…