2018-01-01から1年間の記事一覧
日次処理などの定期処理でS3からデータを取得しparquet形式に変換やDBにLoadするといったケースについては、ETLする際によくあるのではないでしょうか? 上記のようなケースでは、ETL処理の際にS3から前日からの差分を取得する必要があります。Glueにおいて…
みなさん台風21号の影響はどうでしたでしょうか?今回は私の自宅も3日ほど停電になり結構困りました。 未だに停電から復旧していない地域もあるので早く復旧してほしいですね。 停電してはじめて分かるのですが、電気が生活の基礎を支えているということに改…
obnizというIoTのコントロールボードが面白そうだったので早速購入してみました。 obnizの特徴としては、wifiと小型のディスプレイが内蔵されており、プログラムもWeb上からjavascriptで可能というかなりお手軽なガジェットです。 サンプルプログラムを動か…
先日、CloudWatch Eventを確認するとGlueも追加されていたのでジョブの監視をやってみました。 検証構成 CloudWatch EventでGlueのJobステータスがSucceededもしくはFailedになればSlackに通知しています。 現状、特定ジョブやイベント(Failedのみなど)の…
Aurora Serverlessが一般リリースされましたね。みなさん色々ブログを書かれていますので流行りにのってGlueからもAurora Serverlessを利用できるか検証してみました。 検証構成 今回は上記のような構成で、Auroraからデータ取得してS3に出力してみました。 …
AWSにおいてELBは気軽に利用できるサービスになっていますが、意外と意識されていないのではないでしょうか?。ELBはロードバランサとしての役割だけでなくSSL証明書のターミネーションやアクセス状況など各種メトリクス確認できることのほかにEC2間を疎結合…
Dockerでマルチステージビルドという機能を知ったので検証がてらCodeBuildで試してみました。 マルチステージビルドとは、例えばjavaアプリケーションにおいて、ビルドについてはjdkが入ったイメージを利用してビルドを行い、ビルドされたバイナリだけをjre…
MySQLに対してSQLでよくやるようなデータの取得や集計などをPySparkのDataFrameだとどうやるのか調べてみましたので、備忘録として残しておきたいと思います。 検証環境は以前紹介したDockerではじめるPySparkをベースにDockerで環境を構築しいます。 こうい…
CodeBuildを利用していてbuildspec.ymlを書いていたなかで、環境変数ではなく変数定義して使いたいと思い試していたのですが、 どうもうまくいかずハマりましたので備忘録としてのことしておきたいと思います。 やりたかったこと buildspec.ymlのビルド手順…
もうすぐEFSが東京リージョンに来ますね。最近はAWS Batchを触る機会が多くなってきたので、AWS BatchでEFSを使ってのディスク共有を検証してみました。 まだ東京リージョンにはないので今回はバージニアリージョンを利用して検証してみます。 構成 手順概要…
AWSの認定資格でビッグデータの専門知識を問われる試験のAWS Certified Big Data – Specialtyを受験しました。何とか合格できたので、この試験に向けて勉強した内容などを残しておきたいと思います。 試験概要 試験の概要は以下参照 AWS 認定ビッグデータ – …
PHPのファイルアップロード機能をサイトごとにhtaccessで切り替えたいというケースがあり、実現方法について調査したので備忘録として残しておきたいと思います。アップロードするファイルサイズの切り替えはケースとしてはよくあるのでネット上に情報があが…
fish shellでaws cliのコマンド補完を設定してみたので設定方法を紹介したいと思います。 環境 Mac Sierra fish 2.2.0 設定方法 bashやzshについては以下の公式で設定方法が紹介されているのですがfishはありませんでした。 docs.aws.amazon.com色々調べたと…
ec2-scheduleではインスタンスタイプの変更も可能です。 今回はインスタンスタイプを自動で変更する方法を紹介したいと思います。 設定方法 DynamoDBのConfigTableに以下を設定 テーブル名はスタック名+ConfigTableになっています。 ex) 月曜から金曜までの9…
前回、ec2-schedulerでEC2の定期起動・停止を試してみましたが、今回はRDSで実行してみたいと思います。RDSについてもほぼEC2と同様の設定になります 設定方法 DynamoDBのConfigTableに以下を設定 テーブル名はスタック名+ConfigTableになっています。 ex) …
AWS Answerで公開されているec2-schedulerを使ってみました。 EC2の自動起動、停止についてはLambdaを使って色々と工夫されているかと思いますが、このec2-schedulerはかなり高機能なソリューションになっていますのでぜひ利用を検討してもらえればと思いま…
AWSのインフラ設計にあたって、セキュリティグループの設計は結構重要だと思うのですが、あまり意識して設計されていないケースも見受けられます。 メンテナンス性が考慮されていないと、後々かなり変更しづらくなりますし、誤って設定してしまい障害を発生…
実際にETLで処理するケースとしては、1日1回定期的に処理するなどのケースが多いと思います。 この場合、追加分のみを抽出してETL処理をする必要があります。 Glueには、前回どこまで処理したかを管理するJob Bookmarksという機能があります。 今回はこのJob…
前回、Glueの開発環境をDockerで作りましたが、zeppelinコンテナを起動してホストからsshフォワードを実行して接続するという構成でホストを意識する必要がありましたが、せっかくzeppelinをdockerで作っているのでsshフォワードを行う部分もdockerで実現で…
GlueでVPCフローログをparquet形式に変換させる定期ジョブを作ろうと思いクロール処理を追加したところ、ビルトインのClassifiersにはなかったため自動でテーブル構造を認識してくれませんでした。 認識させるためにはカスタムClassifiersを作る必要があるこ…
AWS GlueのETLスクリプトを作成する言語として、新たにScalaが追加されました。画面を確認すると以下のようにPythonに加えてScalaも選択できるようになっています。 以下はScalaで自動生成されたETLスクリプトになります。 import com.amazonaws.services.gl…
AWS Glueで自動生成されたETL処理のPySparkの開発について、AWSコンソール上で修正して実行確認は可能ですがかなり手間になります。 そこで開発エンドポイントを使って開発する方法が提供されており、Apache Zeppelinなどを使ってインタラクティブに開発する…