pandazx's blog

Hadoop, データ分析など雑多な技術ブログ

DynamoDBストリームをLambdaで読み込むと24時間前から開始される

DynamoDBストリームを読み込んでLambdaで処理する実装を行った際に勘違いしたことがあるので、メモ。

DynamoDBにはストリームという更新情報をストリームで流す機能があり、 更新発生をトリガにLambdaで処理することが可能。

ストリーム機能を有効にした際に、有効にした時点からの更新のストリームが流れるのではないことに注意。 ストリームデータは24時間保持されるが、それは有効にする前から保持されているため、 ストリームを読み込んでLambdaが動く場合、Lambdaに入力として渡されるデータは24時間前から始まる。

24時間前のストリームから、追っかけ再生的にLambdaの処理が進んでいくため、 最初は書き込みキャパシティの値を大きくしないと、処理が追いつかないので注意すること。

参考: DynamoDB ストリーム を使用したテーブルアクティビティのキャプチャ - Amazon DynamoDB