特徴
- データ分析に利用するデータウェアハウスサービス
- SQLクライアントやBIツールにてデータアクセス
- リレーショナルデータベース
- 列指向ストレージ
構造
クラスター構成は以下の通り
- Leader Node
ユーザーからのクエリを受け取り、クラスタ全体の調整を担当。
各ノードにクエリを送信する。
- Compute Node
データを格納、クエリを実行する。
ノードタイプによるデータ保持の違い
- ローカルSSDのDC2ノード
ノードのストレージにデータを保持 データ量が比較的小さく(数百GB〜数TB)
クエリのパフォーマンスが重要なワークロードに適している。
- HDDのDS2ノード
ノードのストレージにデータを保持 大容量のHDDストレージを提供し、データ量が非常に
大きい(数TB〜数PB)ワークロードに適しています。コスト効率は良い。
- RA3
キャッシュのみデータノードに保持、実データはS3上に見えない形で保持。
高性能のCPUとメモリを搭載。その他色々優秀。
基本RA3を利用する方針で良い
列指向
1つの列に対してまとめて処理するため、クエリ処理が高速になる。
データの圧縮率が高くなるため、ストレージ容量が削減可能。
Redshift Spectrum
データをS3に保存したままRedshiftから読み込みする機能。
パフォーマンスは低下するが、低コストを実現。
高頻度にアクセスするデータのみノード上に保存する使い分けも可能。
RA3ノードとの違い
- RA3 S3のデータを一度Redshiftクラスタに取り込み、高速クエリを実現。 クラスタへの保存に対して料金発生。
- Redshift Spectrum S3上のデータを直接クエリ。クラスタへは取り込まない。RA3と比較した場合パフォーマンスは劣る。 データは圧縮しておいた状態で操作できる為、低コストを実現。
バックアップ
別リージョンにKMS暗号化スナップショットをコピー
コピー元リージョンで、クロスリージョンスナップショットを有効化。
スナップショットコピー許可を作成。
コピー先リージョンでKMSを使用。
Amazon Redshift データベース暗号化 - Amazon Redshift
Amazon Redshift クラスターでデータベース暗号化を設定し、データを保護します。
セキュリティ
拡張された VPCのルーティング
インターネットを介さずVPCを経由してS3などのAWSサービスと接続する
パフォーマンス
同時実行スケーリング
パフォーマンスを向上させるための機能。同時クエリの実行能力が拡張され、大量のクエリを並行して処理できるようになる。
自動的に追加のリソースがプールされ、必要なときにクエリの処理に割り当てられる。