Redshift概要まとめ

AWS

特徴

  • データ分析に利用するデータウェアハウスサービス
  • SQLクライアントやBIツールにてデータアクセス
  • リレーショナルデータベース
  • 列指向ストレージ

構造

クラスター構成は以下の通り

  • Leader Node
    ユーザーからのクエリを受け取り、クラスタ全体の調整を担当。
    各ノードにクエリを送信する。
  • Compute Node
    データを格納、クエリを実行する。

ノードタイプによるデータ保持の違い

  • ローカルSSDのDC2ノード

  ノードのストレージにデータを保持  データ量が比較的小さく(数百GB〜数TB)
  クエリのパフォーマンスが重要なワークロードに適している。

  • HDDのDS2ノード

  ノードのストレージにデータを保持  大容量のHDDストレージを提供し、データ量が非常に
  大きい(数TB〜数PB)ワークロードに適しています。コスト効率は良い。

  • RA3

  キャッシュのみデータノードに保持、実データはS3上に見えない形で保持。
  高性能のCPUとメモリを搭載。その他色々優秀。
  基本RA3を利用する方針で良い

列指向

1つの列に対してまとめて処理するため、クエリ処理が高速になる。
データの圧縮率が高くなるため、ストレージ容量が削減可能。

Redshift Spectrum

データをS3に保存したままRedshiftから読み込みする機能。
パフォーマンスは低下するが、低コストを実現。
高頻度にアクセスするデータのみノード上に保存する使い分けも可能。

RA3ノードとの違い

  • RA3 S3のデータを一度Redshiftクラスタに取り込み、高速クエリを実現。 クラスタへの保存に対して料金発生。
  • Redshift Spectrum S3上のデータを直接クエリ。クラスタへは取り込まない。RA3と比較した場合パフォーマンスは劣る。 データは圧縮しておいた状態で操作できる為、低コストを実現。

バックアップ

別リージョンにKMS暗号化スナップショットをコピー

コピー元リージョンで、クロスリージョンスナップショットを有効化。
スナップショットコピー許可を作成。
コピー先リージョンでKMSを使用。

Amazon Redshift データベース暗号化 - Amazon Redshift
Amazon Redshift クラスターでデータベース暗号化を設定し、データを保護します。

セキュリティ

拡張された VPCのルーティング

インターネットを介さずVPCを経由してS3などのAWSサービスと接続する

パフォーマンス

同時実行スケーリング

パフォーマンスを向上させるための機能。同時クエリの実行能力が拡張され、大量のクエリを並行して処理できるようになる。
自動的に追加のリソースがプールされ、必要なときにクエリの処理に割り当てられる。

タイトルとURLをコピーしました