Bài này chúng ta sẽ tìm hiểu về Redshift là gì? trong AWS, trước khi chúng ta bắt đầu sử dụng AWS một cách dễ dàng hơn.

1. Redshift là gì?

  • Redshift là một dịch vụ kho dữ liệu quy mô petabyte nhanh và mạnh, được quản lý hoàn toàn trên đám mây.
  • Khách hàng có thể sử dụng Redshift chỉ với 0,25 đô la mỗi giờ mà không cần cam kết hoặc trả trước chi phí và mở rộng quy mô đến một petabyte hoặc hơn với 1.000 đô la mỗi terabyte mỗi năm.

OLAP

OLAP là Hệ thống xử lý phân tích trực tuyến được Redshift sử dụng .

Ví dụ về giao dịch OLAP:

Giả sử chúng ta muốn tính toán Lợi nhuận ròng cho EMEA và Pacific cho Sản phẩm Radio kỹ thuật số. Điều này đòi hỏi phải kéo một số lượng lớn các bản ghi. Sau đây là các bản ghi cần thiết để tính Lợi nhuận ròng:

  • Tổng số Radios được bán trong EMEA.
  • Tổng số Radios được bán tại Thái Bình Dương.
  • Đơn giá của đài từng vùng.
  • Giá bán của mỗi đài
  • Giá bán – đơn giá

Các truy vấn phức tạp được yêu cầu để tìm nạp các bản ghi đã cho ở trên. Cơ sở dữ liệu Kho dữ liệu sử dụng kiến ​​trúc kiểu khác nhau cả từ góc độ cơ sở dữ liệu và lớp cơ sở hạ tầng.

2. Cấu hình Redshift

Dịch chuyển đỏ bao gồm hai loại nút:

  • Một nút(Single node)
  • Nhiều nút(Multi-node)

Một nút: Một nút duy nhất lưu trữ tối đa 160 GB.

Đa nút: Đa nút là một nút bao gồm nhiều hơn một nút. Nó có hai loại:

  • Leader Node
    Nó quản lý các kết nối máy khách và nhận các truy vấn. Một nút lãnh đạo nhận các truy vấn từ các ứng dụng khách, phân tích cú pháp các truy vấn và phát triển các kế hoạch thực thi. Nó phối hợp với việc thực hiện song song các kế hoạch này với nút tính toán và kết hợp các kết quả trung gian của tất cả các nút, sau đó trả về kết quả cuối cùng cho ứng dụng khách.
  • Nút
    Một nút tính toán thực hiện các kế hoạch thực thi, và sau đó các kết quả trung gian được gửi đến nút lãnh đạo để tổng hợp trước khi gửi trở lại ứng dụng khách. Nó có thể có tới 128 nút tính toán.

Hãy hiểu khái niệm về nút lãnh đạo và tính toán các nút thông qua một ví dụ.

Redshift kho là một tập hợp các tài nguyên tính toán được gọi là các nút, và các nút này được tổ chức trong một nhóm được gọi là một cụm. Mỗi cụm chạy trong Redshift Engine chứa một hoặc nhiều cơ sở dữ liệu.

Khi bạn khởi chạy phiên bản Redshift, nó bắt đầu với một nút duy nhất có kích thước 160 GB. Khi bạn muốn phát triển, bạn có thể thêm các nút bổ sung để tận dụng lợi thế của quá trình xử lý song song. Bạn có một nút lãnh đạo quản lý nhiều nút. Nút lãnh đạo xử lý kết nối máy khách cũng như các nút tính toán. Nó lưu trữ dữ liệu trong các nút tính toán và thực hiện truy vấn.

Tại sao Redshift nhanh hơn 10 lần

Redshift nhanh hơn 10 lần vì những lý do sau:

  • Lưu trữ dữ liệu theo cột
    Thay vì lưu trữ dữ liệu dưới dạng một chuỗi các hàng, Amazon Redshift tổ chức dữ liệu theo cột. Hệ thống dựa trên hàng là lý tưởng để xử lý giao dịch trong khi hệ thống dựa trên cột là lý tưởng để lưu trữ và phân tích dữ liệu, nơi các truy vấn thường liên quan đến tổng hợp được thực hiện trên các tập dữ liệu lớn. Vì chỉ các cột liên quan đến truy vấn được xử lý và dữ liệu cột được lưu trữ tuần tự trong phương tiện lưu trữ, các hệ thống dựa trên yêu cầu cột ít I / Os hơn, do đó, cải thiện hiệu suất truy vấn.
  • Nén nâng cao
    kho dữ liệu dạng cột nén nâng cao có thể được nén nhiều hơn so với kho dữ liệu dựa trên hàng vì dữ liệu tương tự được lưu trữ tuần tự trên đĩa. Amazon Redshift sử dụng nhiều kỹ thuật nén và thường có thể đạt được độ nén đáng kể so với các kho dữ liệu quan hệ truyền thống.
    Amazon Redshift không yêu cầu chỉ mục hoặc chế độ xem cụ thể hóa, vì vậy, nó yêu cầu ít dung lượng hơn so với các hệ thống cơ sở dữ liệu quan hệ truyền thống. Khi tải dữ liệu vào một bảng trống, Amazon Redshift tự động lấy mẫu dữ liệu của bạn và chọn kỹ thuật nén thích hợp nhất.
  • Xử lý song song hàng loạt
    Amazon Redshift tự động phân phối dữ liệu và tải truy vấn qua các nút khác nhau. Amazon Redshift giúp dễ dàng thêm các nút mới vào kho dữ liệu của bạn và điều này cho phép chúng tôi đạt được hiệu suất truy vấn nhanh hơn khi kho dữ liệu của bạn phát triển.

3. Tính năng Redshift

Các tính năng của Redshift được đưa ra dưới đây:

  • Dễ dàng thiết lập, triển khai và quản lý(Easy to setup, deploy and manage)

    • Redshift cung cấp tự động rất đơn giản để thiết lập và vận hành. Bạn có thể triển khai kho dữ liệu mới chỉ với một vài cú nhấp chuột trong Bảng điều khiển AWS và Redshift tự động cung cấp cơ sở hạ tầng cho bạn. Trong AWS, tất cả các tác vụ quản trị đều được tự động hóa, chẳng hạn như sao lưu và nhân rộng, bạn cần tập trung vào dữ liệu của mình chứ không phải quản trị.
    • Sao lưu
      tự động Redshift tự động sao lưu dữ liệu của bạn lên S3. Bạn cũng có thể sao chép các ảnh chụp nhanh trong S3 ở một khu vực khác để phục hồi sau thảm họa.
  • Tiết kiệm chi phí(Cost-effective)
    • Không có chi phí trả trước, thanh toán khi bạn sử dụng
      Amazon Redshift là dịch vụ kho dữ liệu tiết kiệm chi phí nhất vì bạn chỉ cần trả tiền cho những gì bạn sử dụng.
      Chi phí của nó bắt đầu với $ 0,25 mỗi giờ mà không có cam kết và không có chi phí trả trước và có thể mở rộng đến $ 250 mỗi terabyte mỗi năm.
      Amazon Redshift là dịch vụ kho dữ liệu duy nhất cung cấp tính năng định giá Theo yêu cầu mà không có chi phí trả trước và nó cũng cung cấp tính năng định giá phiên bản Đặt trước giúp tiết kiệm tới 75% bằng cách cung cấp thời hạn 1-3 năm.
    • Chọn loại nút của bạn.
      Bạn có thể chọn một trong hai nút để tối ưu Dịch chuyển đỏ.
      • Nút máy tính dày đặc Nút máy tính
        dày đặc có thể tạo kho dữ liệu hiệu suất cao bằng cách sử dụng CPU nhanh, dung lượng RAM lớn và đĩa trạng thái rắn.
      • Nút lưu trữ dày đặc
        Nếu bạn muốn giảm chi phí, bạn có thể sử dụng nút lưu trữ dày đặc. Nó tạo ra một kho dữ liệu hiệu quả về chi phí bằng cách sử dụng ổ đĩa cứng lớn hơn.
  • Quy mô nhanh chóng để đáp ứng nhu cầu của bạn.(Scale quickly to meet your needs)
    • Kho dữ liệu quy mô Petabyte
      Amazon Redshift tự động mở rộng quy mô lên hoặc xuống các nút tùy theo nhu cầu thay đổi. Chỉ với một vài cú nhấp chuột trong Bảng điều khiển AWS hoặc một lệnh gọi API có thể dễ dàng thay đổi số lượng nút trong kho dữ liệu.
    • Phân tích hồ dữ liệu quy mô Exabyte
      Đây là một tính năng của Redshift cho phép bạn chạy các truy vấn dựa trên exabyte dữ liệu trong Amazon S3. Amazon S3 là dữ liệu an toàn và tiết kiệm chi phí để lưu trữ dữ liệu không giới hạn ở định dạng mở.
    • Đồng thời không giới hạn
      Đó là một tính năng của Redshift có nghĩa là nhiều truy vấn có thể truy cập cùng một dữ liệu trong Amazon S3. Nó cho phép bạn chạy các truy vấn trên nhiều nút bất kể mức độ phức tạp của truy vấn hay số lượng dữ liệu.
  • Truy vấn một vùng lớn dữ liệu của bạn(Query your data lake)
    Amazon Redshift là kho dữ liệu duy nhất được sử dụng để truy vấn hồ dữ liệu Amazon S3 mà không cần tải dữ liệu. Điều này mang lại sự linh hoạt bằng cách lưu trữ dữ liệu được truy cập thường xuyên trong Redshift và dữ liệu được truy cập không có cấu trúc hoặc không thường xuyên trong Amazon S3.
  • Bảo mật(Secure)
    Với một vài cài đặt tham số, bạn có thể đặt Redshift sử dụng SSL để bảo mật dữ liệu của mình. Bạn cũng có thể kích hoạt mã hóa, tất cả dữ liệu ghi vào đĩa sẽ được mã hóa.
  • Hiệu suất nhanh hơn(Faster performance)
    Amazon Redshift cung cấp tính năng lưu trữ, nén dữ liệu dạng cột và xử lý song song để giảm số lượng I / O cần thiết để thực hiện các truy vấn. Điều này cải thiện hiệu suất truy vấn.

Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây.

Tài liệu từ cafedev:

Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:

Chào thân ái và quyết thắng!

Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you!