Tin tức và phân tích của tất cả các thiết bị di động

Giới thiệu về Amazon EMR (Elastic MapReduce) dành cho người mới bắt đầu

Máy tính hiện đã đạt đến đỉnh cao và vẫn đang phát triển. Cuối cùng 3 Trong vài thập kỷ qua, máy móc đã phát triển và cải tiến rất nhiều, đặc biệt là về khả năng tính toán và đa nhiệm.

Bạn có thể tưởng tượng mức tăng hiệu suất có thể điên rồ như thế nào nếu các tác vụ được chia sẻ giữa nhiều máy và được thực thi song song không? Điều này được gọi là tính toán phân tán. Nó giống như tinh thần đồng đội của máy tính.

Tuy nhiên, bạn có thể thắc mắc tại sao chúng ta lại thảo luận về vấn đề điện toán phân tán này. Bởi vì tính toán phân tán và Amazon EMR (Elastic MapReduce) rất liên quan. Điều này có nghĩa là EMR của AWS sử dụng các nguyên tắc điện toán phân tán để xử lý và phân tích lượng lớn dữ liệu trên đám mây.

Cảm ơn Amazon EMR, giờ đây bạn có thể phân tích và xử lý dữ liệu lớn bằng cách sử dụng khung điện toán phân tán mà bạn lựa chọn trên các phiên bản S3.

Làm thế nào nó hoạt động Amazon EMR?

Nguồn: aws.amazon.com

Đầu tiên, đưa dữ liệu vào bất kỳ kho dữ liệu nào như Amazon S3, DynamoDB hoặc các nền tảng lưu trữ AWS khác vì chúng đều tích hợp tốt với EMR.

Bây giờ bạn sẽ cần một nền tảng Dữ liệu lớn để xử lý và phân tích dữ liệu này. Với nhiều nền tảng dữ liệu lớn để lựa chọn, chẳng hạn như Apache Spark, Hadoop, Hive và Presto, bạn có thể chọn nền tảng phù hợp với yêu cầu của mình và tải nó lên kho dữ liệu mà bạn chọn.

Một cụm EMR gồm các phiên bản EC2 được tạo để xử lý và phân tích dữ liệu song song. Bạn có thể định cấu hình số lượng nút và các chi tiết khác để tạo một cụm.

Bộ lưu trữ chính của bạn phân phối dữ liệu và cấu trúc đến các nút này, nơi các phần dữ liệu được xử lý riêng lẻ và kết quả được kết hợp.

Sau khi có kết quả, bạn có thể chấm dứt cụm để giải phóng tất cả tài nguyên được phân bổ.

Lợi ích của Amazon EMR

Các công ty, cả nhỏ và lớn, luôn cân nhắc việc áp dụng các giải pháp tiết kiệm chi phí. Vậy tại sao không phải chăng Amazon EMR? Khi nào có thể đơn giản hóa việc chạy nhiều nền tảng dữ liệu lớn khác nhau trên AWS, cung cấp một cách thuận tiện để xử lý và phân tích dữ liệu đồng thời tiết kiệm tiền.

✅ Tính linh hoạt: Bạn có thể đoán được bản chất của nó qua thuật ngữ “Elastic MapReduce”. Thuật ngữ nói – dựa trên yêu cầu, Amazon EMR cho phép bạn dễ dàng thay đổi kích thước các cụm theo cách thủ công hoặc tự động. Ví dụ: hiện tại bạn có thể cần 200 phiên bản để xử lý yêu cầu và sau một hoặc hai giờ, con số này có thể tăng lên 600 phiên bản. Như vậy Amazon EMR là tốt nhất khi bạn chỉ cần khả năng mở rộng để thích ứng với những thay đổi nhanh chóng về nhu cầu.

✅ Kho dữ liệu: có hay không Amazon S3, hệ thống tệp phân tán Hadoop, Amazon DynamoDB hoặc các kho dữ liệu AWS khác, Amazon EMR tích hợp liền mạch với nó.

✅ Công cụ xử lý dữ liệu: Amazon EMR hỗ trợ nhiều nền tảng dữ liệu lớn bao gồm Apache Spark, Hive, Hadoop và Presto. Hơn nữa, bạn có thể chạy các thuật toán và công cụ học sâu và học máy trên khung này.

✅ Tiết kiệm chi phí: Không giống như các sản phẩm thương mại khác, Amazon EMR cho phép bạn chỉ trả tiền cho những tài nguyên bạn sử dụng hàng giờ. Ngoài ra, bạn có thể chọn từ các mô hình định giá khác nhau phù hợp với ngân sách của mình.

✅ Tùy chỉnh cụm: Khung cho phép bạn tùy chỉnh từng phiên bản cụm. Bạn cũng có thể ghép nối nền tảng dữ liệu lớn với loại cụm lý tưởng. Ví dụ: các phiên bản dựa trên Apache Spark và Graviton2 là sự kết hợp tuyệt vời để tối ưu hóa hiệu suất trong EMR.

✅ Kiểm soát quyền truy cập: Bạn có thể sử dụng công cụ AWS Identity and Access Management (IAM) để kiểm soát quyền trong EMR. Ví dụ: bạn có thể cho phép người dùng cụ thể chỉnh sửa cụm trong khi những người khác chỉ có thể xem cụm.

✅ Tích hợp: EMR tích hợp hoàn hảo với tất cả các dịch vụ AWS khác. Vì vậy, bạn có thể tận dụng sức mạnh của máy chủ ảo, khả năng bảo mật mạnh mẽ, khả năng mở rộng và khả năng phân tích trong EMR.

Trường hợp sử dụng Amazon EMR

# 1. học máy

Phân tích dữ liệu với học máy và học sâu trong Amazon EMR. Ví dụ: chạy các thuật toán khác nhau trên dữ liệu liên quan đến sức khỏe để theo dõi nhiều chỉ số sức khỏe như chỉ số khối cơ thể, nhịp tim, huyết áp, tỷ lệ mỡ cơ thể, v.v. là rất quan trọng để phát triển thiết bị theo dõi thể dục. Tất cả điều này có thể được thực hiện trên các phiên bản EMR nhanh hơn và hiệu quả hơn.

#2. Thực hiện những chuyển biến lớn

Người bán thường tải xuống lượng lớn dữ liệu kỹ thuật số để phân tích hành vi của khách hàng và cải thiện hoạt động kinh doanh. Trên cùng một dòng Amazon EMR sẽ hiệu quả trong việc sử dụng các bộ dữ liệu lớn và thực hiện các phép biến đổi lớn với Spark.

#3. Khai thác dữ liệu

Bạn có muốn xử lý một tập dữ liệu mất nhiều thời gian để xử lý không? Amazon EMR chỉ nhằm mục đích khai thác dữ liệu và phân tích dự đoán các bộ dữ liệu phức tạp, đặc biệt là đối với dữ liệu phi cấu trúc. Hơn nữa, kiến ​​trúc cụm của nó là hoàn hảo cho việc xử lý song song.

#4. Mục tiêu nghiên cứu

Thực hiện nghiên cứu của bạn bằng cách sử dụng một nền tảng tiết kiệm và hiệu quả được gọi là Amazon EMR. Do khả năng mở rộng nên các vấn đề về hiệu suất rất hiếm xảy ra khi chạy các tập dữ liệu lớn trong EMR. Do đó, cấu trúc này rất phù hợp với các phòng thí nghiệm phân tích và nghiên cứu dữ liệu lớn.

#5. Truyền phát thời gian thực

Một lợi thế quan trọng khác Amazon EMR là một dịch vụ phát trực tuyến theo thời gian thực. Xây dựng các quy trình phát trực tuyến theo thời gian thực có thể mở rộng để chơi trò chơi trực tuyến, phát video trực tuyến, giám sát lưu lượng truy cập và giao dịch chứng khoán với Apache Kafka và Apache Flink trên Amazon EMR.

Sự khác biệt giữa EMR và Amazon Keo dán và dịch chuyển đỏ?

AWS EMR so với keo

Hai dịch vụ AWS mạnh mẽ – Amazon EMR và Amazon Keo đã thu hút được sự chú ý trung thành trong việc xử lý dữ liệu của bạn.

Việc trích xuất dữ liệu từ nhiều nguồn khác nhau, chuyển đổi và tải vào kho dữ liệu nhanh chóng và hiệu quả nhờ Amazon Keo trong khi Amazon EMR giúp bạn xử lý các ứng dụng Dữ liệu lớn với Hadoop, Spark, Hive, v.v.

Về cơ bản, AWS Glue cho phép bạn thu thập và chuẩn bị dữ liệu để phân tích, Amazon EMR cho phép bạn xử lý chúng.

EMR so với dịch chuyển đỏ

Hãy tưởng tượng rằng bạn đang điều hướng dữ liệu của mình một cách nhất quán và truy vấn nó một cách dễ dàng. SQL là thứ bạn thường sử dụng cho mục đích này. Tương tự, Redshift cung cấp các dịch vụ xử lý phân tích trực tuyến được tối ưu hóa để dễ dàng khai thác lượng lớn dữ liệu bằng SQL.

Trong khi lưu trữ dữ liệu, bạn sẽ có quyền truy cập vào các dịch vụ có sẵn, an toàn và có khả năng mở rộng cao Amazon EMR sử dụng các nhà cung cấp bộ nhớ ngoài như S3 và DynamoDB. Mặt khác, Redshift có lớp dữ liệu riêng, cho phép bạn lưu trữ dữ liệu ở định dạng cột.

Các phương pháp tối ưu hóa chi phí Amazon EMR

# 1. Đi kèm với dữ liệu được định dạng

Dữ liệu càng lớn thì thời gian xử lý càng lâu. Hơn nữa, việc cung cấp dữ liệu thô trực tiếp vào cụm khiến việc này thậm chí còn phức tạp hơn, cần nhiều thời gian hơn để tìm phần bạn sắp xử lý.

Do đó, dữ liệu được định dạng bao gồm siêu dữ liệu về các cột, loại dữ liệu, kích thước, v.v., điều này có thể giúp bạn tiết kiệm thời gian tra cứu và tổng hợp.

Đồng thời giảm kích thước của dữ liệu bằng cách sử dụng các kỹ thuật nén dữ liệu vì việc xử lý các tập dữ liệu nhỏ hơn tương đối dễ dàng hơn.

#2. Tận hưởng dịch vụ lưu trữ giá cả phải chăng

Tận dụng các dịch vụ lưu trữ chính có hiệu quả về mặt chi phí sẽ giúp giảm chi phí EMR lớn. Amazon s3 là dịch vụ lưu trữ đầu vào và đầu ra đơn giản và rẻ tiền. Mô hình trả tiền theo mức sử dụng của nó chỉ tính phí cho không gian bạn thực sự sử dụng.

#3. Kích thước phiên bản chính xác

Sử dụng phiên bản có kích thước phù hợp có thể giảm đáng kể ngân sách EMR của bạn. Phiên bản EC2 thường được tính phí theo giây và giá phụ thuộc vào kích thước của chúng, nhưng liệu bạn có đang sử dụng cụm lớn hay không 0.7x, hoặc 0.36x lớn thì chi phí quản lý chúng là như nhau. Do đó, việc sử dụng hiệu quả các máy lớn hơn sẽ tiết kiệm chi phí hơn so với việc sử dụng nhiều máy nhỏ.

#4. Phát hiện trường hợp

Phiên bản Spot là một lựa chọn tuyệt vời để mua tài nguyên EC2 chưa sử dụng với mức giá chiết khấu. So với các trường hợp theo yêu cầu, chúng ít tốn kém hơn nhưng không bền vững vì có thể được lấy lại khi nhu cầu tăng. Vì vậy chúng linh hoạt về khả năng chống hư hỏng nhưng không phù hợp cho các nhiệm vụ lâu dài.

#5. Tự động chia tỷ lệ

Tính năng tự động mở rộng quy mô của nó là tất cả những gì bạn cần để tránh các cụm quá lớn hoặc quá nhỏ. Điều này cho phép bạn chọn đúng số lượng và loại phiên bản trong cụm dựa trên khối lượng công việc, tối ưu hóa chi phí.

những từ cuối

Đám mây và dữ liệu lớn là vô tận, mang đến cho bạn vô số công cụ và nền tảng để tìm hiểu và triển khai. Một nền tảng duy nhất có thể tận dụng cả dữ liệu lớn và đám mây là Amazon EMR vì nó đơn giản hóa việc chạy các nền tảng dữ liệu lớn để xử lý và phân tích dữ liệu lớn.

Để giúp bạn bắt đầu với EMR, bài viết này sẽ cho bạn biết nó là gì, lợi ích của nó, cách thức hoạt động, trường hợp sử dụng và phương pháp tiếp cận hiệu quả về mặt chi phí.

Sau đó, hãy xem mọi thứ bạn cần biết về AWS Athena.

Mục lục