Jaki jest silnik przetwarzania danych za Amazon Elastic MapReduce?
Jaki jest silnik przetwarzania danych za Amazon Elastic MapReduce?

Wideo: Jaki jest silnik przetwarzania danych za Amazon Elastic MapReduce?

Wideo: Jaki jest silnik przetwarzania danych za Amazon Elastic MapReduce?
Wideo: Кеннет Кукьер: Большие данные — лучшие данные 2024, Grudzień
Anonim

Amazon EMR używa Apache Hadoop jako swojej dystrybucji silnik przetwarzania danych . Hadoop to platforma oprogramowania Java o otwartym kodzie źródłowym, która obsługuje: dane -intensywne aplikacje rozproszone działające na dużych klastrach z sprzęt towarowy.

Co więcej, czym jest Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) jest Usługi internetowe Amazon ( AWS ) narzędzie do przetwarzania i analizy dużych zbiorów danych. Amazon EMR przetwarza duże zbiory danych w klastrze serwerów wirtualnych Hadoop na Amazonka elastyczna Chmura obliczeniowa ( EC2 ) oraz Amazonka Prosta usługa przechowywania ( S3 ).

Co więcej, czy Amazon EMR jest w pełni zarządzany? To jest w pełni zarządzany usługa Data Lake, która może oddzielić przechowywanie danych od zasobów obliczeniowych, a zamiast tego sprawia, że klastry obliczeniowe są skalowalne, dostępne do wykorzystania na żądanie, a także umożliwia wielu klastrom jednoczesne uzyskiwanie dostępu do tych samych zestawów danych.

Można też zapytać, jak działa AWS EMR?

Generalnie, gdy przetwarzasz dane w Amazon EMR , dane wejściowe to dane przechowywane jako pliki w wybranym podstawowym systemie plików, na przykład Amazonka S3 lub HDFS. Te dane przechodzą z jednego kroku do następnego w sekwencji przetwarzania. Ostatni krok zapisuje dane wyjściowe w określonej lokalizacji, takiej jak Amazonka Łyżka S3.

Jaka jest różnica między ec2 a EMR?

w odróżnieniu EMR , EC2 nie dzieli węzłów podrzędnych na węzły podstawowe i zadania. Zwiększa to ryzyko utraty danych HDFS w przypadku usunięcia/utracenia węzła. EC2 używa bibliotek Apache (s3a) do dostępu do danych w s3. Z drugiej strony, EMR używa zastrzeżonego kodu AWS, aby mieć szybszy dostęp do s3.

Zalecana: