Какой механизм обработки данных стоит в Amazon Elastic MapReduce?
Какой механизм обработки данных стоит в Amazon Elastic MapReduce?

Видео: Какой механизм обработки данных стоит в Amazon Elastic MapReduce?

Видео: Какой механизм обработки данных стоит в Amazon Elastic MapReduce?
Видео: Примеры использования Amazon Elastic Map Reduce и Hadoop Cluster 2024, Май
Anonim

Amazon EMR использует Apache Hadoop в качестве распределенного механизм обработки данных . Hadoop - это программная среда Java с открытым исходным кодом, которая поддерживает данные -интенсивные распределенные приложения, работающие на больших кластерах из товарное оборудование.

Более того, что такое Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) является Веб-сервисы Amazon ( AWS ) инструмент для обработки и анализа больших данных. Amazon EMR обрабатывает большие данные в кластере виртуальных серверов Hadoop на Amazon Elastic Вычислительное облако ( EC2 ) а также Амазонка Простая служба хранения ( S3 ).

Кроме того, полностью ли управляем Amazon EMR? Это полностью управляемый служба озера данных, которая может отделять хранилище данных от вычислительных ресурсов и вместо этого делает вычислительные кластеры масштабируемыми, доступными для использования по запросу и включает возможность одновременного доступа нескольких кластеров к одним и тем же наборам данных.

Также можно спросить, как работает AWS EMR?

Обычно, когда вы обрабатываете данные в Amazon EMR , входными данными являются данные, хранящиеся в виде файлов в выбранной вами базовой файловой системе, например Амазонка S3 или HDFS. Эти данные передаются от одного шага к следующему в последовательности обработки. Последний шаг записывает выходные данные в указанное место, например Амазонка Ковш S3.

В чем разница между ec2 и EMR?

В отличие от EMR , EC2 не разделяет подчиненные узлы на основные и рабочие узлы. Это увеличивает риск потери данных HDFS в случае удаления / потери узла. EC2 использует библиотеки Apache (s3a) для доступа к данным на s3. С другой стороны, EMR использует собственный код AWS для более быстрого доступа к s3.

Рекомендуемые: