Как достигается локализация данных в Hadoop?
Как достигается локализация данных в Hadoop?

Видео: Как достигается локализация данных в Hadoop?

Видео: Как достигается локализация данных в Hadoop?
Видео: Алексей Зиновьев — Kafka льёт, а Spark разгребает! 2024, Ноябрь
Anonim

Локализация данных в Hadoop . Возьмем пример Wordcount, где большая часть слов повторяется 5 или более раз. В этом случае после фазы Mapper на каждом выходе Mapper будут слова в диапазоне 5 Lac. Этот полный процесс сохранения вывода Mapper в LFS называется Локализация данных.

Учитывая это, что такое локализация данных в Hadoop?

Концепция чего-либо Данные местность в Данные Hadoop местность в Уменьшение карты относится к способности переместить вычисление ближе к тому месту, где данные находится на узле, а не перемещает большие данные к вычислению. Это минимизирует перегрузку сети и увеличивает общую пропускную способность системы.

Кроме того, как хранятся большие данные? Большинство людей автоматически связывают HDFS или распределенную файловую систему Hadoop с Hadoop. данные склады. HDFS хранит информацию в кластерах, состоящих из блоков меньшего размера. Эти блоки хранится в физическом место хранения устройства, такие как внутренние диски.

Итак, как данные хранятся в Hadoop?

На Hadoop кластер, данные в HDFS и системе MapReduce размещены на каждой машине в кластере. Данные является хранится в данные блоки на DataNodes. HDFS копирует эти данные блоки, обычно размером 128 МБ, и распределяет их таким образом, чтобы они реплицировались на нескольких узлах кластера.

Как файлы хранятся в HDFS?

HDFS обнажает файл system и позволяет хранится в файлы . Внутри файл разделен на один или несколько блоков, и эти блоки хранится в наборе DataNodes. NameNode выполняет файл операции системного пространства имен, такие как открытие, закрытие и переименование файлы и каталоги.

Рекомендуемые: