Оглавление:

Как я могу улучшить производительность sqoop?
Как я могу улучшить производительность sqoop?

Видео: Как я могу улучшить производительность sqoop?

Видео: Как я могу улучшить производительность sqoop?
Видео: Hadoop at scale: мы построили большой кластер, как его теперь сохранить? / Сергей Корсаков (Criteo) 2024, Ноябрь
Anonim

Оптимизировать представление , установленный в количество задач карты до значения ниже, чем в максимальное количество подключений, которые в база данных поддерживает. Контролирующий в количество параллелизма, которое Sqoop будет использовать для передачи данных в основной способ контроля в нагрузка на ваш база данных.

Соответственно, что произойдет, если sqoop выйдет из строя между процессами?

Типичный Sqoop задание, которое загружает данные из исходной базы данных в HDFS, скопирует данные в целевой каталог. Скопированный файл будет удален если sqoop не работает без завершения.

Также можно спросить, как добиться параллелизма в sqoop? Контролирующий Параллелизм . Sqoop параллельно импортирует данные из большинства источников баз данных. Вы можете указать количество задач карты (параллельных процессов), которые будут использоваться для выполнения импорта, с помощью аргумента -m или --num-mappers. Каждый из этих аргументов принимает целочисленное значение, которое соответствует степени параллелизм использовать

Следовательно, как мне улучшить производительность запросов Hive?

Ниже приведен список практик, которым мы можем следовать для оптимизации запросов Hive

  1. Включите сжатие в Hive.
  2. Оптимизировать соединения.
  3. Избегайте глобальной сортировки в Hive.
  4. Включите Tez Execution Engine.
  5. Оптимизируйте оператор LIMIT.
  6. Включить параллельное выполнение.
  7. Включите строгий режим Mapreduce.
  8. Одиночное сокращение для нескольких групп BY.

Как работает sqoop split?

Его можно использовать для повышения производительности импорта за счет большего параллелизма. Sqoop создает раскол на основе значений в конкретном столбце таблицы, который указан - расколоть -by пользователем через команду импорта. Если он недоступен, первичный ключ входной таблицы используется для создания раскол.

Рекомендуемые: