Что такое Impala в больших данных?
Что такое Impala в больших данных?

Видео: Что такое Impala в больших данных?

Видео: Что такое Impala в больших данных?
Видео: Алексей Дёмин - "Spark vs Impala. Что лучше подходит для soft real-time sql запросов" 2024, Ноябрь
Anonim

Импала - это механизм запросов с массово-параллельной обработкой с открытым исходным кодом на основе кластерных систем, таких как Apache Hadoop. Он был создан на основе бумаги Google Dremel. Это интерактивный механизм запросов, подобный SQL, который работает поверх распределенной файловой системы Hadoop (HDFS). Импала использует HDFS в качестве основного хранилища.

В связи с этим, что такое Импала и улей?

Apache Улей является эффективным стандартом для SQL-in-Hadoop. Импала это система запросов SQL с открытым исходным кодом, разработанная после Google Dremel. Cloudera Импала это механизм SQL для обработки данных, хранящихся в HBase и HDFS. Импала использует Улей мегамагазин и может запросить Улей таблицы напрямую.

Кроме того, что лучше улей или Импала? Apache Улей может быть не идеальным для интерактивных вычислений, тогда как Импала предназначен для интерактивных вычислений. Улей - это пакетная обработка Hadoop MapReduce, тогда как Импала является более как база данных MPP. Улей поддерживает сложные типы, но Импала не. Apache Улей является отказоустойчивым, тогда как Импала не поддерживает отказоустойчивость.

Также спросили, почему мы используем Импалу?

Импала поддерживает обработку данных в памяти, т. е. получает доступ / анализирует данные, которые является хранятся на узлах данных Hadoop без перемещения данных. Вы можете данные доступа с использованием Impala с использованием SQL-подобные запросы. Импала обеспечивает более быстрый доступ к данным в HDFS по сравнению с другими механизмами SQL.

Что такое улей в больших данных?

Apache Улей это данные складская система для данные обобщение и анализ, а также для запросов больших данные системы на платформе Hadoop с открытым исходным кодом. Он преобразует SQL-подобные запросы в задания MapReduce для упрощения выполнения и обработки чрезвычайно больших объемов данные.

Рекомендуемые: