Что такое сокращение по ключу?
Что такое сокращение по ключу?

Видео: Что такое сокращение по ключу?

Видео: Что такое сокращение по ключу?
Видео: Инфраструктура открытых ключей в TLS/SSL | Защищенные сетевые протоколы 2024, Ноябрь
Anonim

Функция Spark RDD reduceByKey объединяет значения для каждого ключ используя ассоциативный уменьшать функция. Это интуитивно означает, что эта функция дает тот же результат при повторном применении к одному и тому же набору данных RDD с несколькими разделами независимо от порядка элементов.

Тогда в чем разница между groupByKey и reduceByKey?

groupByKey () - это просто группировка набора данных на основе ключа. reduceByKey () - это что-то вроде группировки + агрегации. reduceByKey может использоваться, когда мы работаем с большим набором данных. aggregateByKey () логически совпадает с reduceByKey (), но он позволяет вернуть результат в другой тип.

Также знайте, почему уменьшить действие в искре? Снижение искры операция действие тип операции, и он запускает полное выполнение DAG для всех выстроенных ленивых инструкций. Искра RDD уменьшать функция уменьшает элементы этого СДР с помощью указанного коммутативного и ассоциативного бинарного оператора. Снижение искры операция почти аналогична уменьшать метод в Scala.

Кроме того, что такое Pairrdd?

Spark предоставляет специальные операции с RDD, содержащими пары ключ / значение. Эти RDD называются парными RDD. Парные RDD - полезный строительный блок во многих программах, поскольку они предоставляют операции, которые позволяют вам воздействовать на каждый ключ параллельно или перегруппировать данные по сети. PairRDD являются парами КЛЮЧ / ЗНАЧЕНИЕ.

ReduceByKey - это действие?

reduce () выводит коллекцию, которая не добавляет к ориентированному ациклическому графу (DAG), поэтому реализована как действие . Тем не мение, reduceByKey () возвращает RDD, который является просто еще одним уровнем / состоянием в DAG, следовательно, является преобразованием.

Рекомендуемые: