Что такое RDD в Scala?
Что такое RDD в Scala?

Видео: Что такое RDD в Scala?

Видео: Что такое RDD в Scala?
Видео: RDDs: Transformation and Actions 2024, Ноябрь
Anonim

Устойчивые распределенные наборы данных ( RDD ) является фундаментальной структурой данных Spark. Это неизменяемая распределенная коллекция объектов. RDD может содержать любой тип Python, Java или Scala объекты, включая определяемые пользователем классы. Формально RDD - это секционированная коллекция записей, доступная только для чтения.

Также вопрос в том, в чем разница между RDD и DataFrame?

RDD – RDD представляет собой распределенный набор элементов данных, распределенных по множеству машин в кластер. RDD представляют собой набор объектов Java или Scala, представляющих данные. DataFrame - А DataFrame представляет собой распределенный набор данных, организованных в именованные столбцы. Это концептуально равно таблице в реляционная база данных.

Кроме того, как распространяется RDD? Устойчивый Распространено Наборы данных ( RDD ) Они распределен набор объектов, которые хранятся в памяти или на дисках разных машин кластера. Один RDD можно разделить на несколько логических разделов, чтобы эти разделы можно было хранить и обрабатывать на разных машинах кластера.

как работает Spark RDD?

RDD в Искра иметь коллекцию записей, содержащих разделы. RDD в Искра делятся на небольшие логические фрагменты данных, называемые разделами, при выполнении действия задача запускается для каждого раздела. Перегородки в RDD являются основными единицами параллелизма.

Что быстрее RDD или DataFrame?

RDD - При выполнении простых операций группировки и агрегирования RDD API медленнее. DataFrame - При выполнении исследовательского анализа, создании агрегированной статистики по данным, фреймы данных находятся Быстрее . RDD - Когда вам нужны низкоуровневые трансформации и действия, мы используем RDD . Кроме того, когда нам нужны абстракции высокого уровня, мы используем RDD.

Рекомендуемые: