Видео: Что такое Spark Broadcast?
2024 Автор: Lynn Donovan | [email protected]. Последнее изменение: 2023-12-15 23:52
Транслировать переменные в Apache Искра - это механизм для обмена переменными между исполнителями, которые предназначены только для чтения. Без транслировать переменные эти переменные будут отправлены каждому исполнителю для каждого преобразования и действия, и это может вызвать накладные расходы сети.
Точно так же люди спрашивают, когда я должен транслировать Spark?
Транслировать переменные в основном используются, когда для выполнения задач на нескольких этапах требуются одни и те же данные или когда требуется кэширование данных в десериализованной форме. Транслировать переменные создаются с использованием переменной v путем вызова SparkContext.
Кроме того, что такое аккумуляторы и широковещательные переменные в искре? Искра поддерживает два типа общих переменные : широковещательные переменные , который можно использовать для кэширования значения в памяти на всех узлах, и аккумуляторы , которые переменные которые только «добавляются», например, счетчики и суммы.
Учитывая это, что такое искровой аккумулятор?
Аккумуляторы - это переменные, которые «добавляются» только через ассоциативную операцию и поэтому могут эффективно поддерживаться параллельно. Их можно использовать для реализации счетчиков (как в MapReduce) или сумм. Искра изначально поддерживает аккумуляторы числовых типов, и программисты могут добавить поддержку новых типов.
Как мне обновить свою широковещательную переменную в Spark?
- Переместите поиск справочных данных в forEachPartition или forEachRdd, чтобы он полностью принадлежал рабочим.
- Перезапускайте контекст Spark каждый раз при изменении refdata с новой широковещательной переменной.
Рекомендуемые:
Что такое w3c, что такое Whatwg?
Рабочая группа по технологиям веб-гипертекстовых приложений (WHATWG) - это сообщество людей, заинтересованных в развитии HTML и связанных с ним технологий. WHATWG была основана в 2004 году представителями Apple Inc., Mozilla Foundation и Opera Software, ведущих поставщиков веб-браузеров
Что такое процесс в операционной системе, что такое поток в операционной системе?
Проще говоря, процесс - это исполняемая программа. Один или несколько потоков выполняются в контексте процесса. Поток - это основная единица, которой операционная система выделяет время процессора. Пул потоков в основном используется для уменьшения количества потоков приложений и обеспечения управления рабочими потоками
Что такое персональный компьютер Что такое аббревиатура?
ПК - это аббревиатура персонального компьютера
Что такое эвристика репрезентативности Что такое эвристика доступности?
Эвристика доступности - это мысленный ярлык, который помогает нам принять решение на основе того, насколько легко что-то вспомнить. Эвристика репрезентативности - это мысленный ярлык, который помогает нам принять решение, сравнивая информацию с нашими мысленными прототипами
Что такое DataFrame в Spark Scala?
Spark DataFrame - это распределенный набор данных, организованный в именованные столбцы, который обеспечивает операции для фильтрации, группировки или вычисления агрегатов и может использоваться со Spark SQL. DataFrames могут быть созданы из файлов структурированных данных, существующих RDD, таблиц в Hive или внешних баз данных