Co to jest redukcja kluczem?
Co to jest redukcja kluczem?

Wideo: Co to jest redukcja kluczem?

Wideo: Co to jest redukcja kluczem?
Wideo: Oszustwa (???) kluczem dynamometrycznym. 2024, Listopad
Anonim

Funkcja Spark RDD ReduceByKey łączy wartości dla każdego klucz używając asocjacji zmniejszyć funkcjonować. Intuicyjnie oznacza to, że ta funkcja daje ten sam wynik, gdy jest stosowana wielokrotnie na tym samym zestawie danych RDD z wieloma partycjami, niezależnie od kolejności elementów.

Jaka jest zatem różnica między groupByKey i ReduceByKey?

groupByKey () to po prostu grupowanie zestawu danych na podstawie klucza. zmniejszyćByKey () to coś w rodzaju grupowania + agregacji. zmniejszyćByKey może być używany, gdy działamy na dużym zbiorze danych. agregacjaByKey() jest logicznie taka sama jak zmniejszyćByKey () ale pozwala zwrócić wynik w różne rodzaj.

Wiedz też, dlaczego zmniejszanie jest działaniem iskrowym? Redukcja iskry operacja jest akcja rodzaj operacji i uruchamia pełne wykonanie DAG dla wszystkich ustawionych leniwych instrukcji. Iskra RDD zmniejszyć Funkcja redukuje elementy tego RDD za pomocą określonego przemiennego i asocjacyjnego operatora binarnego. Redukcja iskry operacja jest prawie podobna do zmniejszyć metoda w Scali.

Poza powyższym, czym jest Pairrdd?

Spark udostępnia operacje specjalne na dyskach RDD zawierających pary klucz/wartość. Te RDD nazywane są parami RDD. Parowe dyski RDD są przydatnym elementem konstrukcyjnym w wielu programach, ponieważ udostępniają operacje, które umożliwiają równoległe działanie na każdym kluczu lub ponowne grupowanie danych w sieci. ParaRDDs to pary KLUCZ/WARTOŚĆ.

Czy ReduceByKey jest akcją?

Reduce() wypisuje kolekcję, która nie dodaje się do skierowanego grafu acyklicznego (DAG), więc jest zaimplementowana jako an akcja . Jednakże, zmniejszyćByKey () zwraca RDD, który jest po prostu kolejnym poziomem/stanem w DAG, dlatego jest transformacją.

Zalecana: