Hvad er reducere med nøgle?
Hvad er reducere med nøgle?

Video: Hvad er reducere med nøgle?

Video: Hvad er reducere med nøgle?
Video: Hørfrø urbech Sådan tilberedes Tag egenskaber God sundhed Skønhed undertekster undertekster 2024, November
Anonim

Spark RDD reduceByKey-funktionen fletter værdierne for hver nøgle ved hjælp af et associativ reducere fungere. Det betyder intuitivt, at denne funktion producerer samme resultat, når den anvendes gentagne gange på samme sæt RDD-data med flere partitioner, uanset elementets rækkefølge.

Så hvad er forskellen mellem groupByKey og reduceByKey?

groupByKey () er bare at gruppere dit datasæt baseret på en nøgle. reduceByKey () er noget som gruppering + aggregering. reduceByKey kan bruges, når vi kører på store datasæt. aggregateByKey() er logisk det samme som reduceByKey (), men det lader dig returnere resultatet forskellige type.

Ved også, hvorfor reducere er handling i gnist? Reducer gnisten operation er en handling form for operation, og det udløser en fuld DAG-udførelse for alle opstillede dovne instruktioner. Gnist RDD reducere funktion reducerer elementerne i denne RDD ved hjælp af den angivne kommutative og associative binære operator. Reducer gnisten drift er næsten den samme som reducere metode i Scala.

Udover ovenstående, hvad er Pairrdd?

Spark giver specielle operationer på RDD'er, der indeholder nøgle/værdi-par. Disse RDD'er kaldes par-RDD'er. Par RDD'er er en nyttig byggeklods i mange programmer, da de afslører operationer, der giver dig mulighed for at handle på hver nøgle parallelt eller omgruppere data på tværs af netværket. ParRDD'er er NØGLE/VÆRDI-par.

Er reduceByKey en handling?

reduce() udlæser en samling, som ikke tilføjes til den dirigerede acykliske graf (DAG), så er implementeret som en handling . Imidlertid, reduceByKey () returnerer en RDD, som blot er et andet niveau/tilstand i DAG, derfor er en transformation.

Anbefalede: