Hvad er spark broadcast?
Hvad er spark broadcast?

Video: Hvad er spark broadcast?

Video: Hvad er spark broadcast?
Video: How To Survive Squid Game| The Real Spark 2024, November
Anonim

Udsende variabler i Apache Gnist er en mekanisme til at dele variabler på tværs af eksekvere, der er beregnet til at være skrivebeskyttet. Uden udsende variabler disse variabler ville blive sendt til hver eksekvere for hver transformation og handling, og dette kan forårsage netværksoverhead.

Ligeledes spørger folk, hvornår skal jeg udsende gnist?

Udsende variabler bruges for det meste, når opgaverne på tværs af flere faser kræver de samme data, eller når der kræves cachelagring af data i den deserialiserede form. Udsende variabler oprettes ved hjælp af en variabel v ved at kalde SparkContext.

Hvad er akkumulatorer og broadcast-variabler i gnist? Gnist understøtter to typer delt variabler : udsendelsesvariable , som kan bruges til at cache en værdi i hukommelsen på alle noder, og akkumulatorer , som er variabler der kun "tillægges" til, såsom tællere og summer.

I betragtning af dette, hvad er gnistakkumulator?

Akkumulatorer er variabler, der kun "føjes" til gennem en associativ operation og kan derfor effektivt understøttes parallelt. De kan bruges til at implementere tællere (som i MapReduce) eller summer. Gnist naturligt understøtter akkumulatorer af numeriske typer, og programmører kan tilføje understøttelse af nye typer.

Hvordan opdaterer jeg min broadcast-variabel i spark?

  1. Flyt referencedataopslaget til en forEachPartition eller forEachRdd, så det ligger udelukkende på arbejderne.
  2. Genstart Spark Context hver gang refdata ændres, med en ny Broadcast Variable.

Anbefalede: