Hvordan opnås datalokalisering i Hadoop?
Hvordan opnås datalokalisering i Hadoop?

Video: Hvordan opnås datalokalisering i Hadoop?

Video: Hvordan opnås datalokalisering i Hadoop?
Video: How To Show / Add Bluetooth Icon In Windows 10 Taskbar 2024, November
Anonim

Data lokalisering i Hadoop . Tag eksemplet med Wordcount-eksemplet, hvor de fleste af ordene er blevet gentaget i 5 Lacs eller flere gange. I så fald efter Mapper-fasen vil hvert Mapper-output have ord i intervallet 5 Lacs. Denne komplette proces med lagring af Mapper-output til LFS kaldes som Datalokalisering.

Med dette i øjesyn, hvad er datalokalisering i Hadoop?

Begrebet Data lokalitet i Hadoop data lokalitet i KortReducer refererer til evnen til at flytte beregningen tæt på hvor den faktiske data ligger på knudepunktet, i stedet for at bevæge sig stort data til beregning. Dette minimerer overbelastning af netværket og øger systemets samlede gennemløb.

Og hvordan opbevares big data? De fleste mennesker forbinder automatisk HDFS eller Hadoop Distributed File System med Hadoop data varehuse. HDFS gemmer information i klynger, der består af mindre blokke. Disse blokke er gemt i fysisk på stedet opbevaring enheder, såsom interne diskdrev.

Bare så, hvordan opbevares data i Hadoop?

På en Hadoop klynge, den data inden for HDFS og MapReduce-systemet er placeret på hver maskine i klyngen. Data er gemt i data blokke på DataNodes. HDFS replikerer dem data blokke, normalt 128 MB i størrelse, og distribuerer dem, så de replikeres inden for flere noder på tværs af klyngen.

Hvordan lagres filer i HDFS?

HDFS afslører en fil systemnavneområde og tillader brugerdata at være gemt i filer . Internt, a fil er opdelt i en eller flere blokke, og disse blokke er gemt i et sæt DataNodes. NameNode udføres fil systemnavnefunktioner som åbning, lukning og omdøbning filer og mapper.

Anbefalede: