Hvad er problemet med små filer i Hadoop?
Hvad er problemet med små filer i Hadoop?

Video: Hvad er problemet med små filer i Hadoop?

Video: Hvad er problemet med små filer i Hadoop?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, December
Anonim

1) Lille fil problem i HDFS : Opbevaringsparti af små filer som er ekstremt mindre end blokstørrelsen ikke kan håndteres effektivt af HDFS . Læser igennem små filer involverer masser af søgninger og masser af hop mellem dataknude til dataknude, hvilket er en ineffektiv databehandling.

Udover dette, hvilke filer håndterer små filproblemer i Hadoop?

1) HAR ( Hadoop Arkiv) Filer er blevet introduceret til håndtere små filer problem . HAR har indført et lag ovenpå HDFS , som giver grænseflade til fil adgang. Ved brug af Hadoop arkivkommando, HAR filer oprettes, som kører en KortReducer arbejde med at pakke filer bliver arkiveret i mindre Antallet af HDFS filer.

Kan jeg desuden have flere filer i HDFS med forskellige blokstørrelser? Standard størrelse af blok er 64 MB. du kan ændre det afhængigt af dit krav. Kommer til dit spørgsmål ja du kan oprette flere filer ved at variere blokstørrelser men i realtid dette vilje ikke favoriserer produktionen.

Desuden, hvorfor håndterer HDFS ikke små filer optimalt?

Problemer med små filer og HDFS Hver fil , katalog og bloker ind HDFS er repræsenteret som et objekt i navnenodens hukommelse, som hver optager 150 bytes, som en tommelfingerregel. Desuden, HDFS er ikke gearet til effektiv adgang små filer : det er primært designet til streaming adgang for store filer.

Hvorfor er Hadoop langsom?

Langsom Behandlingshastighed Denne disksøgning tager tid, hvilket gør hele processen meget langsom . Hvis Hadoop behandler data i lille mængde, det er meget langsom forholdsvis. Den er ideel til store datasæt. Som Hadoop har batchbehandlingsmotor i kernen, dens hastighed til realtidsbehandling er mindre.

Anbefalede: