Hvad er databehandlingsmotoren bag Amazon Elastic MapReduce?
Hvad er databehandlingsmotoren bag Amazon Elastic MapReduce?

Video: Hvad er databehandlingsmotoren bag Amazon Elastic MapReduce?

Video: Hvad er databehandlingsmotoren bag Amazon Elastic MapReduce?
Video: Kenneth Cukier: Big data is better data 2024, December
Anonim

Amazon EMR bruger Apache Hadoop som distribueret databehandlingsmotor . Hadoop er en open source, Java-softwareramme, der understøtter data -intensive distribuerede applikationer, der kører på store klynger af råvare hardware.

Desuden, hvad er Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) er en Amazon Web Services ( AWS ) værktøj til behandling og analyse af big data. Amazon EMR behandler big data på tværs af en Hadoop-klynge af virtuelle servere på Amazon elastik Compute Cloud ( EC2 ) og Amazon Simpel opbevaringsservice ( S3 ).

Ydermere, er Amazon EMR fuldt styret? Det er en fuldt styret data lake-tjeneste, der kan afkoble datalagring fra computerressourcer og i stedet gør computerklynger skalerbare, tilgængelige til at blive brugt on-demand og inkluderer muligheden for flere klynger til at få adgang til de samme datasæt på én gang.

Man kan også spørge, hvordan virker AWS EMR?

Generelt, når du behandler data i Amazon EMR , input er data gemt som filer i dit valgte underliggende filsystem, som f.eks Amazon S3 eller HDFS. Disse data går fra det ene trin til det næste i behandlingssekvensen. Det sidste trin skriver outputdataene til en specificeret placering, såsom en Amazon S3 spand.

Hvad er forskellen mellem ec2 og EMR?

I modsætning til EMR , EC2 kategoriserer ikke slaveknuder i kerne- og opgavenoder. Dette øger risikoen for at miste HDFS-data i tilfælde af at en node fjernes/taber sig. EC2 bruger Apache-biblioteker (s3a) til at få adgang til data på s3. På den anden side, EMR bruger AWS proprietær kode for at få hurtigere adgang til s3.

Anbefalede: