Indholdsfortegnelse:

Kan jeg køre Python på Hadoop?
Kan jeg køre Python på Hadoop?

Video: Kan jeg køre Python på Hadoop?

Video: Kan jeg køre Python på Hadoop?
Video: MapReduce Jobs For Distributed Hadoop Clusters in Python 2024, Kan
Anonim

Med et valg mellem programmeringssprog som Java, Scala og Python til Hadoop økosystem, de fleste udviklere bruger Python på grund af dets understøttende biblioteker til dataanalyseopgaver. Hadoop streaming giver brugeren mulighed for at oprette og udføre Kortlæg/reducer job med et hvilket som helst script eller eksekverbar som mapper eller/og reducering.

På samme måde bliver det spurgt, hvordan Python forbinder til Hadoop?

Forbinder Hadoop HDFS med Python

  1. Trin 1: Sørg for, at Hadoop HDFS fungerer korrekt. Åbn Terminal/Kommandoprompt, tjek om HDFS virker ved at bruge følgende kommandoer: start-dfs.sh.
  2. Trin 2: Installer libhdfs3-biblioteket.
  3. Trin 3: Installer hdfs3-biblioteket.
  4. Trin 4: Tjek, om forbindelsen til HDFS er vellykket.

På samme måde, hvad er Hadoop i Python? Python er et komplet programmeringssprog til generelle formål, som kan bruges til næsten alt i programmeringsverdenen. Hadoop er et big data framework skrevet i Java til at håndtere enorme mængder data. Der er talrige online institutter, som Hadoop med Python kurser som: Analytixlabs. Edureka.

Efterfølgende er spørgsmålet, hvordan jeg kører et Python MapReduce-program i Hadoop?

At skrive et Hadoop MapReduce-program i Python

  1. Motivering.
  2. Hvad vi vil gøre.
  3. Forudsætninger.
  4. Python MapReduce-kode. Korttrin: mapper.py. Reducer trin: reducer.py.
  5. Kører Python-koden på Hadoop. Download eksempel på inputdata. Kopier lokale eksempeldata til HDFS.
  6. Forbedret Mapper og Reducer kode: ved hjælp af Python iteratorer og generatorer. mapper.py. reducer.py.

Hvad er Hadoop Streaming jar?

Hadoop distribution giver et Java-værktøj kaldet Hadoop streaming . Den er pakket i en krukke fil. Med Hadoop streaming , kan vi oprette og køre Map Reduce-job med et eksekverbart script. Hadoop streaming er et hjælpeprogram, der følger med Hadoop fordeling. Det kan bruges til at udføre programmer til big data-analyse.

Anbefalede: