Indholdsfortegnelse:

Hvad er forskellige filformater i Hadoop?
Hvad er forskellige filformater i Hadoop?

Video: Hvad er forskellige filformater i Hadoop?

Video: Hvad er forskellige filformater i Hadoop?
Video: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, December
Anonim

Heldigvis for dig har big data-fællesskabet stort set sat sig på tre optimerede filformater til brug i Hadoop klynger: Optimized Row Columnar (ORC), Avro og Parket.

Efterfølgende kan man også spørge, hvad er de forskellige typer af dataformater?

Der er tre typer af data kortlægning og GIS dataformater . Hver type håndteres anderledes.

Dataformattyper

  • Filbaseret- Shapefiler, Microstation Design Files (DGN), GeoTIFF-billeder.
  • Katalogbaseret - ESRI ArcInfo Coverages, US Census TIGER.
  • Databaseforbindelser - PostGIS, ESRI ArcSDE, MySQL.

Derudover, hvilket filformat er bedst i hive? RCFile er rækkesøjleformet filformat . Dette er en anden form for Hive filformat som tilbyder høje kompressionsrater på rækkeniveau. Hvis du har krav om at udføre flere rækker ad gangen, kan du bruge RCFile format.

Når man tager dette i betragtning, hvad er de almindelige inputformater i Hadoop?

InputFormat opretter Inputsplit

  • De mest almindelige inputformater er:
  • FileInputFormat- Det er basisklassen for alle filbaserede inputformater.
  • TextInputFormat- Det er standardinputformatet for MapReduce.
  • KeyValueTextInputFormat- Det ligner TextInputFormat.
  • Følg linket for at lære mere om InputFormat i Hadoop.

Hvad er orc-filformat i Hadoop?

ORC filformat Den optimerede rækkesøjle ( ORC ) filformat giver en yderst effektiv måde at gemme Hive-data på. Det var designet til at overvinde begrænsningerne i den anden Hive filformater . Ved brug af ORC filer forbedrer ydeevnen, når Hiveis læser, skriver og behandler data.

Anbefalede: