Spisu treści:

Jakie są różne formaty plików w Hadoop?
Jakie są różne formaty plików w Hadoop?

Wideo: Jakie są różne formaty plików w Hadoop?

Wideo: Jakie są różne formaty plików w Hadoop?
Wideo: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, Listopad
Anonim

Na szczęście dla Ciebie społeczność big data zasadniczo zdecydowała się na trzy zoptymalizowane formaty plików używane w Hadoop klastry: Optimized Row Columnar (ORC), Avro i Parquet.

Następnie można zapytać, jakie są rodzaje formatów danych?

Znajdują się trzy rodzaje danych mapowanie i GIS formaty danych . Każdy rodzaj jest traktowane inaczej.

Typy formatów danych

  • Pliki Shapefiles, pliki projektowe Microstation (DGN), obrazy GeoTIFF.
  • Oparte na katalogach - ESRI ArcInfo Coverages, US Census TIGER.
  • Połączenia baz danych - PostGIS, ESRI ArcSDE, MySQL.

Dodatkowo, który format pliku jest najlepszy w ulu? Plik RCFile to wiersz kolumnowy format pliku . To kolejna forma Format pliku ula który oferuje wysokie współczynniki kompresji na poziomie wiersza. Jeśli masz potrzebę wykonywania wielu wierszy naraz, możesz użyć pliku RCFile format.

Biorąc to pod uwagę, jakie są popularne formaty wejściowe w Hadoop?

InputFormat tworzy Inputsplit

  • Najpopularniejszymi formatami wejściowymi są:
  • FileInputFormat - jest to klasa bazowa dla wszystkich formatów opartych na plikach.
  • TextInputFormat - jest to domyślny InputFormat ofMapReduce.
  • KeyValueTextInputFormat - jest podobny do TextInputFormat.
  • Kliknij link, aby dowiedzieć się więcej o InputFormat w Hadoop.

Co to jest format pliku orków w Hadoop?

Format pliku ORC Zoptymalizowany kolumnowy wiersz ( ORC ) format pliku zapewnia wysoce wydajny sposób przechowywania danych Hive. Został zaprojektowany, aby przezwyciężyć ograniczenia drugiego Ula formaty plików . Za pomocą pliki ORC poprawia wydajność podczas odczytywania, zapisywania i przetwarzania danych przez Hiveis.

Zalecana: