Jaki jest problem z małymi plikami w Hadoop?
Jaki jest problem z małymi plikami w Hadoop?

Wideo: Jaki jest problem z małymi plikami w Hadoop?

Wideo: Jaki jest problem z małymi plikami w Hadoop?
Wideo: Hadoop Small File Issue | Hadoop Interview Questions 2024, Może
Anonim

1) Problem z małym plikiem w HDFS : Przechowywanie dużo małe pliki które są niezwykle mniejszy niż rozmiar bloku nie może być efektywnie obsługiwany przez HDFS . Czytanie przez małe pliki wymagają wielu poszukiwań i wielu przeskoków między węzłem danych, co z kolei jest nieefektywne przetwarzanie danych.

Poza tym, które pliki rozwiązują problemy z małymi plikami w Hadoop?

1) HAR ( Hadoop Archiwum) Pliki został wprowadzony do radzić sobie z problemem z małymi plikami . HAR wprowadził warstwę na wierzchu HDFS , które zapewniają interfejs dla plik dostęp. Za pomocą Hadoop polecenie archiwum, HAR pliki są tworzone, które uruchamiają się MapaReduce praca spakować pliki są archiwizowane w mniejszy Liczba Pliki HDFS.

Co więcej, czy mogę mieć wiele plików w HDFS używających różnych rozmiarów bloków? Domyślny rozmiar z blok wynosi 64 MB. ty Móc zmień go w zależności od wymagań. Wracając do twojego pytania, tak ty może tworzyć wiele plików przez zróżnicowanie rozmiary bloków ale w czasie rzeczywistym to Wola nie sprzyjać produkcji.

Co więcej, dlaczego HDFS nie obsługuje optymalnie małych plików?

Problemy z małe pliki oraz HDFS Każdy plik , katalog i blok w HDFS to reprezentowany jako obiekt w pamięci nazwy węzła, z których każdy zajmuje 150 bajtów, zgodnie z ogólną zasadą. Ponadto, HDFS nie jest nastawiony na efektywny dostęp małe pliki : to jest przeznaczony głównie do strumieniowego dostępu do dużych pliki.

Dlaczego Hadoop jest powolny?

Wolny Szybkość przetwarzania Ten dysk wymaga czasu, dzięki czemu cały proces jest bardzo wolny . Gdyby Hadoop przetwarza dane w małej objętości, jest bardzo wolny stosunkowo. Idealnie nadaje się do dużych zbiorów danych. Jak Hadoop ma silnik przetwarzania wsadowego w rdzeniu, jego prędkość przetwarzania w czasie rzeczywistym jest mniejsza.

Zalecana: