W jaki sposób uzyskuje się lokalizację danych w Hadoop?
W jaki sposób uzyskuje się lokalizację danych w Hadoop?

Wideo: W jaki sposób uzyskuje się lokalizację danych w Hadoop?

Wideo: W jaki sposób uzyskuje się lokalizację danych w Hadoop?
Wideo: Lecture - 14 - Hadoop - How to transfer file in HDFS 2024, Listopad
Anonim

Lokalizacja danych w Hadoop . Weź przykładowy przykład Wordcount, w którym większość słów została powtórzona 5 Lacs lub więcej razy. W takim przypadku po fazie mapowania każde wyjście mapowania będzie zawierało słowa w zakresie 5 Lacs. Ten kompletny proces przechowywania danych wyjściowych Mappera w LFS nazywa się Lokalizacja danych.

Mając to na uwadze, czym jest lokalizacja danych w Hadoop?

Pojęcie Dane miejscowość w Dane Hadoop miejscowość w MapaReduce odnosi się do możliwości przeniesienia obliczeń blisko miejsca rzeczywistego dane znajduje się w węźle, zamiast poruszać się dużymi dane do obliczeń. Minimalizuje to przeciążenie sieci i zwiększa ogólną przepustowość systemu.

Jak przechowywane są duże zbiory danych? Większość ludzi automatycznie kojarzy HDFS (rozproszony system plików Hadoop) z Hadoop dane magazyny. HDFS przechowuje informacje w klastrach, które składają się z mniejszych bloków. Te bloki są przechowywane w miejscu fizycznym składowanie jednostki, takie jak wewnętrzne napędy dysków.

A zatem, jak dane są przechowywane w Hadoop?

Na Hadoop klaster, dane w ramach HDFS i systemu MapReduce znajdują się na każdej maszynie w klastrze. Dane jest przechowywane w dane bloki w DataNodes. HDFS replikuje te dane bloków, zwykle o rozmiarze 128 MB, i dystrybuuje je tak, aby były replikowane w wielu węzłach w klastrze.

Jak pliki są przechowywane w HDFS?

HDFS eksponuje plik systemowej przestrzeni nazw i pozwala na przechowywane w pliki . Wewnętrznie, a plik jest podzielony na jeden lub więcej bloków, a te bloki są przechowywane w zestawie DataNodes. NameNode wykonuje plik operacje w przestrzeni nazw systemu, takie jak otwieranie, zamykanie i zmiana nazwy pliki i katalogi.

Zalecana: