Spisu treści:

Czy mogę uruchomić Pythona na Hadoop?
Czy mogę uruchomić Pythona na Hadoop?

Wideo: Czy mogę uruchomić Pythona na Hadoop?

Wideo: Czy mogę uruchomić Pythona na Hadoop?
Wideo: Hadoop with Python I Python Hadoop Tutorial 2024, Listopad
Anonim

Z możliwością wyboru między językami programowania, takimi jak Java, Scala i Pyton dla Hadoop ekosystem, z którego korzysta większość programistów Pyton ze względu na biblioteki pomocnicze do zadań związanych z analizą danych. Hadoop streaming pozwala użytkownikowi na tworzenie i wykonać Mapuj/redukuj zadania za pomocą dowolnego skryptu lub pliku wykonywalnego jako mapper lub/i reduktor.

Podobnie, pojawia się pytanie, w jaki sposób Python łączy się z Hadoop?

Łączenie Hadoop HDFS z Pythonem

  1. Krok 1: Upewnij się, że Hadoop HDFS działa poprawnie. Otwórz terminal/wiersz poleceń, sprawdź, czy HDFS działa, używając następujących poleceń: start-dfs.sh.
  2. Krok 2: Zainstaluj bibliotekę libhdfs3.
  3. Krok 3: Zainstaluj bibliotekę hdfs3.
  4. Krok 4: Sprawdź, czy połączenie z HDFS powiodło się.

Podobnie, czym jest Hadoop w Pythonie? Pyton jest uniwersalnym językiem programowania Turing, który może być używany do prawie wszystkiego w świecie programowania. Hadoop to framework big data napisany w Javie do obsługi ogromnych ilości danych. Istnieje wiele instytutów internetowych, które Hadoop z Pyton kursy takie jak: Analytixlabs. Edureka.

Następnie pojawia się pytanie, jak uruchomić program MapReduce w Pythonie w Hadoop?

Pisanie programu Hadoop MapReduce w Pythonie

  1. Motywacja.
  2. Co chcemy zrobić.
  3. Warunki wstępne.
  4. Kod MapReduce w Pythonie. Krok mapy: mapper.py. Zmniejsz krok: Reducer.py.
  5. Uruchamianie kodu Pythona na Hadoop. Pobierz przykładowe dane wejściowe. Skopiuj lokalne przykładowe dane do HDFS.
  6. Ulepszony kod Mapper i Reducer: za pomocą iteratorów i generatorów Pythona. mapper.py. reduktor.py.

Co to jest słoik Hadoop Streaming?

Hadoop dystrybucja udostępnia narzędzie Java o nazwie Przesyłanie strumieniowe Hadoop . Jest pakowany w słoik plik. Z Przesyłanie strumieniowe Hadoop , możemy tworzyć i uruchamiać zadania Map Reduce za pomocą wykonywalnego skryptu. Przesyłanie strumieniowe Hadoop to narzędzie dostarczane z Hadoop dystrybucja. Może być używany do wykonywania programów do analizy dużych zbiorów danych.

Zalecana: