Frage Was ist Hadoop und wofür wird es verwendet? [geschlossen]


Ich habe es genossen eine Weile ServerFault zu lesen und ich habe schon einige Themen auf Hadoop gesehen. Ich habe ein wenig Mühe gehabt, herauszufinden, was es von einem globalen Standpunkt aus tut.

Meine Frage ist also ganz einfach: Was ist Hadoop? Was tut es ? Was wird es verwendet ? Warum tritt es Arsch?

Bearbeiten: Wenn jemand Demonstrationen / Erklärungen von Anwendungsfällen hat, in denen Hadoop verwendet wurde, wäre das fantastisch.


27
2018-06-18 06:34


Ursprung


Facebook nutzt Hadoop (also wirklich Hive, eine Schicht auf Hadoop). Es gibt eine gute Beschreibung auf der Facebook Engineering Seite. facebook.com/note.php?note_id=89508453919 - John Meagher
Hadoop ist ein Framework, das die Verarbeitung großer Datenmengen (Große Daten) Einfach, indem Sie die Datencluster auf die Knoten / Server verteilen und den Prozess parallel ablaufen lassen. Dieser Prozess / Algorithmus ist als MapReduce bekannt. - Mr_Green


Antworten:


Gerade von der Pferdemaul:

Hadoop ist ein Framework zum Ausführen   Anwendungen auf großen Clustern gebaut   von Standardhardware. Der Hadoop   Rahmen transparent zur Verfügung stellt   Anwendungen sowohl Zuverlässigkeit und Daten   Bewegung. Hadoop implementiert a   Computerparadigma genannt   Map / Reduce, wo sich die Anwendung befindet   unterteilt in viele kleine Fragmente von   Arbeit, von denen jede ausgeführt werden kann oder   auf jedem Knoten im Cluster erneut ausgeführt.   Darüber hinaus bietet es eine verteilte   Dateisystem (HDFS), auf dem Daten gespeichert werden   die Rechenknoten, sehr hoch   aggregierte Bandbreite über die   Cluster. Sowohl Map / Reduce als auch die   verteilte Dateisystem sind konzipiert   so dass Knotenausfälle sind   automatisch behandelt von der   Rahmen.

Map / Reduce ist ein Programmierparadigma, das von Google wo in einer Aufgabe in kleine Teile aufgeteilt und auf eine große Anzahl von Knoten zur Verarbeitung verteilt (Karte), und die Ergebnisse werden dann in der endgültigen Antwort zusammengefasst (reduzieren). Google und Yahoo nutzen dies unter anderem für ihre Suchmaschinen-Technologie.

Hadoop ist ein generisches Framework zur Implementierung dieser Art von Verarbeitungsschema. Wie für, warum es Arsch tritt, vor allem, weil es bietet nette Funktionen wie Fehlertoleranz und können Sie so ziemlich jede Art von Hardware zusammenbringen, um die Verarbeitung zu tun. Es skaliert auch sehr gut, vorausgesetzt, Ihr Problem entspricht dem Paradigma.

Sie können alles darüber auf der Webseite.

Wie für einige Beispiele, Paul gab ein paar, aber hier sind ein paar mehr, die Sie tun können, die nicht so webzentriert sind:

  • Rendern eines 3D-Films. Der Schritt "Karte" verteilt die Geometrie für jeden Rahmen an einen anderen Knoten, die Knoten rendern ihn und die gerenderten Rahmen werden im Schritt "Reduzieren" neu kombiniert.
  • Berechnen der Energie in einem System in einem molekularen Modell. Jeder Rahmen einer Systemtrajektorie wird auf einen Knoten in dem "Karten" -Schritt verteilt. Die Knoten berechnen die Energie für jeden Frame,
    und dann werden die Ergebnisse in dem Schritt "Reduzieren" zusammengefasst.

Im Wesentlichen funktioniert das Modell sehr gut für ein Problem, das in ähnliche diskrete Berechnungen zerlegt werden kann, die völlig unabhängig sind, und die zu einem Endergebnis rekombiniert werden können.


26
2018-06-18 06:43



Vielen Dank für Ihre Antwort. Also im Grunde nimmt es Apps (PHP? Java?) Und es bricht sie auf und verteilt die Arbeit zwischen einer Reihe von Knoten? Wie bei HDFS ist es wie bei OCFS, abgesehen von einer Reihe von Knoten? - Antoine Benkemoun
Interessiert auch daran. Ich würde gerne einige spezifischere, echte Wortbeispiele sehen. - Karolis T.
Das habe ich auch gesucht :-) - Antoine Benkemoun


Cloudera hat einige großartige Videos, die die Prinzipien von Map Reduce und Hadoop erklären.

http://www.cloudera.com/hadoop-training-basic

Eine der wichtigsten Ideen hinter MapReduce ist, dass Sie große Datenmengen auf Ihren Festplatten speichern müssen. In Hadoop können Sie mit HDFS so viele Objekte aufteilen, dass eine parallele Verarbeitung möglich ist.

Einige Anwendungen von Hadoop, die für Systemadministratoren von Interesse sind, sind oft in der Verarbeitung großer Protokolldateisätze enthalten. Ich kann nur einen Link veröffentlichen, aber diese enthalten: google sollte diese finden:

  1. Rackspace-E-Mail-Protokollabfrage
  2. Apache Log Analyse mit Schwein - siehe Cloudera Blog
  3. Yahoo! Spam bekämpfen

9
2018-06-18 07:23



Sieht gut aus, ich schaue mal nach :-) - Antoine Benkemoun


Anfänglich wurde hadoop für große Datenmengen in OLAP-Umgebungen entwickelt.

Mit der Einführung von Hbase oben auf Hadoop, kann Zuckerrohr auch für die OLAP-Verarbeitung verwendet werden. Hadoop ist ein Framework mit allen Unterkomponenten wie map reduce, hdfs, hbase, pig.

Ifound einer der Artikel mit Basis von Hadoop in  Warum Hadoop eingeführt wird.

In Hadoop, Datenspeicher in Form von Dateien, nicht in den Tabellen, Spalten.


1
2018-01-19 02:53