Twitter veröffentlicht Hybrid aus Hadoop und Storm

Twitter hat vorige Woche unter dem Namen Summingbird eine Open-Source-Bibliothek veröffentlicht, die die Batch- und Stream-Verarbeitung kombinieren soll. Der Software liegt das Big-Data-Framework Apache Hadoop und Twitters Echtzeit-Datenverarbeitungssystem Storm zugrunde. Sie ist vor dem Hintergrund entstanden, dass die Echtzeitverarbeitung von Daten eines Twitter-Services wie Trending Topics oder Suchmechanismen über eine Technik wie Storm geschieht, aber zur gründlicheren Analyse der Daten ein Framework à la Hadoop benötigt wird.

Twitter bezeichnet das Hybridsystem als eine Art „streaming MapReduce“. MapReduce ist ein von Google erarbeitetes Konzept für nebenläufige Berechnungen über große Datenmengen auf Rechnerclustern, das Hadoop implementiert hat. Bei Summingbird soll Storm nur die Daten ausführen, die Hadoop noch nicht verarbeiten konnte oder außerhalb der Latenzzeit sind.

In der Ankündigung gehen die Entwickler detaillierter auf die technische Umsetzung ein. Die Bibliothek selbst steht unter der Apache Software Licence auf GitHub zur Verfügung. (ane)

umgeleitet

passend zum Thema

Hadoop: Speicherformat Apache Parquet wird Top-Level-Projekt Das spaltenorientierte Speicherformat für das […]
HP steigt mit 50 Millionen US-Dollar bei Hortonworks ein Bei der strategischen Partnerschaft zwischen HP und dem […]
Intel steigt bei Cloudera ein ? und gibt eigene Hadoop-Distro auf Der Chip-Hersteller steigt nicht nur finanziell beim […]
Auch Microsoft warnt vor staatlichen Angriffen auf seine Nutzer (Bild: Microsoft) Wenn Microsoft Angriffe staatlicher […]
Developer Snapshots: Programmierer-News in ein, zwei Sätzen heise Developer fasst für gewöhnlich einmal in der Woche […]
Hacker-Angriff vermutet: Apache Build-Server offline Momentan können die Projekte, welche die Build-Server der […]

Twitter veröffentlicht Hybrid aus Hadoop und Storm

passend zum Thema

Allgemein

Neueste Beiträge

Archive