Twitter hat vorige Woche unter dem Namen Summingbird eine Open-Source-Bibliothek veröffentlicht, die die Batch- und Stream-Verarbeitung kombinieren soll. Der Software liegt das Big-Data-Framework Apache Hadoop und Twitters Echtzeit-Datenverarbeitungssystem Storm zugrunde. Sie ist vor dem Hintergrund entstanden, dass die Echtzeitverarbeitung von Daten eines Twitter-Services wie Trending Topics oder Suchmechanismen über eine Technik wie Storm geschieht, aber zur gründlicheren Analyse der Daten ein Framework à la Hadoop benötigt wird.
Twitter bezeichnet das Hybridsystem als eine Art „streaming MapReduce“. MapReduce ist ein von Google erarbeitetes Konzept für nebenläufige Berechnungen über große Datenmengen auf Rechnerclustern, das Hadoop implementiert hat. Bei Summingbird soll Storm nur die Daten ausführen, die Hadoop noch nicht verarbeiten konnte oder außerhalb der Latenzzeit sind.
In der Ankündigung gehen die Entwickler detaillierter auf die technische Umsetzung ein. Die Bibliothek selbst steht unter der Apache Software Licence auf GitHub zur Verfügung. (ane)