Hadoop: Speicherformat Apache Parquet wird Top-Level-Projekt

Das spaltenorientierte Speicherformat für das Hadoop-Ökosystem soll unabhängig von Programmiersprachen und Abfrage-Engines funktionieren. Zu seinen größten Nutzern zählen Twitter und Netflix.

Die Apache Software Foundation hat Parquet zu einem Top-Level-Projekt gemacht. Es handelt sich dabei um ein Speicherformat für Projekte aus dem Umfeld des Hadoop-Frameworks für verteilt arbeitende Software, das auch mit verschachtelten Daten umgehen kann. Durch seinen Einsatz soll sich unter anderem die Latenz beim Datenzugriff senken lassen. Zudem arbeitet das Format spaltenorientiert, wodurch es effiziente Kompressions- und Codierungsverfahren unterstützt, die beim Reduzieren des benötigten Speichers helfen und sich wohl auch spaltenweise festlegen lassen.

Parquet soll unabhängig von Programmiersprachen und Verarbeitungsframeworks wie MapReduce und Apache Spark funktionieren, weshalb es sich für viele unterschiedliche Projekte aus dem Hadoop-Ökosystem eignen soll. Zudem lässt es sich wohl mit unterschiedlichen Datenmodellen (z. B. Apache Avro, Apache Thrift und Protocol Buffer) und Anfrage-Engines (u. a. Apache Hive, Drift, Tajo, Pig oder Facebooks Presto) nutzen.

Details zu dem in Parquet verwendeten Algorithmus sind im GitHub-Repository des Projekts zu finden. Zum Codieren der Parquet-Metadaten kommt Apache Thrift zum Einsatz. Bisher findet das Format unter anderem bei Cloudera, Twitter und Netflix Verwendung. (jul)

diesen Link Ã¼ber

passend zum Thema

Twitter veröffentlicht Hybrid aus Hadoop und Storm Twitter hat vorige Woche unter dem Namen Summingbird eine […]
HP steigt mit 50 Millionen US-Dollar bei Hortonworks ein Bei der strategischen Partnerschaft zwischen HP und dem […]
Hacker-Angriff vermutet: Apache Build-Server offline Momentan können die Projekte, welche die Build-Server der […]
Developer Snapshots: Programmierer-News in ein, zwei Sätzen heise Developer fasst für gewöhnlich einmal in der Woche […]
Intel steigt bei Cloudera ein ? und gibt eigene Hadoop-Distro auf Der Chip-Hersteller steigt nicht nur finanziell beim […]
Programmiersprache R: Microsoft stellt Analytics-Produkte auf R-Basis vor Ohne großes Tamtam hat Microsoft die […]

Hadoop: Speicherformat Apache Parquet wird Top-Level-Projekt

passend zum Thema

Allgemein

Neueste Beiträge

Archive