Splice Machine 2.0 kombiniert HBase, Spark, NoSQL, relationale … und Open Source

In den Welten von Big Data, NoSQL und relationalen Datenbanken kommt der Name von Splice Machine nicht oft vor. Aber einen genaueren Blick auf das Produkt des Unternehmens, architektonischen Ansatz und CEO legte sie auf meinem Radar eine Weile zurück. Und Version 2 des Produktes, die heute angekündigt wird, hat diesen Radarpunkt viel heller gemacht.

Lesen Sie auch: Die NoSQL-Community warf das Baby mit dem Badewasser aus

Lesen Sie auch: Full SQL auf Hadoop? Splice Machine öffnet seine Datenbank für Versuche

Haben Sie RDBMS Kuchen, essen Sie NoSQL Skalierung, auch, bevor wir auf Version 2 schauen, lassen Sie uns die Motivation hinter v1. Insbesondere sah Splice Machine lange und hart an einigen drängenden Datenbank-conundrums

Die Lösung: Erstellen einer ACID-kompatiblen SQL relationalen Datenbank auf Apache HBase – einer NoSQL-Datenbank, die HDFS als Speicherebene nutzt. Jetzt haben Sie SQL, das relationale Modell, ACID / transaktionale Konsistenz, horizontale Skalierung und HDFS, alles in einem Produkt.

Lesen Sie auch: Splice Machine SQL auf Hadoop-Datenbank geht auf allgemeine Freisetzung

Sparking v2, so Version 1 ist ziemlich cool, aber Version 2 des Produkts ups die ante beträchtlich: es On-Boards eine weitere wichtige Daten-Technologie – Apache Spark – als zusätzliche Ausführungs-Engine.

Splice Machine CEO, Monte Zweben, gab mir die lowdown auf v2. Zweben ist ein Alumnus der Stuyvesant High School, Carnegie Mellon, Stanford und der AI Niederlassung der NASA Ames Research Center, er ist auch Rocket Fuel ‘s Chairman of the Board.

Eindeutig kein Dummy, erklärte Zweben, dass das Produkt einen kostenbasierten Optimierer einsetzt, um die Dienste von Spark für langwierige Abfragen zu nutzen, viele Scans und / oder mehrere Ausführungsphasen zu haben. Analytische Abfragen passen oft zu diesem Profil und werden von Spark gut behandelt. Einfachere, operative Abfragen werden weiterhin über HBase ausgeführt.

Gentlemen, Sie müssen nicht wählen Sie Ihre Motoren, Splice Machine Benutzer brauchen sich nicht mit diesen Implementierung Details, sie nur Abfrage der Datenbank in SQL und Splice Machine behandelt den Rest. Und übrigens, Splice Machine wird die Kern-Spark-Engine verwenden, anstatt durch Spark SQL, die nur eine unnötige Schicht hinzufügen würde.

Open Source = Open Sesame ?, Splice Machine ist ein gehütetes Geheimnis aber Zweben sagte mir, das Unternehmen hat etwa 10 Kunden. Obwohl er aus der Welt der kommerziellen Software stammt, glaubt Zweben, dass Open Sourcing der Spleißmaschine Produkt helfen, das Wort breiter zu verbreiten. So Version 2 des Produkts wird in einer freien und Open Source Community Edition mit der vollständigen Datenbank-Engine zur Verfügung stehen. Eine kostenpflichtige Enterprise Edition, die professionelle Unterstützung und DevOps-Features wie die Integration mit LDAP und Kerberos sowie Backup und Restore beinhaltet, wird das Monetarisierungsmodell für das Unternehmen bieten.

Zweben glaubt, dass Open-Sourcing das Produkt wird dazu beitragen, eine Gemeinde und ein Ökosystem um sie herum, die eindeutig erforderlich ist. Nichtsdestoweniger sieht Spleißmaschine nicht das offene Sourcing des Produktes als der einzige notwendige Schritt dort. Dementsprechend wird das Unternehmen große Investitionen in die Infrastruktur des Ökosystems, einschließlich einer Community-Website mit Tutorials und Code, und eine Amazon Web Services-basierte “Sandbox” -Umgebung, die für eine reibungsarme Einrichtung des Produkts in der Cloud, für ermöglicht Evaluation, Ausbildung und vielleicht einige Entwicklungszwecke.

Die Verwendung von Open Source als Vehikel für Produkt-Evangelisation ist sinnvoll. Open-Source-Community-Editionen sind in vielerlei Hinsicht analog zu kostenlosen Evaluierungs- und Entwickler-Editionen für Open Source-Softwareprodukte.

Lesen Sie auch: Hadoop-Anbieter hören: Hortonworks wird pragmatisch

Unbeabsichtigte Konsequenzen: Die Splice Machine Community Edition wird auf GitHub unter einer Apache Open Source Lizenz verfügbar sein, wird aber nicht ein Apache Software Foundation Projekt sein, zumindest nicht am Anfang. Unterdessen ist Apache Phoenix, das auch eine SQL relational-on-HBase-Datenbank anbietet, ein ASF-Projekt. Will öffnen Sourcing Splice Machine aussetzen sie auf den Wettbewerb kann es nicht direkt vor?

Die Realität ist, dass ACID-Transaktionen in Phoenix nur eine Beta-Funktion und Tabelle JOINs in Phoenix sind begrenzt. Dies macht Phoenix eher zu einer SQL-on-HBase-Komponente und weniger zu einer echten relationalen Datenbank, die für eine eigenständige Verwendung gedacht ist. Aber Phoenix ist klar, um diese Lücken zu überbrücken, so dass eine Konkurrenz unvermeidlich ist.

Das relationale Datenbankmodell (zusammen mit SQL) funktioniert gut – in der Tat – unter vielen Umständen, aber die Skalierung ist schon immer hart: NoSQL-Datenbanken sind viel einfacher zu skalieren, aber das Schema-weniger Modell und der Mangel an “ACID “Hadoop ist auch gut skalierbar, und sein HDFS-Dateisystem ist zu einem wichtigen Speicher-Standard geworden, aber das Batch-Modell von Hadoop kann auch Dissonanzen für relationale Datenbankprofis verursachen

Gummi, treffen Straße, Splice-Maschine sicherlich eine anstrengende Schlacht voraus, um zu konkurrieren, eine Gemeinde zu bauen und Kunden hinzuzufügen. Aber mit einer Gesamtmenge von $ 31M in der Finanzierung und ein sehr erfahrener und kenntnisreicher CEO, hat das Unternehmen erhebliche Tapferkeit. Going Open Source und das Hinzufügen von Unterstützung für Spark (die Benutzer nutzen können, ohne jede besondere Anstrengung) macht eine gute Sache besser. Jetzt kommt es auf Sand.

LinkedIn stellt seine neue Blogging-Plattform vor

Ist dies das Alter von Big OLAP?

DataRobot zielt auf die Automatisierung von tiefgreifenden Datenwissenschaften ab

Social Data LinkedIn stellt seine neue Blogging-Plattform, Big Data Analytics, ist das Alter von Big OLAP, Big Data Analytics, DataRobot zielt auf die Automatisierung von Low-hanging Obst der Datenwissenschaft, Big Data Analytics, MapR Gründer John Schroeder Schritte, COO zu ersetzen

MapR-Gründer John Schroeder geht nach unten, COO zu ersetzen