Zuhause Hardware Big Iron, treffen Sie Big Data: Befreien Sie Mainframe-Daten mit Hadoop und Spark

Big Iron, treffen Sie Big Data: Befreien Sie Mainframe-Daten mit Hadoop und Spark

Anonim

Von Techopedia Staff, 2. Juni 2016

Zum Mitnehmen: Das Hadoop-Ökosystem wird auf Großrechnern verwendet, um Big Data schnell und effizient zu verarbeiten.

Du bist derzeit nicht angemeldet. Bitte melde dich an oder registriere dich, um das Video zu sehen.

Eric Kavanagh: Okay, meine Damen und Herren, es ist vier Uhr Ost an einem Donnerstag, und heutzutage ist es natürlich Zeit für Hot Technologies. Ja, mein Name ist Eric Kavanagh. Ich werde Ihr Moderator für das heutige Web-Seminar sein. Es ist gutes Zeug, Leute, "Big Iron, Meet Big Data" - ich liebe diese Überschrift - "Befreien von Mainframe-Daten mit Hadoop und Spark". Wir werden über alt und neu sprechen. Beeindruckend! Wir decken das gesamte Spektrum ab, über das wir in den letzten 50 Jahren der Unternehmens-IT gesprochen haben. Spark meets Mainframe, ich liebe es.

Es gibt einen Punkt über dich und genug über mich. Das Jahr ist heiß. Wir sprechen über heiße Themen in dieser Reihe, weil wir wirklich versuchen, den Leuten zu helfen, bestimmte Disziplinen, bestimmte Räume zu verstehen. Was bedeutet es beispielsweise, eine Analyseplattform zu haben? Was bedeutet es, Big Data von Mainframes zu befreien? Was bedeutet das alles? Wir möchten Ihnen helfen, bestimmte Arten von Technologien zu verstehen, wo sie in den Mix passen und wie Sie sie nutzen können.

Wir haben heute zwei Analysten und dann natürlich Tendü Yogurtçu von Syncsort. Sie ist eine Visionärin in unserer Branche und sehr erfreut, sie heute mit unserem eigenen Dez Blanchfield und Dr. Robin Bloor online zu haben. Ich sage nur ein paar kurze Worte. Zum einen, Leute, spielt ihr eine große Rolle in diesem Prozess, also seid bitte nicht schüchtern und stellt ein paar gute Fragen. Wir möchten sie während der Q & A-Komponente des Webcasts, die normalerweise am Ende der Show stattfindet, kennenlernen. Und alles, was ich zu sagen habe, ist, dass wir viele gute Inhalte haben. Ich bin gespannt, was diese Jungs zu sagen haben. Und damit übergebe ich es Dez Blanchfield. Dez, der Boden gehört dir, nimm ihn weg.

Dez Blanchfield: Danke, Eric, und danke allen, die heute anwesend sind. Daher bin ich ziemlich aufgeregt, wenn ich die Gelegenheit bekomme, über eines meiner Lieblingsdinge auf der Welt, Mainframes, zu sprechen. Sie bekommen heutzutage nicht viel Liebe. Meiner Ansicht nach war der Mainframe die ursprüngliche Big-Data-Plattform. Einige würden argumentieren, dass sie zu der Zeit der einzige Computer waren, und das ist ein fairer Punkt, aber seit über 60 Jahren sind sie tatsächlich der Maschinenraum dessen, was Big Data in letzter Zeit so beliebt war. Und ich werde Sie auf eine kleine Reise mitnehmen, warum ich glaube, dass dies der Fall ist.

Wir haben gesehen, wie sich die Technologie-Hardware-Stapel im Kontext von Großrechnern von dem Bild, das Sie jetzt auf dem Bildschirm sehen, verschoben haben. Dies ist ein alter FACOM-Mainframe, einer meiner Favoriten. Wir sind durch die große Eisenphase, die späten neunziger Jahre und den Dotcom-Boom gegangen. Dies ist das Sun Microsystems E10000. Dieses Ding war bei 96 CPUs ein absolutes Monster. Ursprünglich 64, könnte aber auf 96 CPUs aufgerüstet werden. Jede CPU könnte 1.024 Threads ausführen. Jeder Thread kann gleichzeitig eine Anwendungsrate aufweisen. Es war einfach nur ungeheuerlich und hat den Dotcom-Boom angetrieben. Das sind alle großen Einhörner, wie wir sie nennen, jetzt laufen wir und nicht nur die großen Unternehmen, sondern auch einige der großen Websites.

Und dann kamen wir zu diesem gängigen Standard-PC-Modell. Wir haben einfach viele billige Maschinen zusammengeschnallt und einen Cluster geschaffen und sind der großen Eisenherausforderung und dem, was zu Big Data wurde, näher gekommen, insbesondere in Form des Hadoop-Projekts, das die Open-Source-Suchmaschine Nutch hervorgebracht hat. Und wir haben im Wesentlichen den Mainframe und viele kleine CPUs neu erstellt, die zusammengeklebt wurden und in der Lage sind, sich wie L-Pfade und in Form von separaten Jobs oder Teilen von Jobs zu verhalten. Diese waren in vielerlei Hinsicht sehr effektiv. Billiger, wenn Sie kleiner angefangen haben, aber ausnahmslos viele dieser großen Cluster sind teurer als ein Großrechner.

Ich bin der Ansicht, dass wir in der Eile vom Dotcom-Boom bis zum Web 2.0 und der Jagd nach Einhörnern vergessen haben, dass es diese Plattform gibt, auf der immer noch viele unserer größten unternehmenskritischen Systeme betrieben werden. Wenn wir darüber nachdenken, was auf den Mainframe-Plattformen draußen läuft. Es sind sehr viel Big Data, insbesondere das Daten-Arbeitspferd, aber sicherlich auch Big Data. Traditionelle Unternehmens- und Regierungssysteme, wie insbesondere Bank- und Vermögensverwaltung und Versicherungen, nutzen wir alle täglich.

Flugbuchungs- und Flugmanagementsysteme, insbesondere Flugmanagementsysteme, bei denen Echtzeit von entscheidender Bedeutung ist. Fast jeder Staat und jede Bundesregierung hatte zu irgendeinem Zeitpunkt einen Großrechner, und immer noch haben viele einen. Einzelhandel und Fertigung. Einige der alten Software, die es gerade gab und die nie weg war. Macht einfach weiter Produktionsumgebungen und sicherlich Einzelhandel in großem Maßstab. Medizinische Systeme. Verteidigungssysteme, sicherlich Verteidigungssysteme.

In den letzten Wochen habe ich viele Artikel darüber gelesen, dass einige der Raketensteuerungssysteme immer noch auf alten Großrechnern laufen, für die sie Probleme haben, Teile zu finden. Sie überlegen, wie sie ein Upgrade auf neue Mainframes durchführen können. Transport- und Logistiksysteme. Dies mag nicht nach sexy Themen klingen, aber diese Themen werden täglich über die Zeilen hinweg behandelt. Einige sehr große Telekommunikationsumgebungen werden immer noch auf Mainframe-Plattformen ausgeführt.

Wenn Sie über die Datentypen nachdenken, die sich darin befinden, sind sie alle geschäftskritisch. Sie sind wirklich wichtige Plattformen und Plattformen, die wir jeden Tag für selbstverständlich halten und in vielerlei Hinsicht das Leben ermöglichen. Also, wer benutzt noch einen Mainframe und wer sind all diese Leute, die an diesen großen Plattformen festhalten und all diese Daten haben? Nun, wie ich hier sagte, glaube ich, dass es leicht ist, sich von der Verlagerung der Medien von großen Eisen- zu Racks von handelsüblichen Clustern oder billigen PCs oder x86-Maschinen täuschen zu lassen und zu glauben, dass der Mainframe gestorben und verschwunden ist. Aber die Daten besagen, dass der Mainframe nie verschwunden ist und tatsächlich hier bleibt.

Die Untersuchungen, die ich hier in den letzten Wochen zusammengestellt habe, haben gezeigt, dass 70 Prozent der Daten von Unternehmen, insbesondere von großen Unternehmen, tatsächlich noch auf einem Großrechner gespeichert sind. Einundsiebzig Prozent der Fortune-500-Unternehmen betreiben immer noch Kerngeschäftssysteme auf Großrechnern. Tatsächlich haben wir hier in Australien eine Reihe von Organisationen, die ein Rechenzentrum mitten in einer Stadt haben. Tatsächlich ist es ein unterirdischer Computer, und die Anzahl der Mainframes, die gerade dort laufen, ticken und glücklich ihren Job machen. Und nur sehr wenige Menschen wissen, dass es in einem bestimmten Teil der Stadt ein riesiges Rechenzentrum gibt, das mit Mainframes gefüllt ist, wenn sie durch die Straßen laufen. Zweiundneunzig von 100 Banken auf der ganzen Welt, die Top-100-Banken, betreiben immer noch Bankensysteme auf Großrechnern. 23 der 25 weltweit führenden Einzelhandelsketten verwenden Mainframes, um ihre Einzelhandelsmanagementsysteme weiterhin auf EIP- und BI-Plattformen auszuführen.

Interessanterweise betreiben 10 der Top-10-Versicherer ihre Plattformen immer noch auf Mainframe und betreiben ihre Cloud-Dienste tatsächlich auf Mainframe. Wenn Sie ein Webinterface oder eine mobile App an einem Ort verwenden, an dem es eine Middleware gibt, die ein Interface ist, können Sie mit etwas wirklich Schwerem und Großem am Backend sprechen.

Ich habe weltweit über 225 staatliche und lokale Regierungsbehörden gefunden, die immer noch auf Mainframe-Plattformen laufen. Ich bin sicher, es gibt viele Gründe dafür. Vielleicht haben sie nicht das Budget, um über neues Eisen nachzudenken, aber das ist ein riesiger Fußabdruck von sehr großen Umgebungen, die auf einem Mainframe mit einigen sehr kritischen Daten ausgeführt werden. Und wie ich bereits erwähnte, betreiben die meisten Nationen ihre wichtigsten Verteidigungssysteme immer noch auf dem Mainframe. Ich bin mir in vielerlei Hinsicht sicher, dass sie versuchen, dorthin zu gelangen, aber los geht's.

Im Jahr 2015 führte IDC eine Umfrage durch und 350 der befragten CIOs gaben an, dass sie immer noch großes Eisen in Form von Großrechnern besaßen und handhabten. Und es ist mir aufgefallen, dass es wahrscheinlich mehr als die Anzahl der großen Hadoop-Cluster ist, die derzeit weltweit in Produktion sind - eine interessante kleine Statistik. Ich werde weitermachen und das bestätigen, aber es war eine große Zahl. Dreihundertfünfzig CIOs gaben an, einen oder mehrere Mainframes noch in Produktion zu haben.

Im vergangenen Jahr, 2015, hat IBM uns den mächtigen Z13, die 13. Iteration ihrer Mainframe-Plattform, zur Verfügung gestellt. Die Medien waren verrückt nach dieser Sache, weil sie erstaunt waren, dass IBM immer noch Mainframes herstellte. Als sie die Motorhaube öffneten und sich anschauten, was sich unter dem Ding befand, stellten sie fest, dass es tatsächlich mit fast jeder modernen Plattform vergleichbar war, auf die wir uns in Form von Big Data, Hadoop und sicherlich den Clustern gefreut hatten. Dieses Ding lief Spark und jetzt Hadoop nativ. Sie könnten Tausende und Abertausende von Linux-Computern darauf ausführen, und es sah aus und fühlte sich an wie jeder andere Cluster. Es war eine erstaunliche Maschine.

Eine Reihe von Organisationen hat sich mit diesen Dingen befasst, und tatsächlich habe ich einige Daten darüber erstellt, wie viele dieser Maschinen belegt sind. Jetzt hatte ich die Ansicht, dass das 3270-Textterminal seit einiger Zeit von Webbrowsern und mobilen Apps abgelöst wurde, und es gibt viele Daten, die dies unterstützen. Ich denke, jetzt beginnt eine Ära, in der wir festgestellt haben, dass diese Mainframes nicht verschwinden und eine beträchtliche Datenmenge darauf gespeichert ist. Und jetzt fügen wir einfach das hinzu, was ich als Standard-Analysetools bezeichne. Dies sind keine maßgeschneiderten Apps. Dies sind Dinge, die maßgeschneiderte Unikate sind. Dies sind Dinge, die Sie buchstäblich nur in einer verpackten Box per se kaufen und an Ihren Mainframe anschließen und einige Analysen durchführen können.

Wie ich bereits sagte, gibt es den Mainframe seit über 60 Jahren. Wenn wir darüber nachdenken, wie lange das dauert, ist das länger als die Karriere der meisten lebenden IT-Profis. Und wahrscheinlich sogar einen Teil ihres Lebens. Im Jahr 2002 verkaufte IBM 2.300 Mainframes. Im Jahr 2013 wuchs das auf 2.700 Großrechner. Das sind 2.700 Verkäufe von Mainframes in einem Jahr im Jahr 2013. Ich konnte keine genauen Daten für 2015 erhalten, aber ich stelle mir vor, dass es den 3.000 verkauften Einheiten pro Jahr im Jahr 2015, 2013, schnell näher kommt. Und ich freue mich darauf, dies bestätigen zu können.

Mit der Veröffentlichung des Z13, der 13. Iteration einer Mainframe-Plattform, deren Entwicklung meiner Meinung nach etwa 1, 2 oder 1, 3 Milliarden US-Dollar gekostet hat, ist IBM eine Maschine, die wie jeder andere Cluster aussieht und sich anfühlt Wir haben heute und laufen nativ Hadoop und Spark. Und kann mit Sicherheit mit anderen Analyse- und Big-Data-Tools verbunden werden oder ausnahmslos mit einem Ihrer vorhandenen oder neuen Hadoop-Cluster verbunden werden. Ich bin der Ansicht, dass die Einbindung der Mainframe-Plattform in Ihre Big-Data-Strategie ein Muss ist. Wenn Sie eine haben, haben Sie natürlich eine Menge Daten und möchten herausfinden, wie Sie sie dort abrufen können. Und sie müssen in vielerlei Hinsicht Staub sammeln, mental und emotional, was die Geschäftswelt betrifft, aber sie sind hier, um zu bleiben.

Konnektivität und Schnittstellen für alle Ihre Analysetools zu Daten, die von Mainframes gehostet werden, sollten ein wesentlicher Bestandteil Ihres Unternehmens und insbesondere der Big-Data-Pläne der Regierung sein. Und ausnahmslos jetzt bemerkt die Software sie, nimmt sie genau unter die Lupe und erkennt, was in diesen Dingen steckt, und verbindet die Köpfe, die anfangen, ein bisschen Einsicht und ein bisschen Gefühl dafür zu bekommen, was sich tatsächlich unter der Haube befindet. Und damit übergebe ich meinem lieben Kollegen, Dr. Robin Bloor, und er wird diese kleine Reise ergänzen. Robin, nimm es weg.

Robin Bloor: Danke schön. Okay, nun, da Dez das Lied des Mainframes gesungen hat, gehe ich auf das ein, was meiner Meinung nach in Bezug auf die alte Mainframe-Welt und die neue Hadoop-Welt geschieht. Ich denke, die große Frage hier ist, wie managen Sie all diese Daten? Ich bin nicht der Meinung, dass der Mainframe in Bezug auf seine Big-Data-Fähigkeit in Frage gestellt wird - seine Big-Data-Fähigkeit ist, wie Dez betont hat, äußerst leistungsfähig. Tatsächlich können Sie Hadoop-Cluster darauf platzieren. Wo es herausgefordert wird, hängt von seinem Ökosystem ab, und darauf werde ich näher eingehen.

Hier ist einige Mainframe-Positionierung. Es hat hohe Einstiegskosten und was tatsächlich in der Vergangenheit passiert ist, seit Mitte der 90er Jahre, als die Popularität der Mainframes zu sinken begann, hat es tendenziell sein niedriges Ende verloren, jene Leute, die billige Mainframes gekauft hatten und es war nicht Das ist für diese Leute nicht besonders wirtschaftlich. Im mittleren und oberen Bereich des Mainframes war und ist es jedoch nachweislich unglaublich kostengünstig.

Es wurde, wie gesagt, von Linux gerettet, weil Linux, das auf einem Mainframe implementiert wurde, es natürlich ermöglichte, alle Linux-Anwendungen auszuführen. Viele Linux-Anwendungen gingen dorthin, bevor Big Data auch nur ein Wort oder zwei Wörter waren, nehme ich an. Tatsächlich ist es eine ziemlich hervorragende Plattform für Private Clouds. Aus diesem Grund kann es an hybriden Cloud-Bereitstellungen teilnehmen. Eines der Probleme ist, dass Mainframe-Kenntnisse knapp sind. Die vorhandenen Mainframe-Fähigkeiten altern tatsächlich in dem Sinne, dass die Mitarbeiter Jahr für Jahr aus der Branche ausscheiden und nur in Bezug auf die Anzahl der Mitarbeiter ersetzt werden. Das ist also ein Problem. Aber es ist immer noch günstig zu rechnen.

Der Bereich, in dem es natürlich herausgefordert wurde, ist diese ganze Hadoop-Sache. Das ist ein Bild von Doug Cutting mit dem originalen Hadoop-Elefanten. Das Hadoop-Ökosystem ist und bleibt das dominierende Big-Data-Ökosystem. Es bietet eine bessere Skalierung, als der Mainframe tatsächlich erreichen kann, und es ist weitaus kostengünstiger als ein Datenspeicher. Das Hadoop-Ökosystem entwickelt sich weiter. Die beste Art, darüber nachzudenken, ist, wenn eine bestimmte Hardwareplattform und das damit verbundene Betriebsumfeld vorherrschend sind, dann wird das Ökosystem einfach lebendig. Und das geschah mit dem IBM-Mainframe. Nun, später geschah es mit der Digital VAX, passierte mit Suns Servern, passierte mit Windows, passierte mit Linux.

Und was passiert ist, ist, dass Hadoop, das ich immer als eine Art verteilte Umgebung für Daten betrachte oder gerne betrachte, sich mit einer unglaublichen Geschwindigkeit entwickelt. Ich meine, wenn Sie nur die verschiedenen eindrucksvollen Beiträge erwähnen, die Open Source, Spark, Flink, Kafka, Presto und dann einige der Datenbanken, die NoSQL- und SQL-Funktionen, die jetzt auf Hadoop verfügbar sind, hinzufügen. Hadoop ist das aktivste Ökosystem, das es überhaupt gibt, vor allem im Bereich Corporate Computing. Wenn Sie es jedoch als Datenbank behandeln möchten, ist es im Moment einfach nicht vergleichbar mit dem, was ich für echte Datenbanken halte, insbesondere im Data-Warehouse-Bereich. Und das erklärt bis zu einem gewissen Grad den Erfolg einiger der großen NoSQL-Datenbanken, die nicht auf Hadoop laufen, wie CouchDB und so weiter.

Als Datensee hat er ein weitaus umfangreicheres Ökosystem als jede andere Plattform und wird dadurch nicht verdrängt. Sein Ökosystem ist nicht nur das Open-Source-Ökosystem. Mittlerweile gibt es eine dramatische Anzahl von Softwaremitgliedern, deren Produkte grundsätzlich für Hadoop entwickelt oder in Hadoop importiert wurden. Und sie haben gerade ein Ökosystem geschaffen, das in seiner Breite mit nichts mithalten kann. Und das bedeutet wirklich, dass es zur Plattform für Big Data-Innovationen geworden ist. Aber meiner Meinung nach ist es noch unreif und wir könnten lange Diskussionen darüber führen, was mit Hadoop operativ ausgereift ist und was nicht, sagen wir, aber ich denke, die meisten Menschen, die sich mit diesem speziellen Bereich befassen, sind sich bewusst, dass Hadoop Jahrzehnte hinter dem Mainframe zurückliegt in Bezug auf die operative Leistungsfähigkeit.

Der sich entwickelnde Data Lake. Der Datensee ist per Definition eine Plattform, und wenn Sie glauben, dass es im Unternehmens-Computing eine Datenschicht gibt, können Sie sich dies sehr leicht anhand der festen Datenbanken und des Datensees vorstellen, der die Datenschicht bildet. Data Lake-Anwendungen sind vielfältig. Ich habe hier ein Diagramm, das nur die verschiedenen Datenverarbeitungsschritte durchläuft, die ausgeführt werden müssen, wenn Sie Hadoop als Staging-Bereich oder Hadoop und Spark als Staging-Bereich verwenden. Und Sie haben alles - Datenherkunft, Datenbereinigung, Metadatenverwaltung, Metadatenerkennung - es kann für ETL selbst verwendet werden, erfordert jedoch häufig, dass ETL die Daten einbringt. Stammdatenverwaltung, Geschäftsdefinitionen von Daten, Dienstverwaltung von Was passiert in Hadoop, Lebenszyklusverwaltung von Daten und ETL außerhalb von Hadoop? Außerdem verfügen Sie über direkte Analyseanwendungen, die Sie auf Hadoop ausführen können.

Aus diesem Grund ist es sehr leistungsfähig geworden und wurde erfolgreich implementiert. Normalerweise wird mindestens eine Sammlung solcher Anwendungen darauf ausgeführt. Und die meisten dieser Anwendungen, insbesondere die, über die ich informiert wurde, sind derzeit auf dem Mainframe nicht verfügbar. Sie können sie jedoch auf dem Mainframe auf einem Hadoop-Cluster ausführen, der auf einer Partition des Mainframes ausgeführt wird.

Der Data Lake wird meiner Meinung nach zum natürlichen Staging-Bereich für schnelle Datenbankanalysen und für BI. Es wird der Ort, an dem Sie die Daten aufnehmen, egal ob Unternehmensdaten oder externe Daten. Spielen Sie damit, bis sie sauber genug und strukturiert sind, um verwendet zu werden, und geben Sie sie dann weiter. Und das alles steckt noch in den Kinderschuhen.

Meiner Meinung nach besteht die Idee der Koexistenz von Mainframe und Hadoop zunächst darin, dass große Unternehmen den Mainframe wahrscheinlich nicht aufgeben werden. Tatsächlich deuten die Anzeichen, die ich kürzlich gesehen habe, auf eine steigende Investition in den Mainframe hin. Aber sie werden das Hadoop-Ökosystem auch nicht ignorieren. Ich sehe, dass 60 Prozent der großen Unternehmen Hadoop verwenden, auch wenn viele von ihnen nur Prototypen entwickeln und experimentieren.

Das Rätsel lautet dann: "Wie können diese beiden Dinge nebeneinander existieren?", Weil sie Daten gemeinsam nutzen müssen. Daten, die in den Data Lake gebracht werden, müssen auf den Mainframe übertragen werden. Daten, die sich auf dem Mainframe befinden, müssen möglicherweise zum Datensee oder durch den Datensee geleitet werden, um mit anderen Daten verbunden zu werden. Und das wird passieren. Und das bedeutet, dass eine schnelle Datenübertragung / ETL-Fähigkeit erforderlich ist. Es ist unwahrscheinlich, dass Arbeitslasten dynamisch in einer Mainframe-Umgebung oder mit etwas in einer Hadoop-Umgebung geteilt werden. Es werden Daten sein, die geteilt werden. Und die Mehrheit der Daten wird sich zwangsläufig auf Hadoop befinden, nur weil es die kostengünstigste Plattform für Hadoop ist. Und die durchgängige analytische Verarbeitung wird sich wahrscheinlich auch dort befinden.

Zusammenfassend müssen wir letztendlich in Form einer Unternehmensdatenschicht denken, die für viele Unternehmen den Mainframe umfasst. Und diese Datenschicht muss proaktiv verwaltet werden. Andernfalls können die beiden nicht gut zusammenleben. Ich kann dir den Ball zurückgeben, Eric.

Eric Kavanagh: Nochmals, Tendü, ich habe dich zum Moderator gemacht, also nimm es weg.

Tendü Yogurtçu: Danke, Eric. Ich danke Ihnen für die Einladung. Hallo allerseits. Ich werde mit den Kunden über die Erfahrung von Syncsort sprechen, die darin besteht, wie wir die Daten als Aktivposten in der Organisation betrachten, die vom Mainframe auf Big Data auf Analyseplattformen übertragen werden. Und ich hoffe, dass wir am Ende der Sitzung auch Zeit haben, Fragen des Publikums zu stellen, denn das ist wirklich der wertvollste Teil dieser Webcasts.

Nur für Leute, die nicht wissen, was Syncsort tut, ist Syncsort ein Softwareunternehmen. Wir sind tatsächlich über 40 Jahre alt. Wir haben auf der Mainframe-Seite angefangen und unsere Produkte erstrecken sich von Mainframe über Unix bis hin zu Big Data-Plattformen, einschließlich Hadoop, Spark und Splunk, sowohl vor Ort als auch in der Cloud. Unser Fokus lag seit jeher auf Datenprodukten, Datenverarbeitungs- und Datenintegrationsprodukten.

Unsere Strategie in Bezug auf Big Data und Hadoop war es, vom ersten Tag an Teil des Ökosystems zu werden. Als Eigentümer von Anbietern, die sich wirklich auf die Datenverarbeitung mit sehr leichten Engines konzentriert haben, sahen wir eine große Chance, an Hadoop als Datenverarbeitungsplattform teilzunehmen und Teil dieser Data Warehouse-Architektur der nächsten Generation für das Unternehmen zu werden. Seit 2011 sind wir an den Open-Source-Apache-Projekten beteiligt, beginnend mit MapReduce. Wir waren in den Top Ten für Hadoop Version 2 und haben an mehreren Projekten teilgenommen, einschließlich Spark-Paketen. Einige unserer Connectors wurden in Spark-Paketen veröffentlicht.

Wir nutzen unsere sehr leichte Datenverarbeitungs-Engine, die vollständig auf Flatfiles basiert und sich sehr gut in verteilte Dateisysteme wie das Hadoop Distributed File System einfügt. Und wir nutzen unser Erbe auf dem Mainframe, unsere Erfahrung mit Algorithmen, wenn wir unsere Big-Data-Produkte herausbringen. Wir arbeiten eng mit den wichtigsten Anbietern zusammen, darunter Hortonworks, Cloudera, MapR und Splunk. Hortonworks gab kürzlich bekannt, dass sie unser Produkt für ETL-Onboarding mit Hadoop weiterverkaufen werden. Mit Dell und Cloudera besteht eine sehr enge Partnerschaft, die auch unser ETL-Produkt als Teil ihrer Big-Data-Appliance weiterverkauft. Und mit Splunk veröffentlichen wir tatsächlich Mainframe-Telemetrie- und Sicherheitsdaten in Splunk-Dashboards. Wir haben eine enge Partnerschaft.

Was denkt jeder C-Level-Manager? Es ist wirklich: „Wie kann ich meine Datenbestände abrufen?“ Alle reden von Big Data. Alle reden von Hadoop, Spark, der nächsten Computerplattform, die mir dabei helfen kann, geschäftliche Flexibilität zu erreichen und neue transformative Anwendungen zu eröffnen. Neue Markteinführungsmöglichkeiten. Jeder einzelne Manager denkt: „Was ist meine Datenstrategie, was ist meine Dateninitiative und wie kann ich sicherstellen, dass ich nicht hinter der Konkurrenz zurückbleibe und in den nächsten drei Jahren immer noch auf diesem Markt bin?“ Wir Sehen Sie das, wenn wir mit unseren Kunden sprechen, und wenn wir mit unserem globalen Kundenstamm sprechen, der, wie Sie sich vorstellen können, ziemlich groß ist, da wir schon eine Weile da sind.

Wenn wir mit all diesen Organisationen sprechen, sehen wir dies auch im Technologie-Stack in der Störung, die bei Hadoop aufgetreten ist. Es geht wirklich darum, diese Nachfrage nach Daten als Aktivposten zu befriedigen. Nutzung aller Datenbestände eines Unternehmens. Und wir haben gesehen, wie sich die Enterprise Data Warehouse-Architektur so weiterentwickelt hat, dass Hadoop jetzt das neue Herzstück der modernen Datenarchitektur ist. Und die meisten unserer Kunden, ob es sich um Finanzdienstleistungen handelt, ob es sich um Versicherungen handelt, die Telekommunikation des Einzelhandels, die Initiativen sind in der Regel entweder, dass wir Hadoop als Dienstleistung oder Daten als Dienstleistung betrachten. Weil jeder versucht, die Datenbestände entweder für seine externen oder für seine internen Kunden verfügbar zu machen. Und in einigen Organisationen sehen wir Initiativen wie einen Datenmarkt für ihre Kunden.

Und einer der ersten Schritte, um dies zu erreichen, ist die Einrichtung eines Enterprise Data Hub. Manchmal wird es als Datensee bezeichnet. Das Erstellen dieses Enterprise Data Hubs ist nicht so einfach, wie es sich anhört, da praktisch alle Daten im Unternehmen abgerufen und gesammelt werden müssen. Und diese Daten stammen jetzt aus allen neuen Quellen wie mobilen Sensoren sowie aus älteren Datenbanken und befinden sich im Stapel- und im Streaming-Modus. Die Datenintegration war schon immer eine Herausforderung. Angesichts der Anzahl und Vielfalt der Datenquellen und der unterschiedlichen Bereitstellungsstile (Batch oder Streaming in Echtzeit) ist sie jetzt noch schwieriger als vor fünf oder zehn Jahren. Wir bezeichnen es manchmal als "Es ist nicht mehr die ETL deines Vaters."

Wir sprechen also über die verschiedenen Datenbestände. Da Unternehmen versuchen, die neuen Daten, die Daten, die sie von den Mobilgeräten erfassen, zu verstehen, ob es sich nun um die Sensoren eines Autoherstellers oder die Benutzerdaten eines Mobilspielunternehmens handelt, müssen sie häufig auf die wichtigsten Datenbestände in verweisen das Unternehmen, bei dem es sich zum Beispiel um Kundeninformationen handelt. Diese kritischsten Datenbestände befinden sich häufig auf dem Mainframe. Die Korrelation von Mainframe-Daten mit diesen neuen Quellen, die in der Cloud gesammelt, über Mobiltelefone gesammelt, in der Fertigungsstraße eines japanischen Automobilherstellers gesammelt oder Internet-of-Things-Anwendungen verwendet werden, muss durch Verweisen auf ihre alten Datensätze einen Sinn ergeben. Und diese alten Datensätze befinden sich häufig auf dem Mainframe.

Und wenn diese Unternehmen dies nicht können und nicht in der Lage sind, auf die Mainframe-Daten zuzugreifen, ist die Chance verpasst. Dann erschließen die Daten als Service oder die Nutzung aller Unternehmensdaten nicht wirklich die wichtigsten Ressourcen in der Organisation. Es gibt auch den Teil Telemetrie- und Sicherheitsdaten, da praktisch alle Transaktionsdaten auf dem Mainframe gespeichert sind.

Stellen Sie sich vor, Sie gehen an einen Geldautomaten. Ich glaube, einer der Teilnehmer hat den Teilnehmern hier eine Nachricht gesendet, um das Bankensystem zu schützen, wenn Sie Ihre Karte stehlen, dass Transaktionsdaten so ziemlich global auf dem Mainframe sind. Das Sichern und Sammeln von Sicherheitsdaten und Telemetriedaten von Großrechnern sowie deren Bereitstellung über Splunk-Dashboards oder andere, Spark, SQL, wird aufgrund des Datenvolumens und der Vielfalt der Daten heute wichtiger denn je.

Fähigkeiten sind eine der größten Herausforderungen. Da Sie einerseits einen sich schnell ändernden Big-Data-Stack haben, wissen Sie nicht, welches Projekt überleben wird, welches Projekt nicht überleben wird, sollte ich Hive- oder Pig-Entwickler einstellen? Soll ich in MapReduce oder Spark investieren? Oder das nächste, Flink, sagte jemand. Sollte ich in eine dieser Computerplattformen investieren? Einerseits ist es eine Herausforderung, mit dem sich schnell ändernden Ökosystem Schritt zu halten, und andererseits verfügen Sie über diese alten Datenquellen. Die neuen Fähigkeiten stimmen nicht wirklich überein, und Sie haben möglicherweise ein Problem, da diese Ressourcen möglicherweise tatsächlich in den Ruhestand gehen. Es gibt eine große Lücke in Bezug auf die Fähigkeiten von Menschen, die diese alten Datenstapel verstehen und die den aufkommenden Technologiestapel verstehen.

Die zweite Herausforderung ist die Governance. Wenn Sie wirklich plattformübergreifend auf alle Unternehmensdaten zugreifen, haben wir Kunden, die Bedenken haben: „Ich möchte nicht, dass meine Daten landen. Ich möchte nicht, dass meine Daten an mehreren Stellen kopiert werden, da ich die Mehrfachkopien so weit wie möglich vermeiden möchte. Ich möchte einen End-to-End-Zugriff haben, ohne ihn dort in der Mitte zu platzieren. “Die Verwaltung dieser Daten wird zu einer Herausforderung. Wenn Sie auf Daten zugreifen, die Engpässe aufweisen, wenn Sie die meisten Ihrer Daten in der Cloud sammeln und auf vorhandene Daten zugreifen und auf diese verweisen, wird die Netzwerkbandbreite zu einem Problem, einer Clusterplattform. Es gibt viele Herausforderungen, wenn diese Big-Data-Initiative und die fortschrittlichen Analyseplattformen zum Einsatz kommen und alle Unternehmensdaten genutzt werden.

Was Syncsort anbietet, ist, dass wir als "einfach die Besten" bezeichnet werden, nicht weil wir einfach die Besten sind, sondern weil unsere Kunden uns beim Zugriff auf und der Integration von Mainframe-Daten als die Besten bezeichnen. Wir unterstützen alle Datenformate von Mainframe und stellen sie für die Big Data-Analyse zur Verfügung. Ob auf Hadoop oder Spark oder auf der nächsten Computerplattform. Weil unsere Produkte die Komplexität der Computerplattform wirklich isolieren. Als Entwickler arbeiten Sie möglicherweise an einem Laptop und konzentrieren sich auf die Daten-Pipeline und die Datenvorbereitung. Die Schritte, um diese Daten für die Analyse zu erstellen, sind die nächste Phase. Nehmen Sie dieselbe Anwendung in MapReduce oder nehmen Sie diese gleiche Anwendung um in Spark.

Wir haben unseren Kunden dabei geholfen, als YARN verfügbar wurde und sie ihre Anwendungen von MapReduce Version 1 auf YARN verschieben mussten. Wir unterstützen sie dabei, dasselbe mit Apache Spark zu tun. Unser Produkt, die neue Version 9, läuft auch mit Spark und wird mit einer dynamischen Optimierung ausgeliefert, die diese Anwendungen für zukünftige Computer-Frameworks isoliert.

Wir haben also Zugriff auf Mainframe-Daten, egal ob VSAM-Dateien, DB2 oder Telemetriedaten wie SMF-Datensätze, Log4j oder Syslogs, die über Splunk-Dashboards visualisiert werden müssen. Dabei wird die Entwicklungszeit erheblich verkürzt, da die Organisation ihre vorhandenen Data Engineer- oder ETL-Fähigkeiten nutzen kann. Bei Dell und Cloudera wurde sogar ein unabhängiger Benchmark gesponsert. Dieser Benchmark konzentrierte sich auf die Entwicklungszeit, die erforderlich ist, wenn Sie Handcodierung oder andere Tools wie Syncsort verwenden. Die Entwicklungszeit wurde um etwa 60 bis 70 Prozent verkürzt . Durch die Überbrückung der Fähigkeiten besteht eine Lücke zwischen Gruppen, zwischen diesen Hosts für Datendateien und auch zwischen diesen Hosts für Datendateien in Bezug auf die Personen.

In der Regel sprechen das Big-Data-Team oder das Data-Ingest-Team oder das Team, das diese Daten als Servicearchitektur entwickeln soll, nicht unbedingt mit dem Mainframe-Team. Sie möchten diese Interaktion in fast allen Organisationen minimieren. Indem wir diese Lücke geschlossen haben, sind wir weitergekommen. Und das Wichtigste ist wirklich, den gesamten Prozess abzusichern. Denn im Unternehmen gibt es beim Umgang mit diesen sensiblen Daten viele Anforderungen.

In stark regulierten Branchen wie Versicherungen und Banken sagten unsere Kunden: „Sie bieten diesen Mainframe-Datenzugriff an, und das ist großartig. Können Sie mir auch anbieten, dieses EBCDIC-codierte Aufzeichnungsformat im Originalformat zu belassen, damit ich meine Prüfungsanforderungen erfüllen kann? “Wir machen Hadoop und Apache Spark also mit Mainframe-Daten vertraut. Sie können die Daten in ihrem ursprünglichen Datensatzformat belassen, Ihre Computerplattform für Verarbeitungs- und Ebenenverteiler verwalten und, wenn Sie dies zurücksetzen müssen, zeigen, dass der Datensatz nicht geändert wurde und das Datensatzformat nicht geändert wurde, dass Sie die gesetzlichen Anforderungen erfüllen können .

Und die meisten Organisationen, die den Data Hub oder den Data Lake erstellen, versuchen dies auch mit einem einzigen Klick, um Metadaten aus Hunderten von Schemata in einer Oracle-Datenbank Hive-Tabellen oder ORC- oder Parquet-Dateien zuordnen zu können wird notwendig. Wir liefern Tools aus und stellen Tools zur Verfügung, mit denen Sie in einem Schritt auf Daten zugreifen, Jobs automatisch generieren oder Daten verschieben und Jobs automatisch generieren können, um die Datenzuordnung vorzunehmen.

Wir sprachen über den Konnektivitätsteil, die Compliance, die Governance und die Datenverarbeitung. Und unsere Produkte sind sowohl vor Ort als auch in der Cloud verfügbar, was es wirklich sehr einfach macht, da die Unternehmen nicht darüber nachdenken müssen, was in den nächsten ein oder zwei Jahren passieren wird, wenn ich mich für eine vollständige Umstellung auf Public Clouds im Vergleich zu Hybrid-Produkten entscheide Umgebung, da einige der Cluster möglicherweise lokal oder in der Cloud ausgeführt werden. Unsere Produkte sind sowohl auf dem Amazon Marketplace, auf EC2, Elastic MapReduce als auch in einem Docker-Container erhältlich.

Nur zum Abschluss, damit wir genug Zeit für Fragen und Antworten haben, geht es wirklich darum, auf die Daten-Governance zuzugreifen, sie zu integrieren und sie einzuhalten, und dies alles zu vereinfachen. Und während wir dies vereinfachen, können wir dank unserer Open-Source-Beiträge im wahrsten Sinne des Wortes „einmal entwerfen und überall bereitstellen“. Unser Produkt läuft nativ im Hadoop-Datenfluss und nativ mit Spark, wodurch die Organisationen vom sich schnell verändernden Ökosystem isoliert werden. Und Bereitstellung einer einzigen Datenpipeline, einer einzigen Schnittstelle, sowohl für Batch- als auch für Streaming-Anwendungen.

Dies hilft Unternehmen auch dabei, diese Frameworks manchmal zu evaluieren, da Sie möglicherweise tatsächlich Anwendungen erstellen und einfach auf MapReduce im Vergleich zu Spark ausführen möchten und sich selbst davon überzeugen können. Ja, Spark hat dieses Versprechen und bietet alle Vorteile iterativer Algorithmen für bestmögliches maschinelles Lernen und Predictive Analytics-Anwendungen funktionieren mit Spark. Kann ich meine Streaming- und Batch-Workloads auch auf diesem Computer-Framework ausführen lassen? Mit unseren Produkten können Sie verschiedene Computerplattformen testen. Und die dynamische Optimierung, ob Sie auf einem eigenständigen Server oder auf Ihrem Laptop in Google Cloud im Vergleich zu Apache Spark ausgeführt werden, ist für unsere Kunden wirklich von großem Nutzen. Und es war wirklich von den Herausforderungen getrieben, die sie hatten.

Ich werde nur eine der Fallstudien behandeln. Dies ist Guardian Life Insurance Company. Die Initiative von Guardian bestand darin, ihre Datenbestände zu zentralisieren und für ihre Kunden verfügbar zu machen, die Datenvorbereitungszeit zu verkürzen. Alle sprachen von einer Datenvorbereitung, die 80 Prozent der gesamten Datenverarbeitungs-Pipeline ausmacht 75 bis 80 Prozent für sie und sie wollten die Datenvorbereitung, die Transformationszeiten und die Time-to-Market für Analyseprojekte reduzieren. Erstellen Sie diese Flexibilität, indem Sie neue Datenquellen hinzufügen. Und diesen zentralen Datenzugriff für alle Kunden verfügbar machen.

Die Lösung des Unternehmens, einschließlich der Syncsort-Produkte, besteht derzeit darin, dass es einen ähnlichen Datenmarkt wie Amazon Marketplace gibt, der von einem Data Lake (im Grunde Hadoop) und einer NoSQL-Datenbank unterstützt wird. Und sie verwenden unsere Produkte, um alle Datenbestände auf den Data Lake zu übertragen, einschließlich DB2 auf dem Mainframe, einschließlich VSAM-Dateien auf dem Mainframe, und die alten Datenbankdatenquellen sowie die neuen Datenquellen. Infolgedessen haben sie die wiederverwendbaren Datenbestände zentralisiert, die für ihre Kunden durchsuchbar, zugänglich und verfügbar sind. Und sie sind wirklich in der Lage, die neuen Datenquellen hinzuzufügen und ihre Kunden viel schneller und effizienter als zuvor zu bedienen. Und die Analytics-Initiativen schreiten auch auf der Prognoseseite noch weiter voran. Ich werde also eine Pause einlegen und hoffe, dass dies nützlich war. Wenn Sie zu einem der verwandten Themen Fragen an mich haben, sind Sie herzlich willkommen.

Eric Kavanagh: Klar, und Tendü, ich werfe nur einen rein. Ich habe einen Kommentar von einem Publikum erhalten, in dem es nur heißt: „Ich mag dieses Design einmal, irgendwo einsetzen.“ Können Sie herausfinden, wie das wahr ist? Ich meine, was haben Sie getan, um diese Art von Beweglichkeit zu ermöglichen, und gibt es eine Steuer? Zum Beispiel, wenn wir über Virtualisierung sprechen, gibt es immer eine gewisse Leistungssteuer. Einige Leute sagen zwei Prozent, fünf Prozent und zehn Prozent. Was haben Sie getan, um das Design einmal zu aktivieren und überall bereitzustellen? Wie wird es durchgeführt und ist mit der Leistung eine Steuer verbunden?

Tendü Yogurtçu: Sicher, danke. Nein, da wir im Gegensatz zu einigen anderen Anbietern nicht wirklich Hive oder Pig oder einen anderen Code generieren, der nicht für unsere Engines typisch ist. Hier spielten unsere Open-Source-Beiträge eine große Rolle, da wir sehr eng mit Hadoop-Anbietern, Cloudera, Hortonworks und MapR zusammengearbeitet haben und aufgrund unserer Open-Source-Beiträge unsere Engine tatsächlich nativ als Teil des Datenflusses läuft, als Teil des Hadoop-Flows, als Teil des Spark.

Was das auch übersetzt, wir haben diese dynamische Optimierung. Dies war eine Folge der Herausforderung unserer Kunden mit Computer-Frameworks. Als sie mit einigen der Anwendungen in Produktion gingen, kamen sie zurück und sagten: „Ich stabilisiere gerade meinen Hadoop-Cluster, stabilisiere MapReduce YARN Version 2, MapReduce Version 2, und die Leute reden, MapReduce sei tot, Spark ist es Das nächste, und einige Leute sagen, dass Flink das nächste sein wird. Wie werde ich damit umgehen? “

Und diese Herausforderungen wurden uns wirklich so klar, dass wir in diese dynamische Optimierung investiert haben, die wir als intelligente Ausführung bezeichnen. Zur Laufzeit, wenn der Job, wenn diese Datenpipeline gesendet wird, basierend auf dem Cluster, ob Spark, MapReduce oder ein eigenständiger Linux-Server, entscheiden wir, wie dieser Job als Teil davon nativ in unserer Engine ausgeführt werden soll Hadoop- oder Spark-Datenfluss. Es entsteht kein Overhead, da alles durch diese dynamische Optimierung erledigt wird, und alles wird auch erledigt, weil unsere Engine aufgrund unserer Open-Source-Beiträge so nativ integriert ist. Beantwortet das deine Frage?

Eric Kavanagh: Ja, das ist gut. Und ich möchte da drüben noch eine Frage aufwerfen, und dann, Dez, ziehen wir dich und Robin vielleicht auch rein. Ich habe gerade einen urkomischen Kommentar von einem unserer Teilnehmer erhalten. Ich werde es lesen, weil es wirklich ziemlich markig ist. Er schreibt: "Es scheint, dass es in der Geschichte der Dinge umso einfacher ist, Dinge zu tun, je mehr man versucht, etwas wirklich Komplexes zu" vereinfachen " mehr hängendes Seil wird geliefert. Denken Sie an Datenbankabfragen, Explosionen, Multithreading usw. Können Sie dieses Paradox kommentieren, auf das er sich bezieht? Einfachheit versus Komplexität, und was ist eigentlich unter der Decke los?

Tendü Yogurtçu: Sicher. Ich denke, das ist ein sehr berechtigter Punkt. Wenn Sie die Dinge vereinfachen und diese Optimierungen in gewisser Weise im Hintergrund durchführen, muss jemand die Komplexität dessen berücksichtigen, was passieren muss, oder? Wenn Sie etwas lähmen oder sich für die Ausführung eines bestimmten Jobs in Bezug auf das Computer-Framework entscheiden, wird offensichtlich ein Teil des Jobs verschoben, sei es auf der Benutzerseite, bei der Menücodierung oder bei der Motoroptimierung. Ein Teil davon besteht darin, dass durch die Vereinfachung des Benutzererlebnisses ein enormer Vorteil darin besteht, die im Unternehmen vorhandenen Fähigkeiten wirksam einsetzen zu können.

Und Sie können dieses Paradox mildern, die Herausforderung „Ja, aber ich habe nicht die Kontrolle über alles, was unter der Abdeckung, unter der Motorhaube in diesem Motor geschieht“, indem Sie die Dinge fortgeschritteneren Benutzern aussetzen, wenn diese es tun möchte diese Art von Kontrolle haben. Indem Sie auch in einige der Dinge investieren, die die Wartungsfreundlichkeit betreffen. In der Lage zu sein, mehr operative Metadaten und mehr operative Daten, wie im Beispiel dieses Teilnehmers, für eine SQL-Abfrage sowie bei laufender Engine anzubieten. Ich hoffe das beantwortet.

Eric Kavanagh: Ja, das hört sich gut an. Dez, nimm es weg.

Dez Blanchfield: Ich bin sehr daran interessiert, einen Einblick in Ihren Fußabdruck in den Open-Source-Beiträgen und in die Reise zu bekommen, die Sie aus Ihrer traditionellen, langjährigen Erfahrung im Bereich Mainframe und der proprietären Welt genommen haben, und dann in die Verlagerung Beiträge zu Open Source und wie dies geschah. Und das andere, was ich verstehen möchte, ist die Ansicht, dass Unternehmen, nicht nur IT-Abteilungen, sondern auch Unternehmen, die Datenhubs oder Datenseen betrachten, wie die Leute jetzt sagen, und ob sie diesen Trend sehen Nur ein einziger, konsolidierter Datensee oder ob wir verteilte Datenseen sehen und die Leute Tools verwenden, um sie zusammenzusetzen?

Tendü Yogurtçu: Sicher. Für den ersten war das eine sehr interessante Reise, als Softwareunternehmen, eines der ersten nach IBM. Es begann jedoch wieder alles mit unseren Evangelisten-Kunden, die sich Hadoop anschauten. Wir hatten Datenunternehmen wie ComScore, die Hadoop als eines der ersten eingeführt haben, weil sie auf der ganzen Welt digitale Daten sammelten und nicht in der Lage waren, 90 Tage Daten zu speichern, es sei denn, sie investierten eine 10-Millionen-Dollar-Data-Warehouse-Box in ihre Umgebung. Sie begannen Hadoop anzusehen. Damit haben wir uns auch Hadoop angeschaut.

Und als wir eine Entscheidung getroffen haben und uns eingestanden haben, dass Hadoop wirklich die Datenplattform der Zukunft sein wird, sind wir auch zu dem Schluss gekommen, dass wir nicht in der Lage sein werden, ein Spiel darin zu spielen, ein erfolgreiches Spiel darin, es sei denn wir waren ein Teil des Ökosystems. Und wir haben sehr eng mit Hadoop-Anbietern, mit Cloudera, Hortonworks, MapR usw. zusammengearbeitet. Wir haben angefangen, wirklich mit ihnen zu sprechen, da Partnerschaften sehr wichtig sind, um den Wert zu bestätigen, den ein Anbieter bringen kann, und um sicherzustellen, dass wir gemeinsam zum Unternehmen gehen können und etwas Sinnvolleres anbieten. Es erforderte eine Menge Beziehungsaufbau, da wir den Apache-Open-Source-Projekten nicht bekannt waren, aber ich muss sagen, dass wir große Unterstützung von diesen Hadoop-Anbietern hatten.

Wir begannen zusammenzuarbeiten und überlegten, wie wir Wert schaffen können, ohne dass auch unsere proprietäre Software in den Raum kommt. Das war wichtig Es geht nicht nur darum, einige APIs bereitzustellen, auf denen Ihr Produkt ausgeführt werden kann, sondern ich kann auch sagen, dass ich in dieses Produkt investieren werde, weil ich glaube, dass Hadoop eine Plattform der Zukunft sein wird, also indem wir in die Quellen investieren, die wir erstellen wollten sicher, dass es reift und betriebsbereit wird. Wir können tatsächlich einige der Anwendungsfälle aktivieren, die vor unseren Beiträgen nicht verfügbar waren. Das wird dem gesamten Ökosystem zugute kommen und wir können diese Partnerschaften sehr eng ausbauen.

Es hat ziemlich viel Zeit in Anspruch genommen. Wir haben 2011 und 2013, am 21. Januar, angefangen, Beiträge zu leisten . Ich erinnere mich an das Datum, an dem wir unseren größten Beitrag geleistet haben. Das bedeutet, dass wir unsere Produkte ab diesem Zeitpunkt allgemein verfügbar haben. Die Entwicklung dieser Beziehungen hat einige Zeit in Anspruch genommen Zeigen Sie den Wert, Partner werden Design-Partner mit den Anbietern und mit den Anbietern in der Open-Source-Community. Aber es hat viel Spaß gemacht. Es hat sich für uns als Unternehmen sehr gelohnt, Teil dieses Ökosystems zu sein und eine großartige Partnerschaft aufzubauen.

Die zweite Frage zum Data Hub / Data Lake: Wenn wir diese Daten in den meisten Fällen als Service-Implementierung betrachten, handelt es sich zwar um Cluster, physisch einzelne oder mehrere Cluster, aber es ist konzeptioneller, als nur ein einziger Ort zu werden für alle Daten. In einigen Organisationen sind große Cluster-Bereitstellungen vor Ort, es gibt jedoch auch Cluster, z. B. in der öffentlichen Cloud, da einige der aus Online-Abschnitten gesammelten Daten tatsächlich in der Cloud gespeichert werden. Es ist wichtig, über eine einzige Daten-Pipeline zu verfügen, die Sie tatsächlich nutzen können, um sie als einen einzigen Daten-Hub (Single Data Lake) zu verwenden. Ich denke, nicht unbedingt nur der physische Ort, sondern auch der Datenhub und der Datensee in Clustern, in verschiedenen Regionen und möglicherweise in der Umgebung und in der Cloud werden sehr kritisch sein. Besonders vorwärts. In diesem Jahr gab es immer mehr Cloud-Bereitstellungen. Es ist wunderbar. In der ersten Jahreshälfte haben wir bisher viele Cloud-Bereitstellungen gesehen.

Eric Kavanagh: Okay, cool. Und Robin, hast du irgendwelche Fragen? Ich weiß, wir haben nur noch ein paar Minuten.

Robin Bloor: Okay, ich kann ihr eine Frage stellen. Das erste, was mir aufgefallen ist, ist, dass Kafka sehr aufgeregt war und ich mich für Ihre Meinung zu Kafka interessierte und wie Sie sich in die Art und Weise integrieren, wie Menschen Kafka nutzen?

Tendü Yogurtçu: Sicher. Ja, Kafka wird immer beliebter. Unter unseren Kunden sehen wir das als eine Art Datentransportschicht und sehen die Daten als einen Bus an. Zum Beispiel hat einer unserer Kunden tatsächlich eine Art von konsumierenden Daten verwendet, die in diesen Kafka zwischen mehreren, wie Tausenden von Online-Benutzern, gepusht wurden und die klassifiziert und durchgeschoben werden konnten.

Auch hier ist Kafka ein Datenbus zu den verschiedenen Verbrauchern dieser Daten. Klassifizieren Sie einige fortgeschrittene Benutzer gegenüber weniger fortgeschrittenen Benutzern, und führen Sie in dieser Datenpipeline einen anderen Schritt aus. Wie wir uns in Kafka integrieren, macht unser Produkt DMX-h zu einem zuverlässigen Verbraucher, zu einem hocheffizienten, zuverlässigen Verbraucher für Kafka. Es kann die Daten lesen und dies unterscheidet sich nicht vom Lesen von Daten aus einer anderen Datenquelle für uns. Wir geben Benutzern die Möglichkeit, das Fenster entweder in Bezug auf den Zeitbedarf oder die Anzahl der Nachrichten, die sie möglicherweise vom Kafka-Bus verbrauchen, zu steuern. Und dann können wir diese Daten auch anreichern, während sie unser Produkt durchlaufen und in Kafka zurückgespeichert werden. Wir haben das getestet. Wir haben es beim Kunden vor Ort getestet. Auch von Confluent zertifiziert. Wir arbeiten eng mit den Mitarbeitern von Confluent zusammen und es ist sehr leistungsfähig und einfach zu bedienen. Auch hier ändern sich die APIs, aber Sie müssen sich keine Sorgen machen, da das Produkt dies wirklich als eine andere Datenquelle, eine Streaming-Datenquelle, behandelt. Es macht wirklich Spaß, mit unserem Produkt und Kafka zu arbeiten.

Robin Bloor: Okay, ich habe noch eine andere Frage, die nur eine allgemeine Geschäftsfrage ist, aber ich kenne Syncsort schon seit langer Zeit und Sie hatten immer den Ruf und lieferten außergewöhnlich schnelle Software für ETL und die Mainframe-Welt. Wird der größte Teil Ihres Geschäfts jetzt an Hadoop übertragen? Ist es der Fall, dass Sie auf die eine oder andere Weise Ihr Geschäft von der Mainframe-Welt aus ziemlich dramatisch verbreitet haben?

Tendü Yogurtçu: Unsere Mainframe-Produkte machen immer noch 50 Prozent der Mainframes weltweit aus. Wir haben also eine sehr starke Mainframe-Produktlinie zusätzlich zu dem, was wir im Bereich Big Data und Hadoop tun. Die meisten IT-Vereinfachungs- oder Optimierungsprojekte sind noch nicht abgeschlossen, da Sie in der Lage sein möchten, Ihre Mainframe-Daten auf den Big-Data-Multex-Plattformen zu nutzen und alle Unternehmensdaten zu nutzen. Es gibt jedoch auch sehr kritische Transaktions-Workloads Das läuft immer noch auf dem Mainframe und wir bieten diesen Kunden die Möglichkeit, diese Anwendungen wirklich effizienter zu gestalten. Sie laufen in der zIIP-Engine, sodass sie nicht so viele Verarbeitungszyklen und MIPS verbrauchen und kosteneffektiv sind.

Wir investieren weiterhin in die Mainframe-Produkte und spielen tatsächlich in diesem Bereich, in dem die Leute vom Mainframe-Big-Iron zu Big Data wechseln und die Produktlinie auch über diese Plattformen hinweg abdecken. Damit wir nicht notwendigerweise das gesamte Geschäft auf eine Seite verlagern, haben wir weiterhin ein sehr erfolgreiches Geschäft auf beiden Seiten. Auch für uns stehen die Akquisitionen im Fokus. Da sich dieser Raum für die Datenverwaltung und Datenverarbeitung für die Big-Data-Plattformen weiterentwickelt, sind wir auch entschlossen, eine Reihe von zusätzlichen Akquisitionen vorzunehmen.

Robin Bloor: Nun, ich schätze, ich kann dich nicht fragen, was das ist, weil du es mir nicht erzählen darfst. Es interessiert mich, ob Sie viele Implementierungen von Hadoop oder Spark tatsächlich auf dem Mainframe gesehen haben oder ob dies eine sehr seltene Sache ist.

Tendü Yogurtçu: Wir haben keine gesehen. Es gibt mehr Fragen dazu. Ich denke, Hadoop auf dem Mainframe ergab aufgrund der Art der Kernstruktur keinen Sinn. Wie auch immer, Spark auf dem Mainframe ist sehr aussagekräftig und Spark ist wirklich sehr gut in Bezug auf maschinelles Lernen und prädiktive Analysen. Ich denke, einige dieser Anwendungen mit Mainframe-Daten sind wirklich sehr aussagekräftig. Wir haben noch niemanden gesehen, der das getan hat, aber es ist wirklich der Anwendungsfall, der diese Dinge antreibt. Wenn Ihr Anwendungsfall als Unternehmen eher darin besteht, diese Mainframe-Daten zu integrieren und sie mit den übrigen Datensätzen der Big Data-Plattform zu integrieren, ist das eine Geschichte. Sie müssen über die Big-Data-Multex-Plattform auf die Mainframe-Daten zugreifen, da es unwahrscheinlich ist, dass Sie Ihre Datensätze von offenen Systemen zum Mainframe zurückrufen. Wenn Sie jedoch einige Mainframe-Daten haben, die Sie nur durchsuchen und ein bisschen Datenerkundung durchführen möchten, eine fortgeschrittene KI und erweiterte Analyse anwenden möchten, ist Spark möglicherweise eine gute Methode, um auf dem Mainframe zu arbeiten.

Eric Kavanagh: Und hier ist noch eine Frage des Publikums, eigentlich noch zwei. Ich werde dir eine Frage an das Tag-Team stellen, dann werden wir abschließen. Ein Teilnehmer fragt: „Integriert IBM Ihre Open-Source-Beiträge in sein öffentliches Cloud-Ökosystem, mit anderen Worten, den Bluemix?“ Ein anderer Teilnehmer äußerte sich sehr positiv und merkte an, dass Syncsort großartig ist, um das große Eisen für diejenigen am Leben zu erhalten, die Ich habe es bereits, aber wenn Unternehmen auf neue Mainframes verzichten, um das, was er als CE bezeichnet, zu vermeiden, wird dies wahrscheinlich abnehmen. Aber Sie sind wirklich gut darin, Daten zu verschieben, indem Sie Betriebssysteme mit einer Geschwindigkeit von bis zu einem Gigabyte pro Sekunde umgehen. Können Sie über Ihre Kernkompetenzen sprechen, wie er sagte, und ob IBM Ihre Inhalte in Bluemix integriert oder nicht?

Tendü Yogurtçu: Mit IBM sind wir bereits Partner von IBM, und wir hatten Gespräche über deren Data Cloud-Services, die das Produkt anbieten. Unsere Open-Source-Beiträge stehen jedem offen, der sie nutzen möchte. Ein Teil der Mainframe-Konnektivität ist auch in Spark-Paketen verfügbar, also nicht nur in IBM. Jeder kann diese nutzen. Im Bluemix haben wir dazu noch nichts konkretes gemacht. Und macht es Ihnen etwas aus, die zweite Frage zu wiederholen?

Eric Kavanagh: Ja, die zweite Frage betraf Ihren Kernfunktionsbereich im Laufe der Jahre, der wirklich die Engpässe von ETL bewältigte, und das ist offensichtlich etwas, was Sie als Mainframes immer noch tun werden, na ja, bleiben Sie theoretisch fern, obwohl Dez's point rockt und rollt immer noch da draußen. Der Teilnehmer bemerkte jedoch, dass Syncsort sehr gut darin ist, Daten unter Umgehung von Betriebssystemen und bis zu einem Gigabyte pro Sekunde zu übertragen. Können Sie das nur kommentieren?

Tendü Yogurtçu: Ja, die gesamte Ressourceneffizienz war unsere Stärke und die Skalierbarkeit und Leistung unsere Stärke. Wir gehen keine Kompromisse ein, vereinfachen hat viele Bedeutungen, wir gehen keine Kompromisse ein. Als beispielsweise im Jahr 2014 über Hadoop gesprochen wurde, haben sich viele Unternehmen zunächst nicht wirklich mit der Leistung befasst. Sie sagten: "Oh, wenn etwas passiert, kann ich noch ein paar Knoten hinzufügen und es geht mir gut, Leistung ist nicht meine Anforderung."

Während wir über die beste Leistung sprachen, weil wir bereits von Haus aus liefen, hatten wir nicht einmal einige der anfänglichen Probleme, die Hive mit mehreren MapReduce-Jobs hatte, und Overheads, wenn sie gestartet wurden. Die Leute sagten uns: "Oh, das ist nicht meine Sorge, mach dir darüber im Moment keine Sorgen."

Als wir 2015 ankamen, hat sich diese Landschaft geändert, weil einige unserer Kunden bereits den Speicher überschritten haben, den sie in ihren Produktionsclustern hatten. Für sie wurde es sehr wichtig zu sehen, was Syncsort bieten kann. Wenn Sie Daten aus einer Datenbank oder einem Mainframe entnehmen und in den Clustern in ein Parkettformat schreiben, hat es einen Unterschied gemacht, ob Sie landen und eine weitere Transformation durchführen oder nur die Inflight-Transformation und das gelandete Zieldateiformat durchführen Sie sparen Speicherplatz aus der Netzwerkbandbreite, Sie sparen Speicherplatz aus der Auslastung des Clusters, da Sie keine zusätzlichen Jobs ausführen. Diese Stärken, die wir spielen, um sehr bewusst zu sein, spüren wir anscheinend unter der Haut.

So beschreiben wir es. Es ist wichtig für uns. Wir halten das nicht für selbstverständlich. Wir haben es nie für selbstverständlich gehalten, daher werden wir mit dieser Hebelwirkung in Apache Spark oder dem nächsten Computer-Framework weiterhin stark sein. Das wird auch weiterhin unser Fokus sein. In Bezug auf Datenbewegung und Datenzugriff ist dies definitiv eine unserer Stärken, und wir greifen im Kontext von Hadoop oder Spark auf DB2- oder VSAM-Daten auf den Mainframes zu.

Eric Kavanagh: Nun, das ist eine großartige Möglichkeit, den Webcast zu beenden, Leute. Vielen Dank für Ihre Zeit und Aufmerksamkeit. Vielen Dank an Sie, Tendü und Syncsort, dass Sie den Besprechungsraum betreten und die Runde betreten haben. Viele tolle Fragen vom Publikum. Es ist eine sich ständig verändernde Umgebung, Leute. Wir werden diesen Hot Tech wie alle anderen archivieren. Sie finden uns unter insideanalysis.com und techopedia.com. Normalerweise geht es in ungefähr einem Tag hoch. Und damit verabschieden wir uns von Ihnen, Leute. Ich danke dir sehr. Wir werden uns bald mit Ihnen unterhalten. Sich kümmern. Tschüss.

Big Iron, treffen Sie Big Data: Befreien Sie Mainframe-Daten mit Hadoop und Spark