Die Kraft des Vorschlags: Wie ein Datenkatalog Analysten befähigt

2025

Von Techopedia Staff, 22. Juni 2016

Imbiss: Gastgeberin Rebecca Jozwiak diskutiert mit Dez Blanchfield, Robin Bloor und David Crawford über die Vorteile von Datenkatalogen.

Sie müssen sich für diese Veranstaltung registrieren, um das Video anzuzeigen. Registrieren Sie sich, um das Video zu sehen.

Rebecca Jozwiak: Sehr geehrte Damen und Herren, hallo und willkommen bei Hot Technologies of 2016. Heute heißt es: „Die Kraft des Vorschlags: Wie ein Datenkatalog Analysten stärkt.“ Ich bin Ihre Gastgeberin Rebecca Jozwiak, die unseren üblichen Gastgeber Eric vertritt Kavanagh heute, während er um die Welt reist, vielen Dank, dass Sie sich uns angeschlossen haben. Dieses Jahr ist heiß, es ist nicht nur heiß in Texas, wo ich bin, sondern es ist überall heiß. Es gibt eine Explosion aller Arten neuer Technologien. Wir haben IoT, Streaming-Daten, Cloud-Akzeptanz, Hadoop wird weiterentwickelt und adoptiert. Wir haben Automatisierung, maschinelles Lernen und all diese Dinge werden natürlich durch Daten unterstrichen. Und Unternehmen werden von Tag zu Tag mehr datengesteuert. Und natürlich geht es darum, zu Wissen und Entdeckung zu führen und bessere Entscheidungen zu treffen. Aber um wirklich den größtmöglichen Nutzen aus Daten zu ziehen, muss es einfach zu erreichen sein. Wenn Sie es wegschließen, begraben oder im Gehirn einiger weniger Mitarbeiter des Unternehmens aufbewahren, wird es nicht viel Gutes für das gesamte Unternehmen bewirken.

Und ich dachte irgendwie über Datenkatalogisierung nach und dachte natürlich über Bibliotheken nach, wo Sie vor langer Zeit hingegangen sind, wenn Sie etwas herausfinden wollten, wenn Sie ein Thema recherchieren oder Informationen nachschlagen wollten, sind Sie in die Bibliothek gegangen, und natürlich bist du in den Kartenkatalog gegangen, oder zu der mürrischen Dame, die dort gearbeitet hat. Aber es hat auch Spaß gemacht, ein bisschen herumzulaufen, wenn man nur hinschauen wollte und sicher sein wollte, dass man etwas Ordentliches entdeckt, einige interessante Fakten herausfindet, die man nicht kennt, aber wenn man wirklich etwas herausfinden muss, und Sie wussten, wonach Sie gesucht haben, Sie brauchten den Kartenkatalog, und natürlich ist das Unternehmensäquivalent ein Datenkatalog, mit dessen Hilfe alle Daten beleuchtet werden, die unsere Benutzer anreichern, entdecken, teilen, konsumieren und wirklich helfen können Menschen kommen schneller und einfacher zu Daten.

Heute haben wir also Dez Blanchfield, unseren eigenen Datenwissenschaftler, und wir haben Doctor Robin Bloor, unseren eigenen Chefanalytiker. Wir haben David Crawford von Alation, der über die Datenkatalogisierungsgeschichte seines Unternehmens sprechen wird, aber zuerst Wir werden mit Dez abheben. Dez, ich gebe dir den Ball und der Boden gehört dir.

Dez Blanchfield: Danke, danke, dass Sie mich heute haben. Dies ist eine Angelegenheit, die mich sehr interessiert, da fast jede Organisation, der ich in meiner täglichen Arbeit begegne, genau dasselbe Problem vorfindet, über das wir in der Vor-Show-Scherzrede sehr kurz gesprochen haben, und das ist es In den meisten Unternehmen, die seit mehr als ein paar Jahren im Geschäft sind, sind eine Vielzahl von Daten in verschiedenen Formaten im Unternehmen vergraben. Tatsächlich gibt es Clients, deren Datensätze auf Lotus Notes zurückgehen, also Datenbanken, die in einigen Unternehmen noch ausgeführt werden Fälle wie ihre Pseudointernets und sie alle stehen vor der Herausforderung, tatsächlich herauszufinden, wo sich ihre Daten befinden und wie man darauf zugreifen kann, wer darauf zugreifen kann, wann und wie man darauf zugreifen kann Katalog und wie man ihn an einen Ort bringt, an dem jeder etwas kann: A) sich dessen bewusst sein, was sich dort befindet und was sich darin befindet, und B) wie man darauf zugreifen und es verwenden kann. Und eine der größten Herausforderungen besteht natürlich darin, sie zu finden. Die andere große Herausforderung besteht darin, zu wissen, was sich dort befindet und wie man darauf zugreift.

Ich weiß vielleicht, dass ich Dutzende von Datenbanken habe, aber ich weiß nicht genau, was sich dort befindet oder wie ich herausfinden kann, was sich dort befindet Wenn Sie im Büro herumgehen und Fragen stellen, über die kubischen Wände schreien und versuchen, herauszufinden, wie häufig meine Erfahrung ist, werden Sie vielleicht sogar feststellen, dass Sie zur Rezeption, zur Rezeption und zur Frage gehen, ob jemand weiß, wer Du wirst mit mir reden. Sehr oft ist es nicht immer so, dass die IT-Verantwortlichen den Datensatz nicht kennen, weil er gerade erstellt wurde, und es könnte sich um ein einfaches Projekt handeln. Sehr oft finden wir ein Projekt, das in der IT-Umgebung und in anderen Bereichen Bestand hat Der Projektmanager hat ausgerechnet eine Tabelle mit wertvollen Informationen zu Assets, Kontext und Namen verwendet. Wenn Sie dieses Projekt und diese Person nicht kennen, können Sie diese Informationen einfach nicht finden. Es ist einfach nicht verfügbar und Sie müssen diese Originaldatei beschaffen.

Es gibt einen Satz, der in Bezug auf Daten umstritten ist und dem ich nicht unbedingt zustimme, aber ich denke, es ist ein süßer kleiner Wurf, und das heißt, dass eine gewisse Anzahl von Menschen der Meinung ist, dass Daten das neue Öl sind, und ich bin es Sicher werden wir das auch in einem Aspekt behandeln, später heute. Was mir jedoch aufgefallen ist, ist, dass Unternehmen, die gelernt haben, ihre Daten zu bewerten, einen erheblichen Vorteil gegenüber ihren Mitbewerbern erlangt haben.

Vor ungefähr fünf oder sechs Jahren gab es eine interessante Veröffentlichung von IBM, in der rund 4.000 Unternehmen hier in Australien befragt wurden. Alle Informationen, alle Leistungsdaten, alle Finanzdaten wurden in einem Topf zusammengefasst und dann schickte es an die Australian School of Economics, und sie begannen hier tatsächlich einen gemeinsamen Trend, und das war, dass Unternehmen, die Technologie nutzten, ausnahmslos einen solchen Wettbewerbsvorteil gegenüber ihren Wettbewerbern und Mitbewerbern errangen, dass ihre Wettbewerber fast nie aufholen, und ich denke Dies ist heute bei Daten, die wir als digitale Transformation bezeichnen, der Fall, bei denen Unternehmen klar herausgefunden haben, wie sie die vorhandenen Daten finden, verfügbar machen und in einigen sehr einfachen Formaten verfügbar machen können Mode für die Organisation, ohne notwendigerweise immer zu wissen, warum die Organisation es braucht, und einen erheblichen Vorteil gegenüber Wettbewerbern zu gewinnen.

Ich habe ein paar Beispiele auf dieser Folie, die Sie sehen können. Meiner Meinung nach ist die große Störung in fast allen Branchen auf Daten zurückzuführen, und wenn die aktuellen Trends zutreffen, sind wir meiner Ansicht nach erst richtig geraten Begonnen, weil, wenn die langjährigen Marken endlich wissen, was dies bedeutet und ins Spiel kommen, sie im Großhandel ins Spiel kommen werden. Wenn einige der großen Einzelhändler, die über Datenberge verfügen, eine historische Analyse der Daten durchführen und wissen, dass sie existieren, werden einige der Online-Player einen Weckruf erhalten.

Aber mit vielen dieser Marken haben wir Uber, das größte Taxiunternehmen der Welt. Sie besitzen keine Taxis. Was macht sie magisch, was sind ihre Daten? Airbnb, der größte Anbieter von Unterkünften, wir haben WeChat, die größte Telefongesellschaft der Welt, aber sie haben keine tatsächliche Infrastruktur und keine Mobilteile, keine Telefonleitungen. Alibaba, der größte Einzelhändler der Welt, besitzt jedoch keinen Bestand. Facebook, das größte Medienunternehmen der Welt. Ich denke, bei der letzten Zählung hatten sie jetzt 1, 4 Milliarden aktive Datennutzer, was eine umwerfende Zahl ist. Es ist nicht annähernd so weit - ich glaube, jemand hat behauptet, ein Viertel des Planeten sei tatsächlich jeden Tag dort, und dennoch gibt es hier einen Inhaltsanbieter, der den Inhalt tatsächlich nicht erstellt. Alle Daten, die er liefert, werden nicht von ihm erstellt, sondern von ihm erstellt von ihren Abonnenten, und wir alle kennen dieses Modell.

SocietyOne, von der Sie vielleicht schon gehört haben oder nicht, ist eine lokale Marke. Ich denke, in einigen Ländern ist es eine Bank, die tatsächlich Peer-to-Peer-Kredite vergibt. Mit anderen Worten, sie hat kein Geld. Es verwaltet lediglich die Transaktionen und die darunter liegenden Daten. Netflix, damit sind wir alle sehr, sehr vertraut. Hier gibt es einen interessanten Einzeiler. Als Netflix in Australien legal verwendet werden konnte, als es offiziell angekündigt wurde, mussten Sie kein VPN verwenden, um dorthin zu gelangen. Viele Menschen auf der ganzen Welt tendieren dazu, dies zu tun - wenn Sie es in Ihrer Region nicht erreichen können - Als Netfix in Australien eingeführt wurde, erhöhte es die internationale Bandbreite für unsere Internetverbindungen um 40 Prozent. Damit hat es die Internetnutzung in Australien über Nacht beinahe verdoppelt, und zwar mit nur einer Anwendung, einer in der Cloud gehosteten Anwendung, die nur mit Daten spielt. Es ist nur eine umwerfende Statistik.

Und natürlich sind wir alle mit Apple und Google vertraut, aber dies sind die größten Software-Unternehmen der Welt, aber sie schreiben die Apps nicht wirklich. Was ist die konsequente Sache mit all diesen Organisationen? Nun, es sind Daten, und sie sind nicht dorthin gekommen, weil sie nicht wussten, wo sich ihre Daten befanden, und nicht wussten, wie sie katalogisiert werden sollten.

Was wir jetzt feststellen, ist, dass es diese völlig neue Asset-Klasse gibt, die als Daten bezeichnet wird, und dass Unternehmen damit aufwachen. Sie verfügen jedoch nicht immer über die Tools und das Know-how, um all diese Daten abzubilden, zu katalogisieren und verfügbar zu machen. Wir haben jedoch festgestellt, dass Unternehmen mit nahezu keinem physischen Vermögen einen hohen Marktwert erzielt haben Rekordzeit über diese neue Daten-Asset-Klasse. Wie gesagt, einige der alten Spieler wachen jetzt auf und bringen es mit Sicherheit heraus.

Ich bin ein großer Fan davon, Leute auf eine kleine Reise mitzunehmen, also werden Sie in den achtzehnhundert, späten achtzehnhundert Jahren mehr als vertraut damit sein, wenn Sie auf dem US-Markt eine Volkszählung durchführen Ich glaube, dass sie zu diesem Zeitpunkt jedes Jahr oder so alle zehn Jahre durchgeführt werden. Wenn Sie jedoch jedes Jahr eine Volkszählung durchführen, kann es bis zu acht oder neun Jahre dauern, bis die Datenanalyse tatsächlich durchgeführt wird. Es stellte sich heraus, dass dieser Datensatz an einigen Stellen in Papierform in Kisten abgelegt wurde, und fast niemand konnte ihn finden. Sie haben diese Berichte einfach weiter herausgepumpt, aber die tatsächlichen Daten waren sehr schwer zu bekommen. Wir haben eine ähnliche Situation mit einem anderen weltbedeutenden Moment, um die 1940er Jahre, mit dem Zweiten Weltkrieg, und dieses Ding ist die Bletchley Park Bombe BOMBE, und es war ein massives Tool zur Analyse von Zahlen, das kleine Datenmengen durchforstete, Signale darin fand und dabei half, Codes durch das Enigma zu knacken.

Auch hier handelte es sich im Grunde genommen um ein Gerät, das nicht so sehr zum Katalogisieren, sondern zum Markieren und Zuordnen von Daten entwickelt wurde, und das es ermöglicht, Muster zu nehmen und sie in den Datensätzen zu finden, in diesem Fall Codes zu unterbrechen, Schlüssel und Sätze zu finden und zu finden Sie werden regelmäßig in den Datensätzen gespeichert, und so haben wir diese Reise hinter uns, Dinge in Daten zu finden und Daten zu katalogisieren.

Und dann kamen diese Dinge, diese gewaltigen, preiswerten Maschinengestelle, nur handelsübliche Maschinen. Und wir haben einige sehr interessante Dinge gemacht, und eines der Dinge, die wir mit ihnen gemacht haben, ist, dass wir sehr kostengünstige Cluster gebaut haben, die den Planeten indexieren könnten, und bekanntermaßen diese großen Marken, die gekommen und gegangen sind, aber wahrscheinlich das häufigste Zuhause von Google Marke, von der wir alle gehört haben - sie ist zu einem tatsächlichen Verb geworden, und Sie wissen, dass Sie erfolgreich sind, wenn Ihre Marke zu einem Verb wird. Aber was Google uns gelehrt hat, ohne es zu bemerken, möglicherweise in der Geschäftswelt, ist, dass es ihnen gelungen ist, den gesamten Planeten auf ein bestimmtes Niveau zu indizieren, die Daten auf der ganzen Welt zu katalogisieren und auf sehr einfache Weise verfügbar zu machen. Bequeme Form in einer winzigen einzeiligen Formel, einer Webseite mit fast nichts darauf, und Sie geben Ihre Anfrage ein, sie geht und findet sie, weil sie den Planeten bereits gecrawlt, indiziert und leicht verfügbar gemacht hat.

Und was uns aufgefallen ist, war: „Moment mal, wir machen das nicht in Organisationen - warum ist das so? Warum haben wir eine Organisation, die den gesamten Planeten abbilden und indexieren, crawlen und indexieren und verfügbar machen kann, danach suchen kann und dann auf das Ding klicken kann, um es zu finden, wie kommt es, dass wir es finden Haben Sie das noch nicht intern gemacht? “Es gibt also viele dieser kleinen Maschinenregale auf der ganzen Welt, die das für Intranets tun und Dinge finden, aber sie kommen immer noch mit der Idee zurecht, über das traditionelle Web hinauszugehen Seite oder ein Dateiserver.

Anstatt jetzt auf vielfältige Weise in diese nächste Generation von Datenkatalogen einzusteigen, ist das Ermitteln des Datenzugriffs über Post-it-Notizen und Wasserkühlungsgespräche keine wirklich geeignete Methode zum Ermitteln und Katalogisieren von Daten mehr wirklich war. Wir können diese ganze Herausforderung nicht länger auf Menschen übertragen, die nur Notizen weitergeben, Notizen veröffentlichen und darüber chatten. Wir sind weit über den Bereich hinausgegangen, in dem dieser Ansatz der nächsten Generation für die Datenkatalogisierung entstanden und verschwunden ist. Wir müssen unsere Arme darum legen. Wenn dies ein einfaches Problem gewesen wäre, hätten wir es bereits auf viele Arten gelöst, aber ich denke, dass es kein einfaches Problem ist. Nur das Indizieren und Aufrufen der Daten ist nur ein Teil davon, wenn wir wissen, was in den Daten und enthalten ist Erstellen von Metadaten zu dem, was wir entdecken, und anschließende Bereitstellung in einer einfachen, konsumierbaren Form, insbesondere für Self-Service und Analysen. Es ist immer noch ein Problem, das gelöst wird, aber viele Teile des Puzzles in fünf Jahren sind wirklich gelöst und verfügbar.

Wie wir wissen, ist das Katalogisieren von Daten durch Menschen ein Rezept für ein Versagen, da menschliches Versagen einer der größten Alpträume ist, mit denen wir uns in der Datenverarbeitung befassen, und ich spreche regelmäßig über dieses Thema, bei dem das Ausfüllen von Papierformularen aus meiner Sicht wahrscheinlich der größte Albtraum ist Wir haben es mit Big Data und Analytics zu tun und müssen ständig die Dinge reparieren, die sie tun, bis hin zu einfachen Dingen wie Datumsangaben und Feldern. Die Leute bringen sie in das falsche Format.

Aber wie gesagt, Internet-Suchmaschinen haben die Welt jeden Tag indiziert, und jetzt stellen wir uns die Idee, dass dies für Geschäftsdatensätze im Erkennungsprozess und für Tools und Systeme jetzt möglich ist sofort verfügbar, da Sie gleich lernen werden. Aus meiner Sicht besteht der Trick darin, die richtigen Werkzeuge auszuwählen, die besten Werkzeuge für den Job. Und noch passender ist es, den richtigen Teil zu finden, um Ihnen den Einstieg in diesen Weg zu erleichtern. Und ich glaube, wir werden heute davon hören, aber bevor wir das tun, gehe ich zu meinem College, Robin Bloor, und höre, wie er das Thema aufgreift. Robin, kann ich zu dir übergehen?

Robin Bloor: Ja, sicher kannst du. Mal sehen, ob das funktioniert, oh ja. Okay, ich komme aus einer anderen Richtung als Dez, aber ich werde am selben Ort enden. Hier geht es um das Verbinden mit Daten, also dachte ich mir, ich würde die Realität des Verbindens mit Daten Punkt für Punkt durchgehen.

Es ist eine Tatsache, dass Daten fragmentierter sind als jemals zuvor. Das Datenvolumen wächst phänomenal, aber tatsächlich wachsen auch die verschiedenen Datenquellen mit einer unglaublichen Geschwindigkeit, und daher werden die Daten von Zeit zu Zeit zunehmend fragmentiert. Aber gerade wegen der Analytics-Anwendungen - aber das sind nicht die einzigen Anwendungen - haben wir einen wirklich guten Grund, uns mit all diesen Daten zu verbinden. Wir stecken an einem schwierigen Ort fest, wir stecken in einer Welt fragmentierter Daten fest. und es gibt eine Gelegenheit in den Daten, wie Dez sie nannte, das neue Öl.

Daten lebten früher auf rotierenden Festplatten, entweder in Dateisystemen oder in Datenbanken. Jetzt lebt es in einer viel vielfältigeren Umgebung, es lebt in Dateisystemen, aber es lebt heutzutage auch in Hadoop-Instanzen oder sogar Spark-Instanzen. Es lebt in mehreren Arten von Datenbanken. Vor nicht allzu langer Zeit haben wir eine Art relationale Datenbank standardisiert. Sie wissen, dass dies in den letzten fünf Jahren nicht mehr möglich war, da Dokumentendatenbanken und Graphendatenbanken erforderlich sind geändert. Also lebte es von sich drehenden Festplatten, aber jetzt lebt es von SSD. Die neueste Menge an SSD - definitiv die neueste SSD-Einheit - stammt von Samsung - 20 Gigabyte, was riesig ist. Jetzt lebt es im Speicher, in dem Sinne, dass sich die Hauptkopie der Daten im Speicher befinden kann und nicht auf der Festplatte. Wir haben früher solche Systeme nicht gebaut. das machen wir jetzt. Und es lebt in der Wolke. Das heißt, es kann in all diesen Dingen leben, in der Cloud werden Sie nicht unbedingt wissen, wo es sich in einer Cloud befindet, Sie werden nur die Adresse haben.

Nur um den Punkt nach Hause zu rammen, ist Hadoop bisher als erweiterbarer Datenspeicher gescheitert. Wir hatten gehofft, es würde ein erweiterbarer skalierbarer Datenspeicher werden, und es würde nur ein Dateisystem für alles werden, und es würde - im Grunde genommen würden Regenbogen am Himmel erscheinen, und Einhörner würden herumtanzen, und nichts davon geschah. Das bedeutet, dass wir am Ende ein Problem mit dem Datentransport haben und dass es manchmal keine Notwendigkeit für den Datentransport gibt, aber es ist auch eine Schwierigkeit. Daten haben heutzutage wirklich Schwerkraft, wenn Sie erst einmal in die Multi-Terabyte-Größenordnung von Daten eingestiegen sind, sie aufgesammelt und herumgeworfen haben, kommt es zu Latenzen in Ihrem Netzwerk oder an verschiedenen Stellen. Wenn Sie Daten transportieren möchten, ist das Timing ein Faktor. Heutzutage gibt es fast immer Grenzen dafür, wie viel Zeit Sie haben, um eine Sache, Daten von einem Ort an einen anderen zu bekommen. Früher gab es das, was wir als Batch-Fenster dachten, als die Maschine im Leerlauf war und egal wie viele Daten Sie hatten, Sie konnten sie einfach herumwerfen und es würde alles funktionieren. Nun, das ist weg, wir leben in einer viel realistischeren Welt. Daher ist das Timing ein Faktor. Sobald Sie Daten verschieben möchten, können Sie sie wahrscheinlich nicht mehr verschieben, wenn die Daten die Schwerkraft haben.

Datenverwaltung ist ein Faktor in dem Sinne, dass Sie tatsächlich alle diese Daten verwalten müssen. Sie erhalten dies nicht kostenlos, und möglicherweise ist eine Replikation erforderlich, damit die Daten tatsächlich die Aufgabe erfüllen, die sie erfüllen müssen, weil Es kann sein, dass es nicht da ist, wo Sie es hingestellt haben. Möglicherweise sind nicht genügend Ressourcen vorhanden, um die Daten normal zu verarbeiten. Daten werden also repliziert, und Daten werden mehr repliziert, als Sie sich vorstellen können. Ich glaube, jemand hat mir vor langer Zeit erzählt, dass die durchschnittliche Datenmenge mindestens zweieinhalb Mal repliziert wird. ESBs oder Kafka stellen eine Option für den Datenfluss dar, erfordern jedoch heutzutage Architektur. Heutzutage muss man wirklich auf die eine oder andere Weise darüber nachdenken, was es eigentlich bedeutet, die Daten herumzuwerfen. Daher ist es in der Regel vorzuziehen, auf Daten dort zuzugreifen, wo sie sind, solange Sie natürlich die Leistung erhalten, die Sie benötigen, wenn Sie die Daten tatsächlich abrufen, und dies hängt vom Kontext ab. Es ist also sowieso eine schwierige Situation. In Bezug auf Datenabfragen waren wir früher in der Lage, in Bezug auf SQL zu denken. Wir sind jetzt wirklich aufgetaucht. Sie wissen, verschiedene Formen von Abfragen, SQL ja, aber nebenstehende, auch grafische Abfragen, Spark ist nur ein Beispiel dafür Grafik zu machen, weil wir auch Textsuche machen müssen, mehr als je zuvor, auch Regex-Art der Suche, die wirklich komplizierte Suche nach Mustern und echte Mustererkennung ist, all diese Dinge sprudeln tatsächlich aus. Und alle von ihnen sind nützlich, weil sie Ihnen das geben, wonach Sie suchen, oder weil sie Ihnen das geben können, wonach Sie suchen.

Abfragen erstrecken sich heutzutage über mehrere Daten, so dass dies nicht immer der Fall war, und häufig ist die Leistung in diesem Fall erschreckend. Es hängt also von den Umständen ab, aber die Benutzer erwarten, Daten aus mehreren Datenquellen abfragen zu können, sodass der Datenverbund der einen oder anderen Art immer aktueller wird. Sehr häufig ist auch die Datenvirtualisierung, die je nach Leistung eine andere Methode darstellt. Datenabfragen sind eigentlich ein Teil eines Prozesses, nicht der gesamte Prozess. Es sei nur darauf hingewiesen, dass die eigentliche Analyse erheblich länger dauern kann als die Datenerfassung, da dies von den Umständen abhängt. Datenabfragen sind jedoch eine absolute Notwendigkeit, wenn Sie dies tun möchten Art von Analyse für mehrere Datenquellen, und es ist nur so, dass Sie wirklich über Fähigkeiten verfügen müssen, die sich erstrecken.

Also über Kataloge. Kataloge existieren aus einem Grund, zumindest sagen wir, dass wir Verzeichnisse und Schemata in Datenbanken haben, und wir haben jeden Katalog und wir haben, wo immer Sie hingehen, Sie werden einen Ort finden und dann werden Sie es tatsächlich tun Finden Sie heraus, dass es eine Art Katalog gibt, und der einheitliche globale Katalog ist eine offensichtlich gute Idee. Aber nur sehr wenige Unternehmen haben so etwas. Ich erinnere mich, damals im Jahr zweitausend - das Jahr zweitausend in Panik - erinnere ich mich, dass Kommunisten nicht einmal genau wissen konnten, wie viele ausführbare Dateien sie hatten, egal wie viele verschiedene Datenspeicher sie hatten, und das ist wahrscheinlich jetzt der Fall Sie wissen, dass die meisten Unternehmen nicht aktiv im globalen Sinne wissen, welche Daten sie haben. Offensichtlich wird es jedoch immer notwendiger, tatsächlich einen globalen Katalog zu haben oder zumindest ein globales Bild davon zu erhalten, was aufgrund des Wachstums der Datenquellen und des kontinuierlichen Wachstums der Anwendungen vor sich geht, und dies ist insbesondere für die Analyse erforderlich. weil Sie auch auf eine Art und Weise, und es gibt andere Probleme hier wie Abstammung und Probleme mit den Daten, und es ist für die Sicherheit notwendig, viele Aspekte der Daten-Governance, wenn Sie wirklich nicht wissen, welche Daten Sie haben, die Idee dass du regieren wirst, ist einfach absurd. Alle Daten werden auf irgendeine Weise katalogisiert. Dies ist nur eine Tatsache. Die Frage ist, ob der Katalog kohärent ist und was Sie damit machen können. Also gehe ich zurück zu Rebecca.

Rebecca Jozwiak: Okay, danke Robin. Als nächstes haben wir David Crawford von Alation. David, ich werde den Ball weitergeben und Sie können ihn wegnehmen.

David Crawford: Vielen Dank. Ich weiß es wirklich zu schätzen, dass ihr mich in dieser Show habt. Ich denke, ich werde damit anfangen, also denke ich, meine Aufgabe hier ist es, einen Teil dieser Theorie zu übernehmen und zu sehen, wie sie tatsächlich angewendet wird und welche Ergebnisse wir bei echten Kunden erzielen können, und wie Sie sehen können Ein paar auf der Folie, ich möchte darüber sprechen, welche Ergebnisse wir in der Analyse möglicherweise Verbesserungen sehen können. Um die Diskussion anzuregen, werden wir darüber sprechen, wie sie dorthin gekommen sind. Ich habe das Glück, mit vielen wirklich intelligenten Leuten, diesen Kunden, ziemlich eng zusammenzuarbeiten, und ich möchte nur einige hervorheben, die tatsächlich messen konnten, und darüber sprechen, wie sich ein Datenkatalog auf ihren Analysten ausgewirkt hat Arbeitsablauf. Und um ganz kurz an der Spitze zu bleiben, denke ich, dass sich bei Datenkatalogen gegenüber früheren vermittelten Lösungen etwas ändert, und dass die Beziehungen bei den Lösungen, die wir zusammenstellen, von den Analysten ausgehen und rückwärts arbeiten. Lassen Sie uns zum Beispiel die Produktivität von Analysten steigern. Im Gegensatz zu Compliance oder Inventar entwickeln wir ein Tool, mit dem Analysten produktiver arbeiten können.

Wenn ich mit einem Datenwissenschaftler des Finanzdienstleistungsunternehmens Square spreche, gibt es einen Typen, Nick, der uns erzählt hat, wie er ist. Früher hat er mehrere Stunden gebraucht, um den richtigen Datensatz zu finden, um einen Bericht zu erstellen. Jetzt kann er Mit der Suche nach Marktanteilen haben wir in Sekundenschnelle mit dem CTO gesprochen, der seine Analysten, die Square nutzten, entschuldigte, Alation nutzte, um herauszufinden, welche Vorteile sie sahen, und sie berichteten über 50 Prozent Produktivitätssteigerung, und dass eBay, einer der weltweit führenden Einzelhändler, über tausend Leute hat, die regelmäßig SQL-Analysen durchführen, und ich ziemlich eng mit Deb Says zusammenarbeite, der das Projekt ist Als Managerin in ihrem Datentools-Team stellte sie fest, dass Abfrager, die Alation und einen Katalog übernehmen, doppelt so schnell neue Abfragen für die Datenbank schreiben.

Das sind also echte Ergebnisse, das sind Leute, die den Katalog tatsächlich in ihrer Organisation anwenden, und ich möchte Sie durch das führen, was es braucht, um eingerichtet zu werden. Wie sich ein Katalog in einem Unternehmen etabliert, und vielleicht das Wichtigste ist, dass vieles automatisch geschieht. Deshalb sprach Dez über Systeme, lernte über Systeme und genau das macht ein moderner Datenkatalog. Daher installieren sie Alation in ihrem Rechenzentrum und verbinden es dann mit verschiedenen Metadatenquellen in ihrer Datenumgebung. Ich werde mich ein wenig auf die Datenbanken und die BI-Tools konzentrieren - aus beiden extrahieren wir technische Metadaten, die im Grunde genommen vorhanden sind. Richtig, also welche Tische? Welche Berichte? Was sind die Berichtsdefinitionen? Sie extrahieren diese technischen Metadaten, und für jedes Objekt in diesen Systemen wird automatisch eine Katalogseite erstellt. Anschließend extrahieren sie diese technischen Metadaten und fügen sie den Nutzungsdaten hinzu. Dies geschieht hauptsächlich durch Lesen von Abfrageprotokollen aus der Datenbank, und dies ist eine wirklich interessante Informationsquelle. Wann immer ein Analyst eine Abfrage schreibt, wann immer ein Berichterstellungstool, unabhängig davon, ob es von Haus aus oder von der Stange ist, ob ein Berichterstellungstool eine Abfrage ausführt, um das Dashboard zu aktualisieren, wenn eine Anwendung eine Abfrage zum Einfügen von Daten für die Verarbeitung ausführt Ein Datensatz - all diese Dinge werden in Datenbank-Abfrageprotokollen erfasst. Unabhängig davon, ob Sie einen Katalog haben oder nicht, werden diese im Abfrageprotokoll mit der Datenbank erfasst. Was ein Datenkatalog leisten kann und insbesondere was der Katalog von Alation leisten kann, ist, diese Protokolle zu lesen, die darin enthaltenen Abfragen zu stellen und eine wirklich interessante Verwendungsgrafik auf der Grundlage dieser Protokolle zu erstellen. Wir bringen dies ins Spiel, um zukünftige Benutzer zu informieren der Daten darüber, wie frühere Benutzer der Daten sie verwendet haben.

Wir bringen all dieses Wissen in einem Katalog zusammen und um dies zu realisieren, sind dies die Integrationen, die bereits bei Kunden implementiert wurden. Wir haben also Oracle, Teradata, Redshift, Vertica und viele andere gesehen relationale Datenbanken. In der Hadoop-Welt gibt es eine Reihe von SQL-Anweisungen auf Hadoop, eine Art relationaler Meta-Stores auf dem Hadoop-Dateisystem, Impala, Tez, Presto und Hive. Auch Cloud-Hadoop-Privatanbieter wie Altiscale und wir haben Erfolge erzielt Darüber hinaus konnten sie Verbindungen zu Tableau-Servern und MicroStrategy-Servern herstellen und die Dashboards dort indizieren sowie Integrationen in Data Science-Diagrammtools wie Plotly vornehmen.

Wir verbinden uns also mit all diesen Systemen, wir haben diese Systeme mit Kunden verbunden, wir haben die technischen Metadaten eingezogen, wir haben die Nutzungsdaten eingezogen und wir haben den Datenkatalog sozusagen automatisch vorbereitet, aber auf diese Weise haben wir Das Wissen zu zentralisieren, aber nur Dinge in einem Datenkatalog zu zentralisieren, allein bietet nicht die wirklich wundervollen Produktivitätssteigerungen, über die wir mit eBay, Square und Marktanteilen gesprochen haben. Um dies zu erreichen, müssen wir die Art und Weise ändern, in der wir darüber nachdenken, Wissen an Analysten weiterzugeben. Eine der Fragen, die sie stellen, um sich darauf vorzubereiten, lautete: "Wie wirkt sich der Katalog tatsächlich auf den Workflow eines Analysten aus?"

Darüber haben wir den ganzen Tag nachgedacht, und um über diese Änderung des Denkens eines Push-versus-Pull-Modells zu sprechen, wollte ich eine kurze Analogie zu dem machen, wie die Welt vor und nach dem Lesen auf einem Kindle aussah. Es ist also nur eine Erfahrung, die einige von Ihnen haben könnten, wenn Sie ein physisches Buch lesen, Sie auf ein Wort stoßen, Sie nicht sicher sind, ob Sie die Definition dieses Wortes super gut kennen, Sie können es vielleicht aus dem Kontext erraten, nicht so wahrscheinlich, dass Sie Sie werden von der Couch aufstehen, zu Ihrem Bücherregal gehen, Ihr Wörterbuch finden, es abstauben und zur richtigen Stelle in der alphabetischen Liste der Wörter blättern, um sicherzustellen, dass Sie diese Definition genau richtig hatten und wissen die Nuancen davon. Also passiert es nicht wirklich. Wenn Sie also eine Kindle-App kaufen und dort anfangen, Bücher zu lesen, sehen Sie ein Wort, bei dem Sie sich nicht ganz sicher sind, und Sie berühren das Wort. Plötzlich befindet sich auf demselben Bildschirm die Wörterbuchdefinition des Wortes mit all seinen Nuancen, verschiedenen Beispielgebrauchsarten, und Sie streichen ein wenig, und Sie erhalten einen Wikipedia-Artikel zu diesem Thema. Streichen Sie erneut, Sie erhalten ein Übersetzungswerkzeug, das es in andere Sprachen oder aus anderen Sprachen übersetzen kann, und auf einmal sind Ihre Sprachkenntnisse um ein Vielfaches reicher, und es passiert erstaunlich oft, verglichen mit dem Zeitpunkt, zu dem Sie hin mussten Ziehen Sie diese Ressource für sich.

Ich werde also argumentieren, dass der Workflow für einen Analysten und die Art und Weise, wie ein Analyst mit Datendokumentation umgeht, tatsächlich sehr ähnlich ist, wie ein Leser mit dem Wörterbuch interagiert, sei es physisch oder durch das Kindle, und was wir wirklich gesehen haben, ist, dass wir den Katalog nicht verschütten, sondern mit dem Workflow des Analytikers in Verbindung bringen. Deshalb haben sie mich gebeten, hier eine Demo zu machen, und ich möchte um das in den Mittelpunkt dieser Präsentation zu stellen. Aber ich möchte nur den Kontext für die Demo einrichten. Wenn wir darüber nachdenken, das Datenwissen an die Benutzer weiterzugeben, wenn sie es benötigen, denken wir, dass der richtige Ort dafür, der Ort, an dem sie ihre Zeit verbringen und an dem sie die Analyse durchführen, ein SQL-Abfragetool ist. Ein Ort, an dem Sie SQL-Abfragen schreiben und ausführen. Und so haben wir eines erstellt, und wir haben es erstellt, und das, was sich wirklich von anderen Abfragetools unterscheidet, ist die tiefe Integration in den Datenkatalog.

Deshalb heißt unser Abfragetool Alation Compose. Es ist ein webbasiertes Abfragetool und ich zeige es Ihnen in einer Sekunde. Ein webbasiertes Abfragetool, das mit allen Datenbanklogos funktioniert, die Sie auf der vorherigen Folie gesehen haben. Was ich versuchen werde, um insbesondere zu demonstrieren, ist die Art und Weise, wie die Kataloginformationen an Benutzer gelangen. Und das auf drei verschiedene Arten. Dies geschieht durch Eingriffe, und hier kann jemand, der ein Data Governor oder ein Datenverwalter oder eine Art Administrator oder ein Manager ist, sagen: „Ich möchte eine Art Interjekt mit einer Notiz oder einer Warnung in den Workflow und stellen Sie sicher, dass er den Benutzern zum richtigen Zeitpunkt bereitgestellt wird. “Das ist also eine Intervention, und wir werden das zeigen.

Bei intelligenten Vorschlägen verwendet das Tool das gesamte gesammelte Wissen über den Katalog, um Objekte und Teile einer Abfrage während des Schreibens vorzuschlagen. Das Wichtigste, was Sie dort wissen müssen, ist, dass Sie das Abfrageprotokoll wirklich dazu nutzen, um Dinge basierend auf der Verwendung vorzuschlagen und sogar Teile von Abfragen zu finden, die zuvor geschrieben wurden. Und das werden wir zeigen.

Und dann Vorschauen. Vorschauen sind, wenn Sie den Namen eines Objekts eingeben, alles, was der Katalog weiß, oder zumindest die relevantesten Dinge, die der Katalog über dieses Objekt weiß. Muster der Daten, die sie zuvor verwendet hatten, der logische Name und die Beschreibung dieses Objekts werden Ihnen also angezeigt, während Sie es schreiben, ohne danach fragen zu müssen.

Also, ohne weiter zu reden, komme ich zur Demo und warte nur darauf, dass sie erscheint. Was ich Ihnen hier zeigen werde, ist das Abfragetool. Es ist eine dedizierte SQL-Schreiboberfläche. In gewissem Sinne ist es eine vom Katalog getrennte Schnittstelle. Dez und Robin haben über den Katalog gesprochen, und ich überspringe ein wenig die Katalogschnittstelle, um zu erfahren, wie er direkt in den Workflow eingespeist wird.

Ich zeige hier nur eine Stelle, an der ich SQL eingeben kann, und unten sehen Sie, dass Informationen zu den Objekten angezeigt werden, auf die wir verweisen. Ich beginne also mit der Eingabe einer Abfrage und höre auf, wenn ich eine dieser Eingriffe erhalte. Also gebe ich "select" ein und ich möchte das Jahr. Ich möchte den Namen. Und ich werde ein paar Gehaltsdaten nachschlagen. Das ist also ein Bildungsdatensatz. Es enthält Informationen zu Hochschuleinrichtungen, und ich schaue mir das durchschnittliche Gehalt der Fakultäten an, das in einer dieser Tabellen angegeben ist.

Also habe ich tatsächlich das Wort „Gehalt“ eingegeben. Es steht so nicht genau im Namen der Spalte. Wir verwenden sowohl die logischen Metadaten als auch die physischen Metadaten, um Vorschläge zu machen. Und was ich hier hervorheben möchte, ist dieses gelbe Kästchen, das hier auftaucht. In dieser Spalte steht eine Warnung. Ich habe nicht danach gesucht, ich habe nicht gelernt, wie man diese Daten richtig verwendet. Es ist mir aufgefallen, und es ist zufällig eine Warnung vor einer Vertraulichkeitsvereinbarung, die mit diesen Daten zu tun hat. Es gibt also einige Offenlegungsregeln. Wenn ich diese Daten abfragen werde, werde ich Daten aus dieser Tabelle entnehmen. Ich sollte vorsichtig sein, wie ich sie weitergebe. Sie haben hier also eine Governance-Richtlinie. Es gibt einige Konformitätsprobleme, die die Einhaltung dieser Richtlinie so viel einfacher machen, wenn ich zu dem Zeitpunkt, an dem ich die Daten betrachte, davon weiß.

Das kommt also auf mich zu, und dann werde ich mir auch die Nachhilfe ansehen. Und hier kommen die Vorschauen ins Spiel. In dieser Unterrichtsspalte sehe ich - es gibt eine Unterrichtsspalte auf der Institutionstabelle, und ich sehe ein Profil davon. Alation holt Beispieldaten aus den Tabellen und zeigt mir in diesem Fall etwas ziemlich Interessantes. Es zeigt mir die Verteilung der Werte, und es zeigt mir, dass der Nullwert 45-mal in der Stichprobe aufgetaucht ist und mehr als jeder andere Wert. Ich habe also ein gewisses Gefühl, dass uns Daten fehlen könnten.

Wenn ich ein fortgeschrittener Analyst bin, ist dies möglicherweise bereits Teil meines Workflows. Vor allem, wenn ich besonders akribisch bin und vorher einige Profilerstellungsabfragen durchgeführt habe. Wenn ich mich einem neuen Datenelement nähere, denke ich immer daran, wie unsere Datenabdeckung ist. Aber wenn ich neu in der Datenanalyse bin, wenn ich neu in diesem Datensatz bin, kann ich davon ausgehen, dass eine Spalte immer ausgefüllt ist, wenn sie vorhanden ist. Oder ich könnte annehmen, dass wenn es nicht ausgefüllt ist, es nicht null ist, es null ist oder so ähnlich. Aber in diesem Fall haben wir viele Nullen, und wenn ich einen Durchschnitt gebildet hätte, wären sie wahrscheinlich falsch, wenn ich nur angenommen hätte, dass diese Nullen tatsächlich Null sind, anstatt Daten zu fehlen.

Durch das Einfügen dieser Vorschau in Ihren Workflow fordert Alation Sie jedoch auf, einen Blick auf diese Informationen zu werfen, und bietet selbst unerfahrenen Analysten die Möglichkeit, festzustellen, dass diese Daten etwas zu beachten haben. Wir haben also diese Vorschau.

Als Nächstes versuche ich herauszufinden, aus welchen Tabellen diese Informationen stammen. Hier sehen wir also die klugen Vorschläge. Es ist die ganze Zeit gegangen, aber insbesondere hier habe ich nicht einmal etwas getippt, sondern es wird mir vorschlagen, welche Tabellen ich für diese Abfrage verwenden möchte. Das Wichtigste dabei ist, dass die Nutzungsstatistik genutzt wird. In einer Umgebung wie eBay, in der Sie Hunderttausende von Tabellen in einer einzigen Datenbank haben, ist es daher sehr wichtig, ein Tool zu haben, mit dem die Spreu vom Weizen getroffen werden kann, und diese Verwendungsstatistiken zu verwenden Vorschläge, die etwas wert sind.

Also wird es diese Tabelle vorschlagen. Wenn ich mir die Vorschau anschaue, heben wir tatsächlich drei der Spalten hervor, die ich bereits in meiner Abfrage erwähnt habe. Ich weiß also, dass es drei sind, aber der Name fehlt. Ich muss den Namen herausfinden, also mache ich einen Join. Wenn ich einen Join mache, habe ich jetzt wieder diese Vorschauen, um herauszufinden, wo sich die Tabelle mit dem Namen befindet. Ich sehe also, dass dieser Name einen gut formatierten Namen hat, der in Großbuchstaben geschrieben ist. Es scheint eine Zeile mit einem Namen für jede Institution zu geben, also werde ich darauf zurückgreifen, und jetzt brauche ich eine Beitrittsbedingung.

In diesem Fall blickt Alation erneut auf die Abfrageprotokolle zurück, stellt fest, dass diese beiden Tabellen bereits verknüpft wurden, und schlägt verschiedene Möglichkeiten zum Verknüpfen vor. Es gibt wieder ein Eingreifen. Wenn ich mir eines davon ansehe, wird eine Warnung angezeigt, die besagt, dass dies nur für die Aggregatanalyse verwendet werden sollte. Es wird wahrscheinlich das Falsche produzieren, wenn Sie versuchen, etwas von Institution zu Institution durch die Institution zu tun. In diesem Fall wird mit der OPE-ID die ordnungsgemäße Verknüpfung dieser beiden Tabellen empfohlen, wenn Sie Daten auf Universitätsniveau wünschen. Also mache ich das und es ist eine kurze Abfrage, aber ich habe meine Abfrage geschrieben, ohne wirklich unbedingt einen Einblick in die Daten zu haben. Ich habe mir noch nie ein ER-Diagramm dieses Datensatzes angesehen, aber ich weiß bereits viel über diese Daten, da die relevanten Informationen zu mir kommen.

Auf diese drei Arten kann sich ein Katalog über ein integriertes Abfragetool direkt auf den Workflow auswirken, während Sie Abfragen schreiben. Ein weiterer Vorteil der Integration eines Abfrage-Tools in einen Katalog besteht darin, dass ich nach Abschluss der Abfrage und dem Speichern der Abfrage einen Titel wie „Gehalt der Institution und der Fakultät“ einfügen kann und dann hier eine Schaltfläche habe Erlaubt mir, es einfach im Katalog zu veröffentlichen. Es wird sehr einfach für mich, dies zu bestätigen. Auch wenn ich es nicht veröffentliche, wird es als Teil des Abfrageprotokolls erfasst, aber wenn ich es veröffentliche, wird es tatsächlich Teil der Art und Weise, an der sich das gesamte Datenwissen an einem zentralen Ort befindet.

Wenn ich in Alation auf "Nach allen Abfragen suchen" klicke, wird die Suche fortgesetzt. Hier sehen Sie einige weitere Informationen zur Katalogschnittstelle. Es wird eine dedizierte Abfragesuche durchgeführt, die zeigt, wie Abfragen in verschiedenen Bereichen gefunden werden können die gesamte Organisation. Und Sie sehen, dass meine neu veröffentlichte Abfrage ganz oben steht. Und einige werden hier vielleicht bemerken, dass wir beim Erfassen der Abfragen auch die Autoren erfassen und diese Beziehung zwischen mir als Autor und diesen Datenobjekten, über die ich jetzt etwas weiß, irgendwie herstellen. Und ich werde als Experte für diese Abfrage und für diese Datenobjekte etabliert. Das ist wirklich hilfreich, wenn die Leute etwas über Daten lernen müssen und dann die richtige Person finden, über die sie lernen möchten. Und wenn mir Daten tatsächlich neu sind, egal ob ich ein fortgeschrittener Analyst bin - als fortgeschrittener Analyst kann ich mir dies ansehen und eine Reihe von Beispielen ansehen, die mir den Einstieg in einen neuen Datensatz ermöglichen. Als jemand, der sich mit SQL nicht besonders gut auskennt, kann ich vorgefertigte Abfragen finden, die Berichte sind, die ich nutzen kann.

Hier ist einer von Phil Mazanett über die mittleren SAT-Werte. Wenn Sie darauf klicken, wird eine Art Katalogseite für die Abfrage angezeigt. Es handelt sich um einen Artikel, in dem auf diese Abfrage verwiesen wird. Daher muss ich eine Dokumentation lesen, wenn ich lernen möchte, wie man sie verwendet. Und ich kann es im Abfragetool öffnen, indem ich auf die Schaltfläche Verfassen klicke, und ich kann es hier einfach selbst ausführen, ohne es zu bearbeiten. Tatsächlich erhalten Sie einen Einblick in unsere einfachen Berichtsfunktionen, bei denen Sie beim Schreiben einer Abfrage eine solche Vorlagenvariable einfügen und auf einfache Weise ein Formular zum Ausführen einer Abfrage erstellen können auf ein paar Parameter.

Das ist es also, was ich für die Demo habe. Ich werde wieder zu den Folien wechseln. Um es noch einmal zusammenzufassen, wir haben gezeigt, wie ein Administrator, ein Data Governor, eingreifen kann, indem er Warnungen auf Objekte platziert, die im Abfragetool angezeigt werden, wie Alation sein Wissen über die Verwendung von Datenobjekten nutzt, um kluge Vorschläge zu machen, und wie es bringt Informationen zur Profilerstellung und andere Tipps zur Verbesserung der Arbeitsabläufe von Analysten, wenn sie bestimmte Objekte berühren, und zur Rückmeldung all dieser Arten in den Katalog, wenn neue Abfragen geschrieben werden.

Offensichtlich bin ich im Namen des Unternehmens ein Sprecher. Ich werde nette Dinge über Datenkataloge sagen. Wenn Sie direkt von einem unserer Kunden hören möchten, leitet Kristie Allen von Safeway ein Analystenteam und hat eine wirklich coole Geschichte über eine Zeit, in der sie wirklich die Uhr schlagen musste, um ein Marketingexperiment zu liefern, und wie ihr ganzes Das Team nutzte Alation, um bei diesem Projekt zusammenzuarbeiten und sich schnell umzukehren. Sie können also diesem bit.ly-Link folgen, um sich die Geschichte anzusehen, oder wenn Sie etwas darüber erfahren möchten, wie Alation einen Datenkatalog in Ihr Unternehmen einbringen kann, erstellen wir gerne eine personalisierte Demo. Danke vielmals.

Rebecca Jozwiak: Vielen Dank, David. Ich bin mir sicher, dass Dez und Robin ein paar Fragen haben, bevor ich mich den Fragen und Antworten des Publikums zuwende. Dez, willst du zuerst gehen?

Dez Blanchfield: Auf jeden Fall . Ich liebe die Idee dieses Konzepts von veröffentlichten Abfragen und die Verknüpfung mit der Quelle des Authorings. Ich bin ein langjähriger Verfechter dieser Idee eines Inhouse-App-Stores, und ich denke, dies ist eine wirklich gute Grundlage, um darauf aufzubauen.

Ich bekam einen Einblick in einige der Organisationen, die Sie dabei beobachten, und in einige der Erfolgsgeschichten, die sie auf dieser ganzen Reise hatten, als sie nicht nur Ihr Tool und Ihre Plattform für die Ermittlung der Daten nutzten, sondern auch auch dann wandeln sich ihre inneren kulturellen und Verhaltensmerkmale herum. Jetzt gibt es eine Art Inhouse-App-Store, in dem Sie sie einfach herunterladen können, und das Konzept, in dem sie sie nicht nur finden, sondern auch kleine Communities mit den Besitzern dieses Wissens aufbauen können.

David Crawford: Ja, ich denke wir waren überrascht. Wir glauben an den Wert des Teilens von Anfragen, sowohl von meiner Vergangenheit als Produktmanager bei Adtech als auch von allen Kunden, mit denen wir gesprochen haben, aber ich war immer noch überrascht, wie oft es eines der allerersten Dinge ist, die Kunden haben Sprechen Sie über den Wert, den sie aus Alation ziehen.

Ich habe das Abfragetool bei einem unserer Kunden mit dem Namen Invoice2go einem Benutzertest unterzogen, und er hatte einen relativ neuen Produktmanager. Er sagte mir tatsächlich, während des Benutzertests unaufgefordert: „Das würde ich eigentlich nicht Ich schreibe überhaupt SQL, mit der Ausnahme, dass es durch Alation leicht gemacht wird. “Und natürlich frage ich mich als Premierminister:„ Was meinst du, wie haben wir das gemacht? “Und er sagte:„ Nun, wirklich, es ist einfach weil ich mich einloggen und all diese vorhandenen Abfragen sehen kann. “Mit einer leeren Tabelle mit SQL anzufangen ist eine unglaublich schwierige Aufgabe, aber eine vorhandene Abfrage zu ändern, bei der Sie das Ergebnis sehen, das ausgegeben wird, und Sie können sagen: "Oh, ich brauche nur diese zusätzliche Spalte" oder "Ich muss sie nach einem bestimmten Datumsbereich filtern", das ist viel einfacher.

Wir haben solche Nebentätigkeiten gesehen, wie Produktmanager, vielleicht Vertriebsmitarbeiter, die anfangen, SQL zu lernen und es mithilfe dieses Katalogs zu erlernen. Wir haben auch gesehen, dass viele Unternehmen versucht haben, Open Source zu betreiben. Ich habe versucht, diese Art von Dingen intern zu erstellen, wo sie die Abfragen verfolgen und verfügbar machen, und es gibt einige wirklich knifflige Designherausforderungen, um sie nützlich zu machen. Facebook hatte ein internes Tool namens HiPal, mit dem alle auf Hive geschriebenen Abfragen erfasst wurden. Wenn Sie jedoch feststellen, dass Sie die Benutzer nicht auf die richtige Weise anstupsen, erhalten Sie am Ende nur ein Sehr lange Liste ausgewählter Anweisungen. Und als Benutzer, der herausfinden möchte, ob eine Abfrage für mich nützlich oder nützlich ist, und wenn ich nur eine lange Liste ausgewählter Anweisungen durchschaue, brauche ich viel länger, um etwas aus dem Wert herauszuholen von Anfang an anfangen. Wir haben uns ziemlich genau überlegt, wie wir einen Abfragekatalog erstellen können, der die richtigen Elemente in den Vordergrund stellt und sie auf nützliche Weise bereitstellt.

Dez Blanchfield: Ich denke, wir alle machen diese Reise von einem sehr jungen Alter bis zum Erwachsenenalter in vielerlei Hinsicht durch. Eine Reihe von Technologien. Ich persönlich habe genau dasselbe durchgemacht und gelernt, Code zu schneiden. Ich ging Zeitschriften und dann Bücher durch und lernte bis zu einem gewissen Grad, und dann musste ich mich ein wenig weiterbilden.

Aber versehentlich stellte ich fest, dass ich, selbst wenn ich mich selbst unterrichtete, Zeitschriften las, Bücher las, die Programme anderer Leute schnitt und die Kurse besuchte, immer noch so viel von den Kursen lernte, wie ich nur mit anderen sprach Menschen, die einige Erfahrungen gemacht haben. Und ich denke, dass es eine interessante Entdeckung ist, dass wir jetzt, da Sie das in die Datenanalyse einbringen, im Grunde die gleiche Parallele sehen, dass Menschen immer ziemlich klug sind.

Das andere, was ich wirklich verstehen möchte, ist, dass sich viele Organisationen auf sehr hohem Niveau fragen werden: „Wie lange dauert es, bis dieser Punkt erreicht ist?“ Was ist der Wendepunkt in Bezug auf den Zeitrahmen, wenn die Leute davon betroffen sind Ist Ihre Plattform installiert und sie haben begonnen, die Arten von Tools zu entdecken? Wie schnell sehen die Leute, dass sich diese Sache in einen wirklich unmittelbaren Moment verwandelt, in dem sie erkennen, dass sie sich nicht einmal mehr Sorgen um den ROI machen, weil er da ist, sondern dass sie jetzt tatsächlich die Art und Weise ändern, wie sie Geschäfte machen ? Und sie haben eine verlorene Kunst entdeckt und erwarten, dass sie etwas wirklich, wirklich lustiges damit machen können.

David Crawford: Ja, ich kann ein bisschen darauf eingehen. Ich denke, wenn wir installiert werden, ist eines der schönen Dinge, eines der Dinge, die die Leute an einem Katalog mögen, der direkt mit den Datensystemen verbunden ist, dass Sie nicht leer anfangen, wo Sie es irgendwie ausfüllen müssen Seite für Seite. Dies gilt auch für frühere Datenlösungen, bei denen Sie mit einem leeren Tool beginnen und eine Seite für alles erstellen müssen, was Sie dokumentieren möchten.

Da wir so viele Dinge automatisch dokumentieren, indem wir die Metadaten extrahieren, im Wesentlichen innerhalb weniger Tage nach der Installation der Software, können Sie sich ein Bild Ihrer Datenumgebung machen, das zu mindestens 80 Prozent im Tool vorhanden ist. Und dann denke ich, sobald Leute anfangen, Abfragen mit dem Tool zu schreiben, werden sie automatisch wieder im Katalog gespeichert, und sie werden auch angezeigt.

Ich möchte es nicht zu eifrig ausdrücken. Ich denke, zwei Wochen sind eine ziemlich konservative Schätzung für einen Monat. Zwei Wochen bis zu einem Monat, konservative Schätzung, dass man sich wirklich umdreht und das Gefühl hat, Wert daraus zu ziehen, als würde man anfangen, etwas Wissen zu teilen und in der Lage zu sein, dorthin zu gehen und Dinge über seine Daten herauszufinden.

Dez Blanchfield: Es ist wirklich erstaunlich, wenn man darüber nachdenkt. Die Tatsache, dass einige der großen Datenplattformen, die Sie effektiv indizieren und katalogisieren, manchmal bis zu einem Jahr dauern, bis sie ordnungsgemäß implementiert und bereitgestellt werden.

Die letzte Frage, die ich vor meiner Übergabe an Robin Bloor an Sie gestellt habe, sind die Konnektoren. Eines der Dinge, die mir sofort auffallen, ist, dass Sie diese ganze Herausforderung offensichtlich gelöst haben. So gibt es ein paar Fragen nur sehr schnell. Erstens, wie schnell werden Konnektoren implementiert? Offensichtlich fängt man mit der größten Plattform an, wie den Orakeln und Teradaten und so weiter und DB2s. Aber wie oft sehen Sie neue Konnektoren und wie lange dauert die Bearbeitung? Ich stelle mir vor, Sie haben einen Standardrahmen für sie. Und wie tief gehst du in diese hinein? Zum Beispiel die Orakel und IBMs der Welt und sogar Tereadata, und dann einige der beliebtesten Open-Source-Plattformen der letzten Zeit. Arbeiten sie direkt mit Ihnen zusammen? Findest du es selbst heraus? Müssen Sie über Insiderwissen auf diesen Plattformen verfügen?

Wie sieht es aus, einen Konnektor zu entwickeln, und wie engagieren Sie sich für diese Partnerschaften, um sicherzustellen, dass diese Konnektoren alles entdecken, was Sie können?

David Crawford: Ja, sicher, das ist eine großartige Frage. Ich denke, dass wir die Steckverbinder größtenteils entwickeln können. Wir haben es sicherlich getan, als wir ein jüngeres Startup waren und keine Kunden hatten. Wir können die Verbindungen sicher aufbauen, ohne einen internen Zugang zu benötigen. Wir bekommen nie einen speziellen Zugang zu den Datensystemen, die nicht öffentlich verfügbar sind, und oft ohne Insider-Informationen. Wir nutzen die Metadatendienste, die die Datensysteme selbst zur Verfügung stellen. Oft sind diese recht komplex und schwierig zu bearbeiten. Ich kenne insbesondere SQL Server, die Art und Weise, wie sie das Abfrageprotokoll verwalten, es gibt verschiedene Konfigurationen, und daran muss man wirklich arbeiten. Sie müssen die Nuancen und die Knöpfe und Drehregler verstehen, um es richtig einzurichten, und daran arbeiten wir mit Kunden, seit wir es mehrere Male zuvor getan haben.

Bis zu einem gewissen Grad nutzen wir jedoch öffentliche APIs oder öffentliche Schnittstellen. Wir haben Partnerschaften mit mehreren dieser Unternehmen. Dies ist hauptsächlich ein Grund für die Zertifizierung, damit sie sich wohl fühlen, wenn sie sagen, dass wir arbeiten, und sie können uns Ressourcen für Tests zur Verfügung stellen, manchmal einen frühen Zugang zu einer Plattform, die herauskommt, um dies sicherzustellen Wir arbeiten an den neuen Versionen.

Um eine neue Verbindung herzustellen, würde ich noch einmal sagen und versuchen, konservativ zu sein, sagen wir sechs Wochen bis zwei Monate. Es kommt darauf an, wie ähnlich es ist. Einige der Postgre-Arbeiten sehen also Redshift sehr ähnlich. Redshift und Vertica teilen viele ihrer Details. So können wir diese Dinge ausnutzen. Aber ja, sechs Wochen bis zwei Monate wären fair.

Wir haben auch APIs, so dass wir Alation auch als Metadatenplattform betrachten. Wenn also etwas für uns nicht verfügbar ist, können Sie den Connector auf verschiedene Arten selbst schreiben und in unser System übertragen dass alles immer noch in einer einzigen Suchmaschine zentralisiert wird.

Dez Blanchfield: Fantastisch. Ich weis das zu schätzen. Also werden wir es Robin übergeben, denn ich bin sicher, er hat auch eine Fülle von Fragen. Robin?

Rebecca Jozwiak: Robin ist möglicherweise stumm.

Dez Blanchfield: Du bist stumm.

Robin Bloor: Ja, richtig. Entschuldigung, ich habe mich stumm geschaltet. Wie läuft der Prozess ab, wenn Sie dies implementieren? Ich bin ein bisschen neugierig, weil es an vielen Orten eine Menge Daten geben kann. Wie funktioniert das?

David Crawford: Ja, sicher. Wir gehen hinein, zuerst ist es eine Art IT-Prozess, um sicherzustellen, dass unser Server bereitgestellt ist, dass Netzwerkverbindungen verfügbar sind, dass die Ports offen sind, damit wir tatsächlich auf die Systeme zugreifen können. Sie alle wissen oft, mit welchen Systemen sie beginnen wollen. Wissen innerhalb eines Datensystems, was - und manchmal werden wir ihnen tatsächlich helfen. Wir helfen ihnen dabei, einen ersten Blick auf ihr Abfrageprotokoll zu werfen, um zu verstehen, wer was und wie viele Benutzer auf einem System verwendet. Wir helfen Ihnen dabei, herauszufinden, wo - sie haben oft Hunderte oder Tausende von Personen, die sich in Datenbanken einloggen. Sie wissen also nicht, wo sie sich einloggen Abfrageprotokolle Wie viele eindeutige Benutzerkonten haben Sie tatsächlich angemeldet und Abfragen hier in einem Monat oder so ausgeführt.

Das können wir nutzen, aber oft nur bei den wichtigsten. Wir richten sie ein und sagen dann: "Lasst uns Prioritäten setzen." Es gibt eine Reihe von Aktivitäten, die parallel stattfinden können. Ich würde mich auf die Schulung zur Verwendung des Abfrage-Tools konzentrieren. Wenn die Benutzer das Abfragetool erst einmal verwenden, lieben viele die Tatsache, dass es nur eine einzige Schnittstelle zu all ihren verschiedenen Systemen ist. Sie lieben auch die Tatsache, dass es webbasiert ist und keine Installationen beinhaltet, wenn sie nicht möchten. Vom Standpunkt der Sicherheit aus mögen sie es, einen einzigen Zugangspunkt zu haben, vom Standpunkt des Netzwerks aus gesehen, zwischen einer Art Unternehmens-IT-Netzwerk und dem Rechenzentrum, in dem sich die Produktionsdatenquellen befinden. Daher richten sie Alation als Abfragetool ein und verwenden Compose als Zugriffspunkt für alle diese Systeme.

Sobald dies geschieht, konzentrieren wir uns auf die Schulung und verstehen, was einige der Unterschiede zwischen einem webbasierten oder serverbasierten Abfragetool und einem auf Ihrem Desktop vorhandenen Tool sind und welche Nuancen es hat Das. Gleichzeitig versuchen wir, die wertvollsten Daten zu identifizieren, indem wir wiederum die Informationen aus dem Abfrageprotokoll nutzen und sagen: „Vielleicht möchten Sie die Leute beim Verständnis dieser Informationen unterstützen. Beginnen wir damit, repräsentative Abfragen in diesen Tabellen zu veröffentlichen. “Dies ist manchmal der effektivste Weg, um die Leute sehr schnell in Aufruhr zu versetzen. Lassen Sie uns Ihren eigenen Abfrageverlauf betrachten und diese Dinge veröffentlichen, damit sie als erste Abfragen angezeigt werden. Wenn Leute eine Tabellenseite betrachten, können sie alle Abfragen sehen, die diese Tabelle berührt haben, und von dort aus beginnen. Beginnen wir dann damit, diesen Objekten Titel und Beschreibungen hinzuzufügen, damit sie leichter zu finden und zu suchen sind, damit Sie einige Nuancen ihrer Verwendung kennen.

Wir stellen sicher, dass wir uns das Abfrageprotokoll genau ansehen, damit wir eine Abstammungslinie erstellen können. Eines der Dinge, die wir tun, ist, das Abfrageprotokoll zu durchsuchen, wenn Daten von einer Tabelle in eine andere verschoben werden. Auf diese Weise können wir eine der am häufigsten gestellten Fragen zu einer Datentabelle stellen: Woher stammt diese? Wie vertraue ich dem? Wir können also nicht nur zeigen, von welchen anderen Tabellen es stammt, sondern auch, wie es sich auf diesem Weg verändert hat. Dies wird wiederum vom Abfrageprotokoll gesteuert.

Wir stellen also sicher, dass diese Dinge eingerichtet sind und dass wir die Abstammung in das System einbinden, und zielen auf die wertvollsten und am besten nutzbaren Metadaten, die wir auf den Tabellenseiten erstellen können Wenn Sie suchen, finden Sie etwas Nützliches.

Robin Bloor: Okay. Die andere Frage - es gibt eine Menge Fragen vom Publikum, deshalb möchte ich hier nicht zu viel Zeit in Anspruch nehmen - die andere Frage, die mir in den Sinn kommt, sind nur die Schmerzpunkte. Eine Menge Software wurde gekauft, weil die Leute auf die eine oder andere Weise Schwierigkeiten mit etwas haben. Was ist der häufigste Schmerzpunkt, der Menschen zu Alation führt?

David Crawford: Ja. Ich denke, es gibt ein paar, aber ich denke, einer derjenigen, die wir ziemlich oft hören, ist Analyst Onboarding. "Ich werde in naher Zukunft 10, 20, 30 Mitarbeiter einstellen müssen, die neue Erkenntnisse aus diesen Daten gewinnen müssen. Wie werden sie auf den neuesten Stand gebracht?" angehen. Außerdem müssen die Senior Analysten nicht mehr die ganze Zeit damit verbringen, Fragen anderer zu Daten zu beantworten. Das ist auch sehr häufig. Und beide sind im Wesentlichen Bildungsprobleme.

Und dann würde ich sagen, ein anderer Ort, an dem Menschen Alation einführen, ist, wenn sie eine brandneue Datenumgebung für jemanden einrichten möchten, in der sie arbeiten können. Sie möchten dies intern bewerben und vermarkten, damit die Menschen davon profitieren können. Dann ist es sehr ansprechend, Alation zum Front-End für diese neue Analyseumgebung zu machen. Es hat die Dokumentation, es hat einen einzigen Einstiegspunkt - einen einzigen Zugangspunkt zu den Systemen, und das ist ein weiterer Ort, an dem die Leute zu uns kommen.

Robin Bloor: Okay, ich gebe dich an Rebecca weiter, weil das Publikum versucht, dich zu erreichen.

Rebecca Jozwiak: Ja, wir haben hier viele wirklich gute Publikumsfragen. Und David, dieser wurde speziell für dich gestellt. Es ist von jemandem, der offenbar Erfahrung mit Menschen hat, die Abfragen missbrauchen, und er sagt, dass es umso schwieriger ist, verantwortungsbewussten Umgang mit Rechenressourcen zu regeln, je mehr wir die Benutzer befähigen. Können Sie sich also gegen die Verbreitung fehlgeleiteter, aber häufig verwendeter Abfragesätze wehren?

David Crawford: Ja, ich sehe diese Frage. Das ist eine großartige Frage, die wir ziemlich häufig bekommen. Ich habe die Schmerzen selbst in früheren Unternehmen gesehen, in denen Sie Benutzer schulen müssen. Zum Beispiel: „Dies ist eine Protokolltabelle, deren Protokolle jahrelang zurückliegen. Wenn Sie eine Abfrage für diese Tabelle schreiben möchten, müssen Sie diese wirklich nach Datum einschränken. “Dies ist beispielsweise eine Schulung, die ich bei einem früheren Unternehmen absolviert habe, bevor mir Zugriff auf die Datenbank gewährt wurde.

Wir haben einige Möglichkeiten, wie wir dies angehen können. Ich würde sagen, dass ich denke, Abfrageprotokolldaten sind wirklich einzigartig wertvoll, um es zu adressieren. Es gibt einen weiteren Einblick in die internen Funktionen der Datenbank mit ihrem Abfrageplaner. Und was wir tun, ist eine dieser Interventionen - wir haben die manuellen Interventionen, die ich gezeigt habe, und das ist nützlich, oder? So können Sie zum Beispiel bei einem bestimmten Join sagen: "Lassen Sie uns dies ablehnen." Es wird eine große rote Fahne haben, wenn es in Smart Suggest auftaucht. Das ist also eine Möglichkeit, Menschen zu erreichen.

Eine andere Sache, die wir tun, ist die Automatisierung bei Interventionen zur Ausführungszeit. Damit wird der Analysebaum der Abfrage tatsächlich verwendet, bevor wir ihn ausführen, enthält er einen bestimmten Filter oder ein paar andere Dinge, die wir dort ebenfalls ausführen. Aber einer der wertvollsten und am einfachsten zu erklärenden ist, enthält er einen Filter? Wie in dem Beispiel, das ich gerade gegeben habe, muss diese Protokolltabelle, wenn Sie sie abfragen möchten, einen Datumsbereich haben. Sie können dort auf der Tabellenseite angeben, dass dieser Datumsbereichsfilter angewendet werden soll. Wenn jemand versucht, eine Abfrage auszuführen, die diesen Filter nicht enthält, wird er tatsächlich mit einer großen Warnung gestoppt und es wird angezeigt: "Sie sollten Ihrer Abfrage wahrscheinlich SQL hinzufügen, das so aussieht." Sie können fortfahren, wenn Sie wollen. Wir werden sie nicht vollständig davon abhalten, es zu verwenden - es ist auch eine Abfrage, es muss am Ende des Tages Abfragen ausführen. Wir stellen ihnen jedoch eine ziemlich große Barriere vor und geben ihnen einen Vorschlag, einen konkreten anwendbaren Vorschlag, um die Abfrage zu ändern, um ihre Leistung zu verbessern.

In einigen Fällen tun wir dies auch automatisch, indem wir das Abfrageprotokoll beobachten. Wenn wir feststellen, dass ein wirklich großer Prozentsatz der Abfragen in dieser Tabelle einen bestimmten Filter oder eine bestimmte Join-Klausel verwendet, wird dies tatsächlich angezeigt. Wir werden das zu einer Intervention befördern. Eigentlich ist es mir auf einem internen Datensatz passiert. Wir haben Kundendaten und Benutzer-IDs, aber die Benutzer-ID ist festgelegt, da es sich um eine Art handelt. Wir haben Benutzer-IDs bei jedem Kunden. Es ist nicht eindeutig, daher müssen Sie es mit einer Client-ID koppeln, um einen eindeutigen Verknüpfungsschlüssel zu erhalten. Ich habe gerade eine Abfrage geschrieben und versucht, etwas zu analysieren. Daraufhin wurde Folgendes angezeigt: „Hey, alle anderen scheinen diese Tabellen sowohl mit der Client-ID als auch mit der Benutzer-ID zu verknüpfen. Sind Sie sicher, dass Sie das nicht wollen? “Und es hat mich tatsächlich davon abgehalten, eine falsche Analyse durchzuführen. Dies wirkt sich sowohl auf die Genauigkeit der Analyse als auch auf die Leistung aus. So nehmen wir dieses Problem an.

Rebecca Jozwiak: Das scheint mir effektiv zu sein. Sie sagten, Sie würden die Leute nicht zwangsläufig daran hindern, Ressourcen zu verschlingen, sondern ihnen beibringen, dass das, was sie tun, möglicherweise nicht das Beste ist, oder?

David Crawford: Wir gehen immer davon aus, dass die Benutzer nicht böswillig sind - geben Sie ihnen die besten Absichten - und wir versuchen, auf diese Weise ziemlich offen zu sein.

Rebecca Jozwiak: Okay. Hier ist eine weitere Frage: „Was ist der Unterschied zwischen einem Katalogmanager wie bei Ihrer Lösung und einem MDM-Tool? Oder hängt es tatsächlich von einem anderen Prinzip ab, indem die Auswahl der Abfragetabellen erweitert wird, wohingegen MDM dies automatisch tun würde, jedoch mit demselben zugrundeliegenden Prinzip zum Sammeln von Metadaten. "

David Crawford: Ja, ich denke, wenn ich traditionelle MDM-Lösungen betrachte, ist der Hauptunterschied ein philosophischer. Es geht nur darum, wer der Benutzer ist. Wie ich zu Beginn meines Vortrags bereits sagte: Alation, ich glaube, als wir gegründet wurden, waren wir mit dem Ziel gegründet worden, es Analysten zu ermöglichen, mehr Einsichten zu gewinnen, sie schneller zu gewinnen und ihre Einsichten genauer zu machen produzieren. Ich glaube nicht, dass dies jemals das Ziel einer traditionellen MDM-Lösung war. Diese Lösungen richten sich in der Regel an Personen, die Berichte darüber erstellen müssen, welche Daten im SCC oder intern für andere Prüfungszwecke erfasst wurden. Es kann manchmal Analysten aktivieren, aber es ist wahrscheinlicher, dass ein Datenarchitekt wie ein DBA aktiviert wird, wenn er einen Praktiker bei seiner Arbeit unterstützt.

Wenn Sie vom Standpunkt eines Analysten aus über die Dinge nachdenken, beginnen Sie damit, ein Abfrage-Tool zu erstellen, das ein MDM-Tool niemals ausführen würde. Das ist der Moment, in dem Sie anfangen, über Leistung und Genauigkeit nachzudenken und zu verstehen, welche Daten mit meinen Geschäftsanforderungen zusammenhängen. All diese Dinge sind Dinge, die uns beim Entwerfen des Werkzeugs in den Sinn kommen. Es geht in unsere Suchalgorithmen ein, es geht in das Layout der Katalogseiten und in die Fähigkeit, Wissen aus der gesamten Organisation einzubringen. Es hängt damit zusammen, dass wir das Abfragetool erstellt haben und dass wir den Katalog direkt darin erstellt haben, also denke ich, dass dies wirklich darauf zurückzuführen ist. Welchen Benutzer haben Sie zuerst im Sinn?

Rebecca Jozwiak: Okay, gut. Das hat mir wirklich geholfen, es zu erklären. der wollte unbedingt die Archive haben, weil er gehen musste, aber er wollte wirklich, dass seine Frage beantwortet wurde. Er sagte, es wurde am Anfang erwähnt, dass es mehrere Sprachen gibt, aber ist SQL die einzige Sprache, die in der Compose-Komponente verwendet wird?

David Crawford: Ja, das stimmt. Und eines der Dinge, die mir aufgefallen sind, als ich die Explosion der verschiedenen Arten von Datenbanken, Dokumentendatenbanken, Diagrammdatenbanken, Schlüsselwertspeichern miterlebte, ist, dass sie für Anwendungsentwicklungen wirklich leistungsstark sind. Sie können dort sehr gut auf bestimmte Bedürfnisse eingehen, besser als relationale Datenbanken.

Aber wenn Sie es zur Datenanalyse zurückbringen, wenn Sie es zurückbringen, wenn Sie diese Informationen an Personen weitergeben möchten, die Ad-hoc-Berichte erstellen oder die Daten ad-hoc auswerten möchten, kehren sie immer zu einer relationalen Beziehung zurück Zumindest Schnittstelle für den Menschen. Ein Teil davon ist nur, weil SQL die Verkehrssprache der Datenanalyse ist, was bedeutet, dass SQL für den Menschen auch für die Tools, die integriert werden, gilt. Ich denke, dies ist der Grund, warum SQL auf Hadoop so beliebt ist und es so viele Lösungsversuche gibt, denn letztendlich wissen die Leute Bescheid. Es gibt wahrscheinlich Millionen von Leuten, die wissen, wie man SQL schreibt, und ich würde nicht Millionen wagen, die wissen, wie man eine Mongo-Aggregations-Pipeline-Framework-Abfrage schreibt. Und das ist eine Standardsprache, die für die Integration auf einer Vielzahl von Plattformen verwendet wird. Alles in allem werden wir sehr selten gebeten, uns davon fernzuhalten, da dies die Schnittstelle ist, die die meisten Analysten verwenden, und hier haben wir uns, insbesondere in Compose, auf das Schreiben von SQL konzentriert.

Ich würde sagen, dass Data Science der Ort ist, an dem sie sich am meisten ins Freie wagen, und deshalb stellen sich gelegentlich Fragen zur Verwendung von Pig oder SAS. Dies sind Dinge, die wir in Compose definitiv nicht behandeln und die wir gerne im Katalog festhalten möchten. Und ich sehe auch R und Python. Wir haben auf verschiedene Arten Schnittstellen erstellt, mit denen Sie die in Alation in R- und Python-Skripten geschriebenen Abfragen verwenden können Quelldaten befinden sich in einer relationalen Datenbank. Sie beginnen mit einer SQL-Abfrage und verarbeiten sie dann weiter und erstellen Diagramme in R und Python. Und wir haben Pakete erstellt, die Sie in die Skripte importieren können, die die Abfragen oder die Abfrageergebnisse von Alation abrufen, damit Sie dort einen gemischten Workflow haben können.

Rebecca Jozwiak: Okay, großartig. Ich weiß, wir sind ein bisschen über die volle Stunde gelaufen, ich werde nur noch ein oder zwei Fragen stellen. Ich weiß, dass Sie über all die verschiedenen Systeme gesprochen haben, mit denen Sie eine Verbindung herstellen können, aber was extern gehostete Daten und intern gehostete Daten anbelangt, kann dies zusammen in Ihrer einzigen Ansicht und auf Ihrer einzigen Plattform gesucht werden?

David Crawford: Sicher. Dafür gibt es einige Möglichkeiten. Ich meine, extern gehostet, würde ich mir vorstellen, ich versuche genau darüber nachzudenken, was das bedeuten könnte. Dies könnte bedeuten, dass jemand eine Datenbank in AWS für Sie hostet. Dies könnte eine öffentliche Datenquelle von data.gov bedeuten. Wir stellen eine direkte Verbindung zu Datenbanken her, indem wir uns wie eine andere Anwendung mit einem Datenbankkonto anmelden und auf diese Weise die Metadaten extrahieren. Wenn wir also ein Konto haben und ein Netzwerkanschluss offen ist, können wir darauf zugreifen. Und wenn wir diese Dinge nicht haben, haben wir eine virtuelle Datenquelle, die es Ihnen ermöglicht, die Dokumentation im Wesentlichen automatisch zu pushen, indem Sie Ihren eigenen Connector schreiben oder sie ausfüllen, indem Sie sie sogar wie einen CSV-Upload durchführen. um die Daten neben Ihren internen Daten zu dokumentieren. Das wird alles in die Suchmaschine gestellt. Es wird in Artikeln und anderen Dokumentationen und Gesprächen im System referenzierbar. So gehen wir vor, wenn wir keine direkte Verbindung zu einem System herstellen können.

Rebecca Jozwiak: Okay, das macht Sinn. Ich werde Ihnen nur noch eine Frage stellen. Ein Teilnehmer ist Fragen: "Wie soll der Inhalt eines Datenkatalogs validiert, überprüft oder gepflegt werden, wenn Quelldaten aktualisiert werden, wenn Quelldaten geändert werden usw."

David Crawford: Ja, es ist eine Frage, die wir oft bekommen, und ich denke, eines der Dinge, die wir - eine unserer Philosophien, wie ich sagte - glauben wir nicht, dass die Benutzer böswillig sind. Wir gehen davon aus, dass sie versuchen, das beste Wissen beizutragen. Sie werden nicht hereinkommen und die Leute absichtlich über die Daten in die Irre führen. Wenn das ein Problem in Ihrer Organisation ist, ist Alation möglicherweise nicht das richtige Werkzeug für Sie. Wenn Sie jedoch davon ausgehen, dass die Benutzer gute Absichten haben, betrachten wir dies als einen Punkt, an dem die Aktualisierungen eingehen. In der Regel beauftragen wir dann einen Verwalter, der für jedes Datenobjekt oder jeden Datenabschnitt zuständig ist. Und wir können diese Stewards benachrichtigen, wenn Änderungen an den Metadaten vorgenommen werden, und sie können auf diese Weise damit umgehen. Sie sehen, dass Aktualisierungen eingehen, sie validieren sie. Wenn sie nicht richtig liegen, können sie sie ändern und informieren und sich hoffentlich sogar an den Benutzer wenden, der die Informationen beigesteuert hat und ihnen beim Lernen hilft.

Das ist also die primäre Art und Weise, wie wir darüber nachdenken. Diese Art von Vorschlägen von der Menge und das Management von den Stewards, also haben wir einige Fähigkeiten dazu.

Rebecca Jozwiak: Okay, gut. Und wenn Sie den Leuten nur mitteilen könnten, wie sie am besten mit Alation beginnen können und wohin sie gehen können, um weitere Informationen zu erhalten. Ich weiß, dass du das ein bisschen geteilt hast. Ist das der beste Ort?

David Crawford: Ich denke, Alation.com/learnmore ist ein guter Weg. Um sich für eine Demo anzumelden, finden Sie auf der Alation.com-Website viele nützliche Ressourcen, Kunden-Whitepaper und Neuigkeiten zu unserer Lösung. Ich denke, das ist ein großartiger Anfang. Sie können auch eine E-Mail.

Rebecca Jozwiak: Okay, großartig. Und ich weiß, Teilnehmer, tut mir leid, wenn ich heute nicht alle Fragen beantwortet habe, aber wenn nicht, werden sie an David oder sein Verkaufsteam oder an jemanden von Alation weitergeleitet, damit sie definitiv helfen können, Ihre Fragen zu beantworten und zu verstehen was Alation macht oder was sie am besten können.

Und damit, Leute, werde ich weitermachen und uns abmelden. Sie finden die Archive immer auf InsideAnalysis.com. Sie finden es auch auf Techopedia.com. Sie neigen dazu, ein bisschen schneller zu aktualisieren, also sehen Sie sich das auf jeden Fall an. Und vielen Dank an David Crawford, Dez Blanchfield und Robin Boor heute. Es war ein großartiger Webcast. Und damit verabschiede ich mich. Danke Leute. Tschüss.

David Crawford: Vielen Dank.