Zuhause Audio Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren?

Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren?

Anonim

Q:

Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren?

EIN:

Datenwissenschaftliche Prozesse im Kontext von maschinellem Lernen und KI können in vier verschiedene Phasen unterteilt werden:

  1. Datenerfassung und -erkundung,
  2. Modellbau,
  3. Modellbereitstellung und
  4. Online-Auswertung und Verfeinerung.

Nach meiner Erfahrung sind die Phasen der Datenerfassung und der Modellbereitstellung in jedem maschinell lernbasierten Data Science-Prozess am hinderlichsten. Sie können auf zwei Arten optimiert werden:

1. Richten Sie einen Datenspeicher mit hohem Zugriff ein.

In den meisten Organisationen werden Daten nicht an einem zentralen Ort gespeichert. Nehmen wir nur Informationen zu Kunden. Sie verfügen über Kundenkontaktinformationen, Kunden-Support-E-Mails, Kundenfeedback und Kundenbrowserverlauf, wenn es sich bei Ihrem Unternehmen um eine Webanwendung handelt. All diese Daten sind auf natürliche Weise verstreut, da sie unterschiedlichen Zwecken dienen. Sie können sich in verschiedenen Datenbanken befinden und einige können vollständig strukturiert und einige unstrukturiert sein und können sogar als reine Textdateien gespeichert werden.

Leider ist die Streuung dieser Datensätze auf datenwissenschaftliche Arbeiten sehr begrenzt, da die Grundlage aller NLP-, maschinellen Lern- und AI-Probleme Daten sind . Daher ist es für die Beschleunigung der Modellentwicklung und -bereitstellung von größter Bedeutung, alle diese Daten an einem Ort zu haben - dem Datenspeicher. Da dies für alle datenwissenschaftlichen Prozesse von entscheidender Bedeutung ist, sollten Unternehmen qualifizierte Dateningenieure einstellen, die sie beim Aufbau ihrer Datenspeicher unterstützen. Dies kann leicht als einfaches Daten-Dump an einem Ort beginnen und langsam zu einem durchdachten Daten-Repository werden, das vollständig dokumentiert und mit Hilfsprogrammen abfragbar ist, um Teilmengen von Daten für verschiedene Zwecke in verschiedene Formate zu exportieren.

2. Stellen Sie Ihre Modelle als Service für eine nahtlose Integration zur Verfügung.

Neben der Ermöglichung des Zugriffs auf Daten ist es auch wichtig, die von Datenwissenschaftlern entwickelten Modelle in das Produkt integrieren zu können. Es kann äußerst schwierig sein, in Python entwickelte Modelle in eine Webanwendung zu integrieren, die unter Ruby ausgeführt wird. Darüber hinaus weisen die Modelle möglicherweise viele Datenabhängigkeiten auf, die Ihr Produkt möglicherweise nicht bereitstellen kann.

Eine Möglichkeit, damit umzugehen, besteht darin, eine starke Infrastruktur um Ihr Modell herum einzurichten und die für Ihr Produkt erforderlichen Funktionen bereitzustellen, um das Modell als „Webdienst“ zu verwenden. Wenn Ihre Anwendung beispielsweise eine Stimmungsklassifizierung für Produktüberprüfungen benötigt Es muss lediglich der Webdienst aufgerufen werden, der den relevanten Text enthält, und der Dienst gibt die entsprechende Stimmungsklassifizierung zurück, die das Produkt direkt verwenden kann. Auf diese Weise erfolgt die Integration einfach in Form eines API-Aufrufs. Das Entkoppeln des Modells und des Produkts, das es verwendet, macht es neuen Produkten wirklich leicht, diese Modelle auch mit wenig Aufwand zu verwenden.

Das Einrichten der Infrastruktur rund um Ihr Modell ist eine ganz andere Sache und erfordert eine hohe Anfangsinvestition Ihrer Entwicklungsteams. Sobald die Infrastruktur vorhanden ist, müssen lediglich Modelle so erstellt werden, dass sie in die Infrastruktur passen.

Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren?