Zuhause Audio Wie ist Data Scraping für maschinelles Lernen zum arbeitsintensivsten Engpass seit der manuellen Dateneingabe in der Legacy-Migration geworden?

Wie ist Data Scraping für maschinelles Lernen zum arbeitsintensivsten Engpass seit der manuellen Dateneingabe in der Legacy-Migration geworden?

Anonim

Q:

Wie ist Data Scraping für maschinelles Lernen zum arbeitsintensivsten Engpass seit der manuellen Dateneingabe in der Legacy-Migration geworden?

EIN:

Eines der praktischen Probleme, auf die Unternehmen stoßen können, wenn sie versuchen, ein Maschinelles Lernen (ML) -Projekt zu starten, ist die Herausforderung, die ersten Trainingsdatensätze zu erfassen. Dies kann arbeitsintensive Prozesse wie Web-Scraping oder andere Daten-Scraping einschließen.

Die Begriffe "Web-Scraping" und "Daten-Scraping" beziehen sich weitgehend auf automatisierte Aktivitäten von Computersoftware. Bei vielen ML-Projekten wird es jedoch Fälle geben, in denen Computer nicht über die nötigen Kenntnisse verfügen, um die richtigen gezielten Daten zu erfassen "von Hand." Dies könnte man als "menschliches Web / Daten-Scraping" bezeichnen, und es ist ein undankbarer Job. In der Regel müssen Daten oder Bilder gesucht werden, um das ML-Programm durch Trainingssets zu "füttern". Es ist oft ziemlich iterativ, was es mühsam, träge und anstrengend macht.

Kostenloser Download: Maschinelles Lernen und warum es wichtig ist

Das Scraping von Daten für ML-Trainingssets stellt einen einzigartig problematischen Engpass beim maschinellen Lernen dar, zum Teil, weil ein Großteil der anderen Arbeiten sehr konzeptionell und nicht repetitiv ist. Viele Menschen können sich eine großartige Idee für eine neue App einfallen lassen, die maschinelle Lernaufgaben ausführt, aber das Auf und Ab und die praktische Arbeit können viel schwieriger sein. Insbesondere das Delegieren der Arbeit beim Zusammenstellen der Trainingssets kann einer der schwierigsten Teile eines ML-Projekts sein, wie in der TV-Show "Silicon Valley" von Mike Judge ausführlich erläutert. In einer Episode der vierten Staffel schikaniert ein Start-up-Unternehmer zunächst einen Partner, um die arbeitsintensive Arbeit zu verrichten, und versucht dann, sie an College-Studenten weiterzugeben, indem er sie als Hausaufgabe tarnt.

Dieses Beispiel ist aufschlussreich, da es zeigt, wie wenig und scheinbar unwichtig das manuelle Scraping von Daten ist. Es zeigt sich jedoch auch, dass dieser Prozess für eine Vielzahl maschineller Lernprodukte erforderlich ist. Obwohl die meisten Menschen die Dateneingabe hassen, müssen die Trainingssätze auf irgendeine Weise zusammengestellt werden. Experten empfehlen häufig die Verwendung eines Web-Scraping-Dienstes - im Wesentlichen nur die Auslagerung dieser sehr arbeitsintensiven Arbeit an externe Parteien, was jedoch Sicherheitsrisiken und andere Probleme mit sich bringen kann. Auch wenn die manuelle Datenerfassung intern durchgeführt wird, muss ein oft sehr manueller und zeitaufwändiger Vorgang berücksichtigt werden.

In mancher Hinsicht ähnelt "Human Data Scraping" für maschinelles Lernen der manuellen Dateneingabe, die manchmal bei der Migration von Vorgängerversionen durchgeführt werden musste. Als die Cloud immer beliebter wurde und Unternehmen ihre Prozesse und Workflows in die Cloud verlagerten, stellten einige fest, dass sie die praktischen Aspekte der Übertragung ihrer Unternehmensdaten von einem isolierten Altsystem in Cloud-native Anwendungen nicht durchgearbeitet hatten. Infolgedessen mussten einige Personen, die ansonsten Datenwissenschaftler oder kreative Personen mit grundlegenden IT-Kenntnissen waren, unangenehme Dateneingabeaufgaben ausführen.

Dasselbe wird wahrscheinlich beim maschinellen Lernen passieren. Sie könnten einen Datenwissenschaftler beklagen hören, dass "ich eine kreative Person bin" oder "ich bin auf der Entwicklungsseite" - aber jemand muss die Drecksarbeit machen.

Auch hier kann es zu Unstimmigkeiten bei der Ausrichtung der Aufgabenbehandlung kommen, wenn der Creative-Flow nicht mit einer praktischen Bewertung der Workflow-Delegierung übereinstimmt. Wenn ein Unternehmen nicht über Mitarbeiter verfügt, die beim Sammeln von Datensätzen für die Datenerfassung zuständig sind, fehlt ein wichtiger Teil der Prozesskette für ein erfolgreiches Projekt. Es lohnt sich, dies immer zu berücksichtigen, wenn ein Unternehmen versucht, eine Idee umzusetzen, die auf der Entwicklung neuer Anwendungen für maschinelles Lernen basiert.

Wie ist Data Scraping für maschinelles Lernen zum arbeitsintensivsten Engpass seit der manuellen Dateneingabe in der Legacy-Migration geworden?