Q:
Warum erfordern einige maschinelle Lernprojekte möglicherweise eine enorme Anzahl von Akteuren?
EIN:Wenn Sie an maschinelles Lernen denken, denken Sie in der Regel an qualifizierte Datenwissenschaftler, die in Computerräumen an Tastaturen arbeiten. Quantitative Analysen und Algorithmen stehen dabei im Vordergrund. Viele dieser Programme haben nicht viel unmittelbaren realen Kontext - zumindest denken das viele.
Einige der bahnbrechendsten Programme für maschinelles Lernen von heute nutzen jedoch wahre Armeen menschlicher Akteure auf der Straße, in Geschäften und überall dort, wo sie grundlegende menschliche Aktivitäten wie Gehen, Arbeiten oder Einkaufen modellieren können.
Kostenloser Download: Maschinelles Lernen und warum es wichtig ist |
Ein kabelgebundener Artikel von Tom Simonite illustriert dies sehr gut mit dem passenden Titel "Um AI schlauer zu machen, führen Menschen seltsame, niedrig bezahlte Aufgaben durch."
Simonite zeigt anhand von kurzen Videos, die in einem Lebensmittelgeschäft von Whole Foods aufgenommen wurden, die Art der Arbeit, die dazu beitragen wird, einen Teil der nächsten Phase des maschinellen Lernens aufzubauen.
Dies wirft die Frage auf, warum sich all diese Leute in kurzen und einfachen Videos damit beschäftigen, Handlungen zu dokumentieren, die so rudimentär sind wie das Bewegen eines Arms oder Beins.
Die Antwort gibt Aufschluss darüber, wo maschinelles Lernen angesiedelt ist und wohin es führt.
"Forscher und Unternehmer möchten, dass KI die physische Welt versteht und in ihr agiert", schreibt Simonite und erklärt, warum er und andere mit Kameras unterwegs sind. „Daher müssen die Arbeiter Szenen in Supermärkten und zu Hause nachspielen. Sie erstellen das Lehrmaterial, um Algorithmen über die Welt und die Menschen darin zu vermitteln. “
Wie viele Experten darauf hinweisen werden, umfassen einige der größten Grenzen des maschinellen Lernens die Bildverarbeitung und die Verarbeitung natürlicher Sprachen. Dies sind äußerst quantitative Verfahren - mit anderen Worten, es gibt kein so breites Spektrum an Eingaben wie in "performanten" realen Umgebungen. Stattdessen verwenden die maschinellen Lernprogramme visuelle und Audiodaten auf sehr spezifische Weise, um Modelle zu erstellen. Bei der Bildverarbeitung werden Funktionen aus einem (endlichen) Sichtfeld ausgewählt. Bei NLP werden Phoneme zusammengesetzt.
Wenn Sie über diese spezifischen Eingabekategorien hinausgehen, wird dies als "Bild- und Sprachlücke" bezeichnet. Wenn Sie über die Bildverarbeitung und die Spracherkennung hinausgehen, müssen Computer auf unterschiedliche Weise analysiert werden. Die Trainingssätze werden sich grundlegend unterscheiden.
Betreten Sie die Armee der Videofilmer. In einigen dieser neuen maschinellen Lernprojekte sind die kleinsten Ideen menschlicher Aktivitäten die Trainingssätze. Anstatt trainiert zu werden, um nach Merkmalen und Kanten und Pixeln zu suchen, die sich zu Klassifizierungsaufgaben zusammensetzen, verwenden Computer Trainingsvideos, um zu beurteilen, wie verschiedene Arten von Aktionen aussehen.
Entscheidend ist, was Ingenieure mit diesen Daten tun können, wenn sie aggregiert und geladen werden und wenn der Computer darauf geschult ist. Sie werden bald die Ergebnisse in verschiedenen Bereichen sehen - zum Beispiel wird dies die Überwachung äußerst effektiv machen. Computer können im visuellen Bereich "sehen", was Menschen tun, und dies auf Bereiche wie Marketing und Vertrieb oder in einigen Fällen auf die Arbeit von Regierungsbehörden oder die Strafverfolgung anwenden.
Die Auswirkungen beleuchten auch die Debatte zwischen Maximalnutzen- und Datenschutzfragen. Ein Großteil der Verwendung dieser Videos wird Modelle für maschinelles Lernen entwickeln, die für die Überwachung geeignet sind - aber was ist mit Menschen, die nicht überwacht werden möchten? Welche Rechte hat der Einzelne, wenn diese neuen maschinellen Lernprogramme im öffentlichen Raum eingesetzt werden, und wo wird diese Grenze gezogen?
Auf jeden Fall nutzen Unternehmen diese Art von Personal- und Videoressourcen, um wirklich in die nächsten Runden des maschinellen Lernprozesses einzusteigen, mit denen Computer erkennen können, was um sie herum passiert, anstatt nur Bilder zu klassifizieren oder mit den Phonemen von zu arbeiten Rede. Dies ist eine äußerst interessante und kontroverse Entwicklung der künstlichen Intelligenz, die in den technischen Medien und darüber hinaus Beachtung verdient.