Zuhause Audio Warum verringert Bagging beim maschinellen Lernen die Varianz?

Warum verringert Bagging beim maschinellen Lernen die Varianz?

Anonim

Q:

Warum verringert Bagging beim maschinellen Lernen die Varianz?

EIN:

Die Bootstrap-Aggregation (Bagging) beim maschinellen Lernen verringert die Varianz durch die Erstellung fortschrittlicherer Modelle komplexer Datensätze. Insbesondere werden durch den Bagging-Ansatz Teilmengen erstellt, die sich häufig überlappen, um die Daten auf komplexere Weise zu modellieren.

Eine interessante und unkomplizierte Idee für die Anwendung des Absackens besteht darin, eine Reihe von Zufallsstichproben zu entnehmen und den einfachen Mittelwert zu ermitteln. Erstellen Sie dann unter Verwendung derselben Stichproben Dutzende von Teilmengen, die als Entscheidungsbäume erstellt wurden, um die endgültigen Ergebnisse zu manipulieren. Der zweite Mittelwert sollte ein genaueres Bild davon zeigen, wie sich diese einzelnen Stichproben in Bezug auf den Wert zueinander verhalten. Dieselbe Idee kann auf jede Eigenschaft eines beliebigen Satzes von Datenpunkten angewendet werden.

Kostenloser Download: Maschinelles Lernen und warum es wichtig ist

Da dieser Ansatz die Entdeckung zu genaueren Grenzen zusammenfasst, verringert er die Varianz und hilft bei der Überanpassung. Stellen Sie sich ein Streudiagramm mit etwas verteilten Datenpunkten vor. Durch die Verwendung einer Absackmethode "verkleinern" die Ingenieure die Komplexität und richten die Erkennungslinien auf glattere Parameter aus.

Einige sprechen von dem Wert des Einsackens als "Teilen und Erobern" oder einer Art "unterstützter Heuristik". Die Idee ist, dass durch Ensemblemodellierung, wie die Verwendung von zufälligen Wäldern, diejenigen, die das Absacken als Technik verwenden, Datenergebnisse erhalten können, deren Varianz geringer ist. In Bezug auf die Verringerung der Komplexität kann das Absacken auch bei der Überanpassung helfen. Stellen Sie sich ein Modell mit zu vielen Datenpunkten vor: beispielsweise ein Verbindungspunkt mit 100 nicht ausgerichteten Punkten. Die resultierende visuelle Datenzeile ist gezackt, dynamisch und flüchtig. Dann "bügeln" Sie die Varianz aus, indem Sie Auswertungssätze zusammenstellen. Beim Lernen von Ensembles wird häufig angenommen, dass mehrere "schwache Lernende" zusammenarbeiten, um ein gemeinsames Ergebnis "starkes Lernen" zu erzielen. Das Ergebnis ist eine glattere, konturiertere Datenlinie und weniger wilde Varianz im Modell.

Es ist leicht einzusehen, wie die Idee des Absackens auf Unternehmens-IT-Systeme angewendet werden kann. Unternehmensleiter möchten oft aus der Vogelperspektive sehen, was mit Produkten, Kunden usw. vor sich geht. Ein überarbeitetes Modell kann weniger verdauliche Daten und mehr "verstreute" Ergebnisse liefern, wobei das Absacken ein Modell "stabilisieren" und nützlicher machen kann zu den Endbenutzern.

Warum verringert Bagging beim maschinellen Lernen die Varianz?