Kategorien
E-Business

Predictive Modelling

Predictive Modeling, auch Predictive Analytics genannt, ist ein mathematischer Prozess, der versucht, zukünftige Ereignisse oder Ergebnisse vorherzusagen, indem er Muster analysiert, die wahrscheinlich zukünftige Ergebnisse prognostizieren. Das Ziel der prädiktiven Modellierung ist es, diese Frage zu beantworten: “Was wird aufgrund des bekannten Verhaltens in der Vergangenheit höchstwahrscheinlich in der Zukunft passieren?

Sobald Daten gesammelt wurden, wählt der Analyst statistische Modelle aus und trainiert sie, wobei er historische Daten verwendet. Obwohl es verlockend ist, zu glauben, dass große Datenmengen die Vorhersagemodelle genauer machen, zeigen statistische Theoreme, dass ab einem bestimmten Punkt die Einspeisung von mehr Daten in ein Predictive Analytics-Modell die Genauigkeit nicht verbessert. Das alte Sprichwort “Alle Modelle sind falsch, aber einige sind nützlich” wird oft in Bezug auf das alleinige Verlassen auf Vorhersagemodelle zur Bestimmung zukünftiger Maßnahmen genannt.

In vielen Anwendungsfällen, z. B. bei Wettervorhersagen, werden mehrere Modelle gleichzeitig ausgeführt und die Ergebnisse zu einer endgültigen Vorhersage zusammengefasst. Dieser Ansatz wird als Ensemble-Modellierung bezeichnet. Wenn zusätzliche Daten verfügbar werden, wird die statistische Analyse entweder validiert oder überarbeitet.

Anwendungen der prädiktiven Modellierung
Die prädiktive Modellierung wird oft mit Meteorologie und Wettervorhersage in Verbindung gebracht, aber sie hat viele Anwendungen in der Wirtschaft.

Eine der häufigsten Anwendungen der prädiktiven Modellierung ist in der Online-Werbung und im Marketing. Modellierer verwenden die historischen Daten von Web-Surfern und lassen sie durch Algorithmen laufen, um zu bestimmen, für welche Art von Produkten sich die Benutzer interessieren könnten und was sie wahrscheinlich anklicken werden.

DEFINITION
prädiktive Modellierung
Joseph M. Carew
Von
Joseph M. Carew, Assistent des Website-Redakteurs
Die prädiktive Modellierung, auch Predictive Analytics genannt, ist ein mathematischer Prozess, der versucht, zukünftige Ereignisse oder Ergebnisse vorherzusagen, indem er Muster analysiert, die wahrscheinlich zukünftige Ergebnisse vorhersagen. Das Ziel der prädiktiven Modellierung ist es, diese Frage zu beantworten: “Was wird aufgrund des bekannten Verhaltens in der Vergangenheit höchstwahrscheinlich in der Zukunft passieren?

Nachdem die Daten gesammelt wurden, wählt der Analyst statistische Modelle aus und trainiert sie unter Verwendung historischer Daten. Obwohl es verlockend ist, zu glauben, dass große Datenmengen die Vorhersagemodelle genauer machen, zeigen statistische Theoreme, dass ab einem bestimmten Punkt die Einspeisung von mehr Daten in ein Predictive Analytics-Modell die Genauigkeit nicht verbessert. Das alte Sprichwort “Alle Modelle sind falsch, aber einige sind nützlich” wird oft in Bezug auf das alleinige Verlassen auf Vorhersagemodelle zur Bestimmung zukünftiger Maßnahmen genannt.

In vielen Anwendungsfällen, z. B. bei Wettervorhersagen, werden mehrere Modelle gleichzeitig ausgeführt und die Ergebnisse zu einer endgültigen Vorhersage zusammengefasst. Dieser Ansatz wird als Ensemble-Modellierung bezeichnet. Wenn zusätzliche Daten verfügbar werden, wird die statistische Analyse entweder validiert oder überarbeitet.

Anwendungen der prädiktiven Modellierung
Die prädiktive Modellierung wird oft mit Meteorologie und Wettervorhersage in Verbindung gebracht, aber sie hat viele Anwendungen in der Wirtschaft.

Eine der häufigsten Anwendungen der prädiktiven Modellierung ist in der Online-Werbung und im Marketing. Modellierer verwenden die historischen Daten von Web-Surfern und lassen sie durch Algorithmen laufen, um zu bestimmen, an welchen Produkten die Benutzer interessiert sein könnten und was sie wahrscheinlich anklicken werden.

DIESER ARTIKEL IST TEIL VON

Was ist Datenwissenschaft? Der ultimative Leitfaden
Der auch enthält:
Wie Sie Ihr Data Science Storytelling verbessern können
Die wichtigsten Unterschiede zwischen einem Data Scientist und einem Data Engineer
Die wichtigsten Soft Skills für Data Scientist-Jobs
Bayes’sche Spam-Filter verwenden prädiktive Modellierung, um die Wahrscheinlichkeit zu ermitteln, dass es sich bei einer bestimmten Nachricht um Spam handelt. Bei der Betrugserkennung wird prädiktive Modellierung verwendet, um Ausreißer in einem Datensatz zu identifizieren, die auf betrügerische Aktivitäten hindeuten. Und im Customer Relationship Management (CRM) wird Predictive Modeling verwendet, um Nachrichten an Kunden zu richten, die mit hoher Wahrscheinlichkeit einen Kauf tätigen werden. Weitere Anwendungen sind Kapazitätsplanung, Change Management, Disaster Recovery (DR), Engineering, physisches und digitales Sicherheitsmanagement und Stadtplanung.

Modellierungsmethoden
Die Analyse repräsentativer Teile der verfügbaren Informationen – das Sampling – kann dazu beitragen, die Entwicklungszeit von Modellen zu verkürzen und sie schneller bereitzustellen.

Sobald Datenwissenschaftler diese Stichprobendaten gesammelt haben, müssen sie das richtige Modell auswählen. Lineare Regressionen gehören zu den einfachsten Arten von Vorhersagemodellen. Lineare Modelle nehmen im Wesentlichen zwei Variablen, die miteinander korreliert sind – eine unabhängige und eine abhängige – und zeichnen eine auf der x-Achse und eine auf der y-Achse. Das Modell wendet eine Best-Fit-Linie auf die resultierenden Datenpunkte an. Datenwissenschaftler können dies nutzen, um das zukünftige Auftreten der abhängigen Variable vorherzusagen.

Prädiktive Analysemethoden
Zu den verschiedenen prädiktiven Modellierungsalgorithmen gehören logistische Regression, Zeitreihenanalyse und Entscheidungsbäume.
Einige der beliebtesten Methoden sind:

Entscheidungsbäume. Entscheidungsbaum-Algorithmen nehmen Daten (aus Mining, Open Source oder intern) und stellen sie in Form von Verzweigungen dar, um die möglichen Ergebnisse verschiedener Entscheidungen anzuzeigen. Entscheidungsbäume klassifizieren Antwortvariablen und sagen Antwortvariablen basierend auf vergangenen Entscheidungen voraus, können mit unvollständigen Datensätzen verwendet werden und sind für unerfahrene Datenwissenschaftler leicht erklärbar und zugänglich.
Zeitreihenanalyse. Hierbei handelt es sich um eine Technik zur Vorhersage von Ereignissen über eine zeitliche Abfolge. Sie können zukünftige Ereignisse vorhersagen, indem Sie vergangene Trends analysieren und von dort aus extrapolieren.
Logistische Regression. Diese Methode ist eine statistische Analysemethode, die bei der Datenaufbereitung hilft. Je mehr Daten eingebracht werden, desto besser wird die Fähigkeit des Algorithmus, diese zu sortieren und zu klassifizieren, so dass Vorhersagen gemacht werden können.
Der komplexeste Bereich der prädiktiven Modellierung ist das neuronale Netzwerk. Diese Art von maschinellem Lernmodell überprüft unabhängig große Mengen an markierten Daten auf der Suche nach Korrelationen zwischen Variablen in den Daten. Es kann selbst subtile Korrelationen erkennen, die erst nach der Durchsicht von Millionen von Datenpunkten auftauchen. Der Algorithmus kann dann Rückschlüsse auf unmarkierte Datendateien ziehen, die dem Datensatz, auf den er trainiert wurde, ähnlich sind. Neuronale Netzwerke bilden die Grundlage vieler heutiger Beispiele für künstliche Intelligenz (KI), darunter Bilderkennung, intelligente Assistenten und natürliche Sprachgenerierung (NLG).

Neuronale Netzwerke sind eine komplexe Art von Vorhersagemodellen.
Ein neuronales Netzwerk ist eine Art von Vorhersagemodell, das unabhängig große Mengen an markierten Daten auf der Suche nach Korrelationen zwischen Variablen in den Daten überprüft.
Gängige Algorithmen für prädiktive Modellierung
Zufälliger Wald. Ein Algorithmus, der nicht verwandte Entscheidungsbäume kombiniert und Klassifizierung und Regression verwendet, um große Datenmengen zu organisieren und zu beschriften.

Gradient-Boosted-Modell. Ein Algorithmus, der mehrere Entscheidungsbäume verwendet, ähnlich wie Random Forest, aber sie sind enger miteinander verbunden. Dabei korrigiert jeder Baum die Fehler des vorherigen Baums und erstellt ein genaueres Bild.

K-Means. Gruppiert Datenpunkte auf ähnliche Weise wie ein Clustering-Modell und ist bei personalisierten Angeboten im Einzelhandel beliebt. Es kann personalisierte Angebote erstellen, wenn es sich um eine große Gruppe handelt, indem es nach Ähnlichkeiten sucht.

Prophet. Ein Vorhersageverfahren, das besonders effektiv ist, wenn es um Kapazitätsplanung geht. Dieser Algorithmus arbeitet mit Zeitreihendaten und ist relativ flexibel.

Werkzeuge zur Vorhersagemodellierung
Bevor Sie ein Tool für Vorhersagemodelle einsetzen, ist es für Ihr Unternehmen entscheidend, Fragen zu stellen. Sie müssen Folgendes klären: Klären Sie, wer die Software einsetzen wird, was der Anwendungsfall für diese Tools sein wird, mit welchen anderen Tools Ihre prädiktive Analytik interagieren wird, sowie das Budget.

Verschiedene Tools haben unterschiedliche Anforderungen an die Datenkompetenz, sind in verschiedenen Anwendungsfällen effektiv, werden am besten mit ähnlicher Software eingesetzt und können teuer sein. Sobald Ihr Unternehmen Klarheit über diese Punkte hat, wird der Vergleich von Tools einfacher.

Sisense. Eine Business-Intelligence-Software, die sich an eine Vielzahl von Unternehmen richtet und eine Reihe von Business-Analytics-Funktionen bietet. Sie erfordert einen minimalen IT-Hintergrund.
Oracle Crystal Ball. Eine auf Tabellenkalkulationen basierende Anwendung, die sich an Ingenieure, strategische Planer und Wissenschaftler in verschiedenen Branchen richtet und für prädiktive Modellierung, Prognosen sowie Simulation und Optimierung verwendet werden kann.
IBM SPSS Predictive Analytics Enterprise. Eine Business-Intelligence-Plattform, die Open-Source-Integration unterstützt und deskriptive und prädiktive Analysen sowie Datenaufbereitung bietet.
SAS erweiterte Analytik. Ein Programm, das Algorithmen zur Identifizierung der Wahrscheinlichkeit zukünftiger Ergebnisse bietet und für Data Mining, Prognosen und Ökonometrie verwendet werden kann.
Überlegungen zur prädiktiven Modellierung
Eine der am häufigsten übersehenen Herausforderungen bei der prädiktiven Modellierung ist die Beschaffung der benötigten Datenmenge und das Aussortieren der richtigen Daten für die Entwicklung von Algorithmen. Nach einigen Schätzungen verbringen Datenwissenschaftler etwa 80 % ihrer Zeit mit diesem Schritt. Die Datenerfassung ist zwar wichtig, aber nur von begrenztem Nutzen, wenn diese Daten nicht richtig verwaltet und bereinigt werden.

Sobald die Daten sortiert sind, müssen Unternehmen darauf achten, ein Overfitting zu vermeiden. Übermäßiges Testen von Trainingsdaten kann zu einem Modell führen, das sehr genau zu sein scheint, sich aber die Schlüsselpunkte im Datensatz gemerkt hat, anstatt zu lernen, wie man verallgemeinert.

Auch wenn die prädiktive Modellierung oft als primär mathematisches Problem betrachtet wird, müssen Anwender die technischen und organisatorischen Barrieren einplanen, die sie daran hindern könnten, die benötigten Daten zu erhalten. Oft sind Systeme, die nützliche Daten speichern, nicht direkt mit zentralisierten Data Warehouses verbunden. Außerdem sind einige Geschäftsbereiche der Meinung, dass die von ihnen verwalteten Daten ihr Eigentum sind, und geben sie möglicherweise nicht ohne Weiteres an Data-Science-Teams weiter.

Ein weiterer potenzieller Stolperstein für Initiativen zur prädiktiven Modellierung ist die Sicherstellung, dass die Projekte echte geschäftliche Herausforderungen adressieren. Manchmal entdecken Datenwissenschaftler Korrelationen, die zu diesem Zeitpunkt interessant erscheinen, und erstellen Algorithmen, um die Korrelation weiter zu untersuchen. Aber nur weil sie etwas finden, das statistisch signifikant ist, bedeutet das nicht, dass es eine Erkenntnis darstellt, die das Unternehmen nutzen kann. Initiativen zur prädiktiven Modellierung müssen eine solide Grundlage für die Geschäftsrelevanz haben.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

drei + 5 =