Kategorien
E-Business

Big Data

Big Data ist eine Kombination aus strukturierten, semistrukturierten und unstrukturierten Daten, die von Organisationen gesammelt werden und die für maschinelle Lernprojekte, prädiktive Modellierung und andere fortschrittliche Analyseanwendungen genutzt werden können.

Systeme, die Big Data verarbeiten und speichern, sind zu einem gängigen Bestandteil der Datenmanagement-Architekturen in Organisationen geworden. Big Data wird oft durch die 3Vs charakterisiert: das große Datenvolumen in vielen Umgebungen, die große Vielfalt an Datentypen, die in Big Data Systemen gespeichert werden und die Geschwindigkeit, mit der die Daten generiert, gesammelt und verarbeitet werden. Diese Charakteristika wurden erstmals von Doug Laney, damals Analyst bei Meta Group Inc. im Jahr 2001 identifiziert; Gartner hat sie weiter popularisiert, nachdem es die Meta Group im Jahr 2005 übernommen hat. In jüngerer Zeit wurden verschiedene Beschreibungen von Big Data um weitere Vs ergänzt, darunter Veracity, Value und Variability.

Obwohl Big Data nicht mit einem bestimmten Datenvolumen gleichzusetzen ist, umfassen Big Data Implementierungen oft Terabytes (TB), Petabytes (PB) und sogar Exabytes (EB) an Daten, die im Laufe der Zeit erfasst werden.

Bedeutung von Big Data
Unternehmen nutzen die in ihren Systemen angesammelten Big Data, um ihre Abläufe zu verbessern, einen besseren Kundenservice zu bieten, personalisierte Marketingkampagnen basierend auf spezifischen Kundenpräferenzen zu erstellen und letztendlich die Profitabilität zu steigern. Unternehmen, die Big Data nutzen, haben einen potenziellen Wettbewerbsvorteil gegenüber denen, die dies nicht tun, da sie in der Lage sind, schnellere und fundiertere Geschäftsentscheidungen zu treffen, sofern sie die Daten effektiv nutzen.

Big Data kann Unternehmen zum Beispiel wertvolle Einblicke in ihre Kunden geben, die zur Verfeinerung von Marketingkampagnen und -techniken genutzt werden können, um die Kundenbindung und die Konversionsraten zu erhöhen.

Darüber hinaus ermöglicht die Nutzung von Big Data den Unternehmen, zunehmend kundenorientiert zu werden. Historische und Echtzeitdaten können genutzt werden, um die sich entwickelnden Vorlieben der Verbraucher zu bewerten, was es den Unternehmen ermöglicht, ihre Marketingstrategien zu aktualisieren und zu verbessern und besser auf die Wünsche und Bedürfnisse der Kunden einzugehen.

Big Data wird auch von medizinischen Forschern genutzt, um Risikofaktoren für Krankheiten zu identifizieren und von Ärzten, um die Diagnose von Krankheiten und Zuständen bei einzelnen Patienten zu unterstützen. Darüber hinaus versorgen Daten aus elektronischen Gesundheitsakten (EHR), sozialen Medien, dem Internet und anderen Quellen Gesundheitsorganisationen und Regierungsbehörden mit aktuellen Informationen über Bedrohungen oder Ausbrüche von Infektionskrankheiten.

In der Energiebranche helfen Big Data den Öl- und Gasunternehmen dabei, potenzielle Bohrstellen zu identifizieren und den Betrieb von Pipelines zu überwachen; ebenso nutzen Versorgungsunternehmen sie, um Stromnetze zu überwachen. Finanzdienstleister nutzen Big-Data-Systeme für das Risikomanagement und die Echtzeitanalyse von Marktdaten. Hersteller und Transportunternehmen verlassen sich auf Big Data, um ihre Lieferketten zu verwalten und Lieferwege zu optimieren. Andere staatliche Anwendungen umfassen Notfallmaßnahmen, Verbrechensprävention und Smart City Initiativen.

Beispiele für Big Data
Big Data kommt aus unzähligen verschiedenen Quellen, wie z.B. aus Geschäftstransaktionssystemen, Kundendatenbanken, medizinischen Aufzeichnungen, Internet-Clickstream-Protokollen, mobilen Anwendungen, sozialen Netzwerken, wissenschaftlichen Forschungsspeichern, maschinengenerierten Daten und Echtzeit-Datensensoren, die in Internet of Things (IoT) Umgebungen verwendet werden. Die Daten können in ihrer Rohform in Big-Data-Systemen belassen werden oder mit Data-Mining-Tools oder Datenaufbereitungssoftware vorverarbeitet werden, sodass sie für bestimmte Analysezwecke bereit sind.

Wenn du Kundendaten als Beispiel nimmst, sind die verschiedenen Analysezweige, die mit den Informationen aus Big Data-Sets gemacht werden können, die folgenden:

Vergleichende Analysen. Dies beinhaltet die Untersuchung von Metriken zum Nutzerverhalten und die Beobachtung des Kundenengagements in Echtzeit, um die Produkte, Dienstleistungen und die Markenautorität eines Unternehmens mit denen der Konkurrenz zu vergleichen.
Social Media Listening. Dies sind Informationen darüber, was Menschen in sozialen Medien über ein bestimmtes Unternehmen oder Produkt sagen, die über das hinausgehen, was in einer Umfrage oder einem Survey geliefert werden kann. Diese Daten können genutzt werden, um Zielgruppen für Marketingkampagnen zu identifizieren, indem die Aktivität rund um bestimmte Themen über verschiedene Quellen hinweg beobachtet wird.
Marketing-Analyse. Dies beinhaltet Informationen, die genutzt werden können, um die Werbung für neue Produkte, Dienstleistungen und Initiativen informierter und innovativer zu gestalten.
Kundenzufriedenheit und Stimmungsanalyse. Alle gesammelten Informationen können Aufschluss darüber geben, wie die Kunden über ein Unternehmen oder eine Marke denken, ob es möglicherweise Probleme gibt, wie die Markentreue erhalten werden kann und wie der Kundenservice verbessert werden kann.
Die Vs von Big Data aufschlüsseln
Das Volumen ist die am häufigsten zitierte Eigenschaft von Big Data. Eine Big-Data-Umgebung muss nicht unbedingt eine große Menge an Daten enthalten, aber die meisten tun es aufgrund der Art der Daten, die in ihnen gesammelt und gespeichert werden. Clickstreams, Systemlogs und Stream-Processing-Systeme gehören zu den Quellen, die typischerweise große Mengen an Big Data auf einer kontinuierlichen Basis produzieren.

Die sechs Vs von Big Data
Big Data ist eine Sammlung von Daten aus verschiedenen Quellen, die von gut bis lose definiert sind und von menschlichen oder maschinellen Quellen stammen.
Big Data umfasst auch eine Vielzahl von Datentypen, darunter:

strukturierte Daten in Datenbanken und Data Warehouses, die auf Structured Query Language (SQL) basieren;
unstrukturierte Daten, wie Text- und Dokumentendateien, die in Hadoop-Clustern oder NoSQL-Datenbanksystemen gespeichert sind; und
semistrukturierte Daten, wie z.B. Webserver-Logs oder Streaming-Daten von Sensoren.
All die verschiedenen Datentypen können zusammen in einem Data Lake gespeichert werden, der typischerweise auf Hadoop oder einem Cloud Object Storage Service basiert. Darüber hinaus beinhalten Big-Data-Anwendungen oft mehrere Datenquellen, die sonst vielleicht nicht integriert werden. Ein Big-Data-Analytics-Projekt kann zum Beispiel versuchen, den Erfolg und die zukünftigen Verkäufe eines Produkts einzuschätzen, indem vergangene Verkaufsdaten, Rückgabedaten und Online-Käuferbewertungen für dieses Produkt korreliert werden.

Die Geschwindigkeit bezieht sich auf die Geschwindigkeit, mit der Big Data generiert wird und verarbeitet und analysiert werden muss. In vielen Fällen werden Big-Data-Sätze in Echtzeit oder nahezu in Echtzeit aktualisiert, anstatt wie in vielen traditionellen Data Warehouses täglich, wöchentlich oder monatlich. Big-Data-Analytics-Anwendungen nehmen die eingehenden Daten auf, korrelieren und analysieren sie und geben dann eine Antwort oder ein Ergebnis basierend auf einer übergreifenden Abfrage aus. Das bedeutet, dass Data Scientists und andere Datenanalysten ein detailliertes Verständnis der verfügbaren Daten haben müssen und ein Gespür dafür haben müssen, nach welchen Antworten sie suchen, um sicherzustellen, dass die Informationen, die sie erhalten, gültig und aktuell sind.

Der Umgang mit der Datengeschwindigkeit ist auch wichtig, da sich die Big-Data-Analyse auf Bereiche wie maschinelles Lernen und künstliche Intelligenz (KI) ausweitet, wo analytische Prozesse automatisch Muster in den gesammelten Daten finden und diese nutzen, um Erkenntnisse zu generieren.

Weitere Merkmale von Big Data
Über die ursprünglichen 3Vs hinausgehend, bezieht sich die Datenwahrheit auf den Grad der Gewissheit in Datensätzen. Unsichere Rohdaten, die aus verschiedenen Quellen gesammelt werden – wie z.B. Social Media Plattformen und Webseiten – können schwerwiegende Probleme mit der Datenqualität verursachen, die schwer zu erkennen sind. Ein Unternehmen, das beispielsweise Big Data-Sets aus Hunderten von Quellen sammelt, kann möglicherweise ungenaue Daten identifizieren, aber seine Analysten benötigen Informationen zur Datenabfolge, um nachzuvollziehen, wo die Daten gespeichert sind, damit sie die Probleme korrigieren können.

Schlechte Daten führen zu ungenauen Analysen und können den Wert von Business Analytics untergraben, da sie dazu führen können, dass Führungskräfte den Daten als Ganzes misstrauen. Die Menge an unsicheren Daten in einer Organisation muss berücksichtigt werden, bevor sie in Big-Data-Analytics-Anwendungen verwendet werden. IT- und Analytik-Teams müssen auch sicherstellen, dass sie genügend genaue Daten zur Verfügung haben, um valide Ergebnisse zu produzieren.

Einige Datenwissenschaftler fügen der Liste der Merkmale von Big Data ebenfalls einen Wert hinzu. Wie oben erklärt, haben nicht alle gesammelten Daten einen echten Geschäftswert, und die Verwendung ungenauer Daten kann die von den Analyseanwendungen gelieferten Erkenntnisse schwächen. Es ist wichtig, dass Unternehmen Praktiken wie die Datenbereinigung anwenden und sich vergewissern, dass sich die Daten auf relevante Geschäftsangelegenheiten beziehen, bevor sie sie in einem Big-Data-Analytics-Projekt verwenden.

Die Variabilität gilt auch oft für Big Data-Sätze, die weniger konsistent sind als herkömmliche Transaktionsdaten und von einer Datenquelle zur anderen mehrere Bedeutungen haben oder unterschiedlich formatiert sein können – Faktoren, die die Verarbeitung und Analyse der Daten weiter erschweren. Manche Leute schreiben Big Data noch mehr Vs zu; Datenwissenschaftler und Berater haben verschiedene Listen mit zwischen sieben und 10 Vs erstellt.

Wie Big Data gespeichert und verarbeitet wird
Die Notwendigkeit, Big Data in hoher Geschwindigkeit zu verarbeiten, stellt besondere Anforderungen an die zugrunde liegende Recheninfrastruktur. Die Rechenleistung, die benötigt wird, um riesige Datenmengen und -vielfalt schnell zu verarbeiten, kann einen einzelnen Server oder Server-Cluster überfordern. Unternehmen müssen eine angemessene Verarbeitungskapazität für Big-Data-Aufgaben bereitstellen, um die erforderliche Geschwindigkeit zu erreichen. Dies kann potenziell Hunderte oder Tausende von Servern erfordern, die die Verarbeitungsarbeit verteilen und kollaborativ in einer geclusterten Architektur arbeiten können, die oft auf Technologien wie Hadoop und Apache Spark basiert.

Eine solche Geschwindigkeit auf kosteneffiziente Weise zu erreichen, ist ebenfalls eine Herausforderung. Viele Unternehmensleiter sind zurückhaltend, in eine umfangreiche Server- und Speicherinfrastruktur zu investieren, um Big-Data-Workloads zu unterstützen, insbesondere solche, die nicht rund um die Uhr laufen. Aus diesem Grund ist Public Cloud Computing jetzt ein primäres Vehikel für das Hosting von Big-Data-Systemen. Ein Public-Cloud-Anbieter kann Petabytes an Daten speichern und die erforderliche Anzahl an Servern gerade lange genug hochskalieren, um ein Big-Data-Analyseprojekt abzuschließen. Das Unternehmen zahlt nur für die tatsächlich genutzte Speicher- und Rechenzeit, und die Cloud-Instanzen können abgeschaltet werden, bis sie wieder benötigt werden.

Um die Service-Levels noch weiter zu verbessern, bieten Public-Cloud-Anbieter Big-Data-Funktionen über Managed Services an, die Folgendes beinhalten:

Amazon EMR (ehemals Elastic MapReduce)
Microsoft Azure HDInsight
Google Cloud Dataproc
In Cloud-Umgebungen können Big Data in den folgenden gespeichert werden:

Hadoop Distributed File System (HDFS);
preiswerter Cloud-Objektspeicher, wie Amazon Simple Storage Service (S3);
NoSQL Datenbanken; und
relationale Datenbanken.
Für Unternehmen, die Big-Data-Systeme vor Ort einsetzen wollen, sind neben Hadoop und Spark auch die folgenden Apache-Open-Source-Technologien gebräuchlich:

YARN, der in Hadoop eingebaute Ressourcenmanager und Job Scheduler, der für Yet Another Resource Negotiator steht, aber im Allgemeinen nur unter diesem Akronym bekannt ist;
das MapReduce Programmier-Framework, ebenfalls eine Kernkomponente von Hadoop;
Kafka, eine Anwendung-zu-Anwendung Nachrichten- und Daten-Streaming-Plattform;
die HBase Datenbank; und
SQL-on-Hadoop Query Engines, wie Drill, Hive, Impala und Presto.
Nutzer können die Open-Source-Versionen der Technologien selbst installieren oder auf kommerzielle Big-Data-Plattformen zurückgreifen, die von Cloudera, das im Januar 2019 mit dem ehemaligen Konkurrenten Hortonworks fusionierte, oder Hewlett Packard Enterprise (HPE), das im August 2019 die Vermögenswerte des Big-Data-Anbieters MapR Technologies kaufte, angeboten werden. Die Plattformen von Cloudera und MapR werden auch in der Cloud unterstützt.

Big Data Herausforderungen
Neben den Themen Verarbeitungskapazität und Kosten ist das Design einer Big-Data-Architektur eine weitere häufige Herausforderung für Anwender. Big-Data-Systeme müssen auf die speziellen Bedürfnisse eines Unternehmens zugeschnitten werden – ein Unterfangen, das IT-Teams und Anwendungsentwickler dazu zwingt, ein Set von Werkzeugen aus allen verfügbaren Technologien zusammenzustellen. Die Bereitstellung und Verwaltung von Big-Data-Systemen erfordert auch neue Fähigkeiten im Vergleich zu denen von Datenbankadministratoren (DBAs) und Entwicklern, die sich auf relationale Software konzentrieren.

Beide Probleme können durch die Nutzung eines gemanagten Cloud-Services gemildert werden, aber IT-Manager müssen die Cloud-Nutzung genau im Auge behalten, um sicherzustellen, dass die Kosten nicht aus dem Ruder laufen. Auch die Migration von lokalen Datensätzen und Verarbeitungsprozessen in die Cloud ist für Unternehmen oft ein komplexer Prozess.

Die Daten in Big-Data-Systemen für Data Scientists und andere Analysten zugänglich zu machen, ist ebenfalls eine Herausforderung, insbesondere in verteilten Umgebungen, die einen Mix aus verschiedenen Plattformen und Datenspeichern beinhalten. Um Analysten bei der Suche nach relevanten Daten zu unterstützen, arbeiten IT- und Analyseteams zunehmend an der Erstellung von Datenkatalogen, die Metadatenmanagement- und Data-Lineage-Funktionen beinhalten. Datenqualität und Data Governance müssen ebenfalls Priorität haben, um sicherzustellen, dass Big-Data-Sets sauber und konsistent sind und richtig verwendet werden.

Praktiken und Vorschriften zur Sammlung von Big Data
Viele Jahre lang hatten Unternehmen nur wenige Einschränkungen bezüglich der Daten, die sie von ihren Kunden sammelten. Doch mit der zunehmenden Sammlung und Nutzung von Big Data hat auch der Datenmissbrauch zugenommen. Besorgte Bürger, die den falschen Umgang mit ihren persönlichen Daten erlebt haben oder Opfer einer Datenschutzverletzung wurden, fordern Gesetze zur Transparenz der Datensammlung und zum Schutz der Verbraucherdaten.

Der Aufschrei über Datenschutzverletzungen hat die Europäische Union dazu veranlasst, die Allgemeine Datenschutzverordnung (GDPR) zu verabschieden, die im Mai 2018 in Kraft getreten ist; sie schränkt die Arten von Daten ein, die Organisationen sammeln können, und erfordert die Zustimmung von Einzelpersonen oder die Einhaltung anderer spezifizierter rechtmäßiger Gründe für die Sammlung personenbezogener Daten. Die GDPR beinhaltet auch ein Recht auf Vergessenwerden, das es EU-Bürgern ermöglicht, Unternehmen zu bitten, ihre Daten zu löschen.

Während es in den USA keine ähnlichen Bundesgesetze gibt, zielt der California Consumer Privacy Act (CCPA) darauf ab, den Einwohnern Kaliforniens mehr Kontrolle über die Sammlung und Nutzung ihrer persönlichen Daten durch Unternehmen zu geben. Der CCPA wurde 2018 in Kraft gesetzt und soll am 1. Januar 2020 in Kraft treten. Darüber hinaus untersuchen Regierungsbeamte in den USA die Praktiken im Umgang mit Daten, insbesondere bei Unternehmen, die Verbraucherdaten sammeln und an andere Unternehmen zur unbekannten Nutzung verkaufen.

Die menschliche Seite der Big-Data-Analytik
Letztendlich hängen der Wert und die Effektivität von Big Data von den Mitarbeitern ab, die damit beauftragt sind, die Daten zu verstehen und die richtigen Abfragen zu formulieren, um Big-Data-Analytics-Projekte zu steuern. Einige Big-Data-Tools bedienen spezialisierte Nischen und ermöglichen es auch weniger technisch versierten Nutzern, alltägliche Geschäftsdaten in Predictive-Analytics-Anwendungen zu nutzen. Andere Technologien – wie Hadoop-basierte Big-Data-Appliances – helfen Unternehmen dabei, eine geeignete Compute-Infrastruktur zu implementieren, um Big-Data-Projekte in Angriff zu nehmen und gleichzeitig den Bedarf an Hardware und verteiltem Software-Know-how zu minimieren.

Big Data kann mit Small Data kontrastiert werden, ein weiterer sich entwickelnder Begriff, der oft verwendet wird, um Daten zu beschreiben, deren Volumen und Format leicht für Self-Service-Analysen genutzt werden können. Ein häufig zitiertes Axiom lautet: „Big Data ist für Maschinen, Small Data ist für Menschen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.