Der Leftshift One Data Audit: Grundstein für die AIaaS-Reise
Der Data Audit von Leftshift One bietet einen idealen Einstieg in KI-Projekte für Kunden, die entweder keine oder wenig Erfahrung mit KI haben. Der Audit hilft bei der Identifikation von Einsatzgebieten, in denen KI einen Mehrwert bieten kann, und bewertet die Eignung vorhandener Daten für den jeweiligen Use Case.
Der Data Audit bildet die Grundlage für die weiteren KI-Projekte mit Leftshift One und sorgt für eine gemeinsame Basis für das weitere Vorgehen.
- 20. April. 2023
[field title]
[field lso_team_function]
Der Leftshift One Data Audit
Für Kunden mit einer großen Menge an vorhandenen Daten werden deren Eignung unter den Gesichtspunkten der technischen Machbarkeit und dem betriebswirtschaftlichen Nutzen evaluiert. Eine Überprüfung der Qualität und Quantität der Daten ist unverzichtbar, um den gewünschten Nutzen eines KI-Modells zu erzielen. Das Preprocessing ist ein wichtiger Schritt, um die Rohdaten strukturiert einzulesen und in ein für KI-Modelle konsumierbares Format umzuwandeln. Im Feature Engineering werden manuelle Kenngrößen für die Daten definiert, die nicht direkt aus den Daten hervorgehen.
Welchen Mehrwert bietet der Data Audit als Ausgangspunkt für KI-Projekte?
Der Data Audit bietet einen idealen Startpunkt, um die AIaaS-Reise mit Leftshift One zu beginnen. Auch für Kunden, die noch keine Erfahrung mit KI oder Data Science haben, können aufgrund der breiten Erfahrung von vorherigen Projekten Einsatzgebiete identifiziert werden, bei denen KI einen Mehrwert bringt. Dabei wird entweder geprüft, ob der gewählte Use Case zu den vorhandenen Daten passt, oder ob man ausgehend von den Daten einen Use Case findet.
Für Kunden, die schon einen Schritt weiter sind und entsprechende Daten gesammelt haben, wird deren Eignung ebenfalls unter den Gesichtspunkten der technischen Machbarkeit und dem betriebswirtschaftlichen Nutzen evaluiert.
Es erfolgt zum Abschluss des Data Audits eine aussagekräftige Entscheidung, ob die unterschiedlichen Problemstellungen automatisiert und in kurzer Zeit mit KI gelöst werden können. Darüber hinaus bildet der Data Audit eine gemeinsame Grundlage für die weiteren möglichen KI-Projekte mit Leftshift One.
Qualität und Quantität der Daten sind essenziell
Damit ein KI-Modell den gewünschten Nutzen erzielt, ist eine Überprüfung der Daten abhängig von der Komplexität des gewählten Use Cases notwendig. Dabei wird auch in Betracht gezogen, ob der Use Case zum Geschäftsmodell passt und im Idealfall von Beginn an einen Mehrwert liefert.
Anhand eines Beispiels lässt sich veranschaulichen, in welchem Verhältnis die Qualität und die Quantität der Daten zu dem jeweiligen Use Case stehen: In einem Industrieunternehmen werden Getriebe hergestellt, die etwa 1.500 Merkmale pro Getriebe haben. Bei allen Getrieben, die auf korrekte Funktionsfähigkeit getestet werden, ist das Resultat bei ca. 1% negativ. Verwendet man hier Supervised Learning, lernt die KI anhand von beispielhaften Datensätzen. Hierbei sollen zugrundeliegende Muster erlernt werden, und nicht nur auswendig gelernt werden, was zum sogenannten „overfitting“ führt. In puncto Quantität wird hier schnell klar, dass eine gewisse Menge an Daten vorhanden sein muss, damit die KI tatsächlich ein Muster erkennen kann. Bei einem Getriebe mit 1.500 Merkmalen gehen die benötigten Datensätze in die Hunderttausende, wohingegen bei einem einfachen Beispiel mit 10 Parametern auch etwa tausend Datensätze ausreichend sind.
Ein weiteres Beispiel findet sich in der Textanalyse bei einem E-Mail Classifier. Geht man davon aus, dass etwa 1% der E-Mails als Spam klassifiziert werden, müssen entsprechend viele Daten gesammelt werden, um eine repräsentative Aussagekraft zu erzielen. Verallgemeinernd lässt sich festhalten, dass die mehr Parameter bei einem KI-Modell mit einer größeren benötigten Datenmenge einhergehen. Fehlende Qualtität der Daten kann im Data Audit durch Preprocessing ausgeglichen werden, wobei hier jedoch natürliche Limitationen existieren.
Auch wenn Machine Learning ein großer Teilbereich von KI ist, gibt es auch Gebiete, in denen keine Daten benötigt werden. Beispielsweise in der Optimierung von Routenplanern oder Zeitplänen werden fixe Algorithmen eingesetzt, ohne vorab Quantität oder Qualität der Daten zu prüfen.
Durch Preprocessing werden die Daten in das gewünschte Format umgewandelt
Die Daten liegen oft im CSV, JSON oder idealerweise auch im SQL-Format vor. Das Ziel des Preprocessing ist es, die Daten strukturiert einzulesen und in ein tabellarisches Format umzuwandeln. Da die überwiegende Anzahl von KI-Algorithmen nur mit Zahlen umgehen kann, werden Texte in sogenannte Tokenizer umgewandelt, mit denen die Algorithmen arbeiten können. Die Rohdaten, zu denen auch Bilder zählen, werden in ein für KI-Modelle konsumierbares Format transformiert. Die Zahlenwerte die man dadurch als Ausgangsgröße generiert stehen dann den Zahlenwerten gegenüber, die man hinsichtlich des Use Cases benötigt.
Ein weiterer Schritt im Preprocessing ist der Umgang mit fehlerhaften oder unvollständigen Daten. Diese werden je nach Kontext entweder entfernt, oder durch repräsentative Werte wie etwa den Mittelwert ersetzt. Darüber hinaus wird im Feature Engineering auf Hintergrundwissen zurückgegriffen, um manuelle Kenngrößen für die Daten zu definieren, die nicht direkt aus den Daten hervorgehen. Ein einfaches Beispiel hierfür ist die Differenz zwischen Brutto- und Nettobeträgen, die sich aus Steuer und Sozialabgaben zusammensetzen. Bei umfangreichen Deep Learning Modellen können Preprocessing und Feature Engineering in einer Ende-zu-Ende Abbildung durch eigenständiges Lernen automatisiert werden.
Die Auswahl der KI-Algorithmen basiert auf Erfahrung und hängt vom Use Case ab
Die Wahl des richtigen Algorithmus hängt immer von der spezifischen Problemstellung ab. Oftmals ist es notwendig, verschiedene Algorithmen auszuprobieren und die Parameter der Trainingsalgorithmen anzupassen. Es empfiehlt sich, mit einer Handvoll einfacherer Algorithmen zu beginnen und erst bei Bedarf auf anspruchsvollere wie beispielsweise neuronale Netze auszuweichen. Für bestimmte Problemfälle wie Natural Language Processing sind Transformer ein geeignetes Mittel, während bei tabellarischen Daten Gradient Boosting Techniken oder neuronale Netze die beste Wahl sind. Neuronale Netze bringen oft die beste Performance, jedoch muss man auch die Ressourcen- und Leistungskompromisse im Auge behalten.
Nach dem Training wird das Modell auf Testdaten überprüft, um die Funktionalität zu evaluieren. Anschließend wird die Methode mit der besten Genauigkeit ausgewählt und auf weiteren Daten getestet. Dabei ist es ratsam, sich auf bereits bewährte Modelle und Best Practices aus der Literatur zu stützen und gegebenenfalls in ähnlichen Projekten nach erfolgreichen Lösungen zu suchen. In vielen Fällen ist es notwendig, auf Open-Source-Algorithmen zurückzugreifen. Der Trade-off zwischen Ressourcen und Leistung wird stets berücksichtigt und es wird der Algorithmus ausgewählt, der die passende Leistung bei einem akzeptablen Ressourceneinsatz bietet. Hinsichtlich der Leistung ist beispielsweise ChatGPT geeignet, alle Problemstellungen mit Texten zu lösen – der Ressourcenaufwand ist jedoch enorm und in den meisten Fällen nicht wirtschaftlich. Der Data Audit ist empfehlenswert, um sicherzustellen, dass die Daten und der Use Case für den gewählten Algorithmus geeignet sind.
Machbarkeit wird aus technischer, infrastruktureller und KI-Sicht evaluiert
Um ein vorzeigbares Ergebnis zu erzielen, ist es wichtig, dass das erste Modell gut funktioniert und gute Ergebnisse liefert. Die Kunden sind sich bewusst, dass sie Daten für die KI-Implementierung bereitstellen müssen. Auch mit wenigen Daten wird durch ein ideales Preprocessing eine Umsetzung des gewünschten Use Case ermöglicht. Bei dem Projekt wird zudem die Gelegenheit genutzt, während der KI-Implementierung weitere Daten zu sammeln.
Vor dem Beginn der Implementierung steht die Betrachtung der Umsetzbarkeit des Projekts an. Aus technischer Sicht können die Systeme des Kunden idealerweise in der Cloud bei Leftshift One integrierbar sein. Viele Kunden bevorzugen aufgrund von Datenschutzgründen jedoch die On-Premise-Integration. Ein Teil des Data Audits betrachtet daher die technische Infrastruktur, um eine mögliche Integration zu gewährleisten.
Wenn die technischen Komponenten geklärt sind, wird eine Machbarkeitsanalyse aus KI-Sicht durchgeführt. Der ganze Data Audit ist im Wesentlichen eine Machbarkeitsanalyse, die je nach Projektgröße in der Regel 3-5 Tage dauert. Wenn der Kunde die Machbarkeit im Rahmen eines Datathon vorab klären möchte, kann Zeit eingespart werden. Hier werden grobe Analysen auf den bereitgestellten Daten durchgeführt.
Die theoretische Machbarkeitsanalyse basiert auf bereits durchgeführten Projekten. Im Rahmen des Data Audits gibt es verschiedene Schritte wie Workshop, Preprocessing, Feature Engineering und explorative Datenanalyse. Frühzeitig wird dabei ersichtlich, ob die Daten starke Variationen aufweisen, die eine aussagekräftige Analyse erschweren. Ein einfaches Beispiel ist hierfür der Energieverbrauch vor und nach Corona – beide Datenerhebungen sind Voraussetzung für eine aussagekräftige Analyse.
Essenziell sind insbesondere bei Textdaten die Datensätze und zugehörige Zielgrößen. Um die Leistung des Modells zu bewerten, werden die gesamten Daten des Kunden sauber in ein Trainings- und Testdatenset überführt. Das Modell wird auf dem Trainingsdatensatz trainiert und entwickelt, bevor auf dem Testdatensatz ausgewertet wird, ob das Modell auch auf bisher ungesehenen Daten gut funktioniert.
Das Ergebnis der Methode und Umsetzung mit Metriken wird dem Kunden präsentiert. Dabei werden die nächsten Schritte diskutiert, wie z.B. die Entwicklung eines Prototyps oder weitere Unterstützung bei der Datensammlung.
Der Ausgang des Data Audits ist eine fundierte Entscheidung für oder gegen den Einsatz von KI
Die Frage, ob KI in einem bestimmten Projekt eingesetzt werden sollte, hängt von Faktoren wie dem Use Case und den verfügbaren Daten ab. Darüber hinaus ist auch die Auswahl der jeweiligen KI ausschlaggebend für den Projekterfolg. Grundsätzlich ist es wichtig, den Use Case wirtschaftlich zu betrachten. Wenn eine KI bessere Ergebnisse liefert als die bisher eingesetzte Methode, lohnt sich ein Umstieg auf KI. Die finale Entscheidung, ob sie in Zukunft eingesetzt werden soll, liegt beim jeweiligen Unternehmen.
In technischer Hinsicht können jedoch einige Probleme auftreten, wie beispielsweise ein Mangel an Quantität und Qualität der Daten oder ein suboptimaler Use Case. In diesem Fall ist es sinnvoll, die Problemstellung neu zu formulieren – um das Projekt unter den neu definierten Gesichtspunkten fortzusetzen. Wenn alle Beteiligten zufrieden sind und die KI technisch umsetzbar ist, kann eine Go-Entscheidung getroffen werden und die AIaaS-Reise geht mit einem Prototyp in die nächste Runde.
Nutzen Sie unsere vertrauensvollen und erklärbaren KI-Modelle energieeffizient und kostengünstig, um Ihre Probleme nachhaltig mit dem AIaaS-Ansatz zu lösen. Buchen Sie jetzt hier Ihr unverbindliches KI-Expertengespräch und starten Sie mit einem Data Audit!
Vereinbaren Sie jetzt mit unserem Experten im Bereich künstliche Intelligenz und Datenanalyse Ihr kostenloses Erstgespräch
Zur Bearbeitung Ihrer Anfrage verarbeiten wir die Daten, die Sie im Formular gegenüber angeben. Vielen Dank fürs Ausfüllen!