KI>Inside – Der Podcast für Unternehmen: Jetzt reinhören
MyGPT

Mit optimaler Datenaufbereitung den Grundstein für produktiven KI-Einsatz legen

Aus der Praxis

Ein internationales Logistikunternehmen hat das erklärte Ziel, mit dem Einsatz von Leftshift One´s MyGPT das firmeninterne Wissensmanagement effizienter und innovativer zu gestalten.

Um eine solide Ausgangssituation für dieses Vorhaben zu schaffen, liegt der Fokus zunächst auf der sauberen Datenextraktion und -aufbereitung.

CEO -Leftshift One - Patrick Ratheiser

Patrick Ratheiser

CEO & Founder

Karin Schnedlitz

Content Managerin

Wie sieht die Vorgehensweise im Detail aus?

Grundsätzlich besteht die Herausforderung darin, die unterschiedlichen Daten mit Mehrwert für das Wissensmanagement in einer Art und Weise aufzubereiten, mit dem das LLM hinter MyGPT arbeiten kann. Es ist nicht ausreichend, lediglich Word- oder Exceldokumente hochzuladen. Die saubere Extraktion und Aufbereitung der Daten ist der zentrale Erfolgsfaktor für die spätere Vermeidung von Halluzinationen (Link Artikel Halluzinationen), um eine verlässliche Basis für alle Anfragen an das System zu schaffen.

ChatGPT für Unternehmen

Datenaufbereitung ist das Fundament für die verlässliche Funktionalität von MyGPT

Mit dem Strict Mode von MyGPT basieren alle Antworten, die generiert werden, auf Grundlage der relevanten Dokumente. Der Prozess der Datenextraktion- und aufbereitung ist aus zwei Gründen elementar. Erstens müssen die gewünschten Informationen durch die semantische Suche ausgehend von der Benutzereingabe gefunden werden. Zweitens müssen diese Informationen korrekt strukturiert sein und in einer Form vorliegen, mit der das LLM die passende Antwort generieren kann.

Die Datenextraktion und -aufbereitung für verschiedene Formate

Leftshift One hat bereits eine langjährige Erfahrung in der Dokumentenaufbereitung für KI. Das Ziel ist es, die Struktur eines jeden Dokuments auf Text abzubilden. Für unterschiedliche Formate existieren verschiedene Mechanismen, um die Informationen ideal zu analysieren und zu verarbeiten. Die üblichen Formate inkludieren:

Text

Herausforderung:

  • Abhängig vom Kontext kann Text unstrukturiert und variabel in der Formatierung sein.

Vorgehensweise:

  • Textdaten können direkt analysiert und verarbeitet werden.
  • Anwendung von Textverarbeitungstechniken, um den Text zu reinigen und in ein standardisiertes Format zu bringen.

PDF

Herausforderung:

  • PDFs bestehen oft aus einer Mischung aus Text, Bildern und anderen Medien
  • Text kann in Form von Bildern vorliegen, was die direkte Extraktion erschwert.

Vorgehensweise:

  • Anwendung von OCR Techniken, um Text aus Bildern zu extrahieren.
  • Verwendung spezialisierter Libraries, um den Inhalt von PDFs zu lesen und zu interpretieren.
  • Umwandlung des extrahierten Inhalts in ein strukturiertes Format, das für maschinelles Lernen geeignet ist.

 

Word

Herausforderung:

  • Word-Dokumente können komplexe Formatierungen, Tabellen, Bilder und eingebettete Objekte enthalten.
  • Die Struktur und das Layout können die Textextraktion beeinflussen.

Vorgehensweise:

  • Verwendung von Bibliotheken, die speziell für das Lesen von Word-Dokumenten entwickelt wurden.
  • Extraktion von reinem Text, während komplexe Formatierungen und nicht relevante Inhalte ignoriert werden.
  • Konvertierung des Inhalts in ein maschinenlesbares Format.

 

Excel

Herausforderung:

  • Excel-Tabellen können komplexe Datenstrukturen, Formeln und Verknüpfungen zwischen Zellen enthalten.

  • Die Reihenfolge und Struktur der Daten variiert

Vorgehensweise:

  • Verwendung von Tools, die Tabellendaten effizient lesen können.

  • Umwandlung von Tabellen in strukturierte Datenformate wie CSV oder JSON.

  • Berücksichtigung von Zellformatierungen und -typen bei der Datenextraktion.

 

Power Point

Herausforderung:

  • Oft viele Design-Elemente

  • Einbindung von Effekten

Vorgehensweise:

  • Extrahieren der Textinhalte durch dedizierte Python Bibliotheken

  • Aufbereitung in ein maschinenlesbares Format

Flexibilität für Datenspeicherung und Datensicherheit

Hinsichtlich der Datenquellen und -speicherung wird unterschieden zwischen dem Dokumentformat (z.B. Word, PDF) und Dokumentspeicherort. Der Speicherort der Dokumente kann dabei variieren. Es existiert die Möglichkeit, mithilfe der Konnektoren von Leftshift One sowohl auf lokale Daten als auch auf Dokumente in der Cloud zuzugreifen. Die strikten Datenschutzanforderungen können dabei durch eine klare Trennung zwischen dem Prozess des Hochladens von Daten und dem Interagieren mit MyGPT erfüllt werden.

Datenupdate: „On they fly“!

Damit das Wissensmanagement jederzeit auf aktuellen Informationen beruht, kann das Logistikunternehmen basierend auf zeitlichen Triggern mithilfe eines Konnektors die Dokumente aktualisieren. Da der Ansatz von Leftshift One kein aufwändiges Fine-Tuning vorsieht, müssen nach der Aktualisierung der Daten auch keine Retrainings durchgeführt werden – damit erfolgt das Datenupdate „on the fly“.

Die Schritte von der Datenbasis zum produktiven Einsatz

Die Reise zum produktiven Einsatz von MyGPT begann für das Logistikunternehmen mit einem ersten Kennenlernen mit Leftshift One und dem Durchschauen der Datenbasis. Eine tiefere Analyse der Daten erfolgte anschließend im Data Audit (Link Artikel Data Audit). Dort wurden die Besonderheiten in den Dokumenten durchleuchtet und die weitere Vorgehensweise definiert. Das Logistikunternehmen selbst musste im Anschluss nur noch die benötigten Daten in MyGPT hochladen. Die Verarbeitung erfolgt automatisch im Hintergrund, so dass in kurzer Zeit bereits der produktive Zugriff auf das Wissensmanagement mit MyGPT ermöglicht wird.

Leftshift One: Alleinstellungsmerkmal durch Erfahrung und Eigenentwicklung

Für das Logistikunternehmen lag der Grund, sich bei der Einführung eines KI-basierten Wissensmanagements auf Leftshift One zu verlassen, vor allem auf der umfangreichen und kundenspezifischen Beratung. Tiefes Wissen durch zahlreiche erfolgreiche KI-Projekte in der Vergangenheit ermöglichen Leftshift One jederzeit auf Besonderheiten einzugehen und eine maßgeschneiderte Lösung zu entwickeln. Bezüglich MyGPT sticht vor allem die eigene Entwicklung von Plugins durch Leftshift One heraus, die eine breite Palette an geschäftlichen Anwendungsfällen und technischer Szenarien abdecken..

Innovationen in Multimodalität eröffnen neue Chancen

Mit dem Aufkommen von neuen und leistungsfähigeren KI-Bildmodellen hat Leftshift One die Roadmap für die Weiterentwicklung von MyGPT auch Richtung Multimodalität erweitert. Um dies auch produktiv einzusetzen, gilt es zunächst den tatsächlichen Reifegrad der neuen Technologien zu evaluieren. Hinsichtlich der Datenextraktion- und aufbereitung würde das eine Vielzahl von neuen Möglichkeiten bedeuten.

Werden Sie Teil der exklusiven 7%, die KI produktiv nutzen

Sie möchten mit MyGPT das Wissensmanagement Ihres Unternehmens in das KI-Zeitalter führen und dabei Vertrauenswürdigkeit und Transparenz nicht vernachlässigen? Nehmen Sie Kontakt mit uns auf und wir beraten sie kostenfrei im Erstgespräch!

ChatGPT für Unternehmen

Nutzen sie jetzt die Vorteile von Generativer KI in ihrem Unternehmen.

Machen Sie den ersten Schritt in Richtung einer sicheren und maßgeschneiderten ChatGPT-Alternative für Ihr Unternehmen. Egal ob Sie E-Mails, Dateien und Dokumente klassifizieren oder Kundenanfragen beantworten wollen, wir finden gemeinsam mit Ihnen den passenden Anwendungsfall. Hinterlassen Sie hier Ihre Kontaktdaten und erhalten Sie exklusive Informationen darüber, wie Leftshift One Ihnen die Chancen der generativen KI eröffnen kann.

Zur Bearbeitung Ihrer Anfrage verarbeiten wir die Daten, die Sie im Formular gegenüber angeben. Vielen Dank fürs Ausfüllen!

Nach oben scrollen