Garbage In, Garbage Out. Dieser Grundsatz der Informatik war noch nie so kritisch wie im Zeitalter der KI. Large Language Models verstärken schlechte Datenqualität nicht, sie verpacken sie in selbstsicher klingenden Formulierungen, die selbst erfahrene Nutzer in die Irre führen können. Da Organisationen Conversational-Analytics-Tools wie Databricks Genie einsetzen, steigen die Risiken. Das alte Sprichwort entwickelt sich weiter: Garbage In, Confident Garbage Out.
In unserem letzten Artikel haben wir Databricks' KI-gestützte "Ask Your Data"-Funktionen vorgestellt, einschließlich Genie, einer Funktion, die es Business-Teams ermöglicht, Daten in natürlicher Sprache abzufragen. Genie nutzt generative KI, die auf die Terminologie einer Organisation zugeschnitten ist, aus Nutzerfeedback lernt und nichttechnischen Nutzern hilft, Visualisierungen und Erkenntnisse aus operativen Daten zu generieren.
Qualität in Ihren Genie Space einbauen
Mit einem soliden Fundament beginnen: Saubere Daten vor KI
Datenqualität für Genie beginnt lange bevor Nutzer Fragen stellen. Sie beginnt auf Plattformebene, wo Databricks umfassende Tools bereitstellt, um sicherzustellen, dass qualitativ hochwertige Daten Ihre KI-Analytics-Ebene erreichen.
Datenqualitätsmanagement muss sich über den gesamten Datenbestand erstrecken und sowohl operative Systeme (OLTP) als auch analytische Plattformen (OLAP) abdecken. Das Industriestandard-Framework definiert sechs Kerndimensionen: Konsistenz (Datenwerte widersprechen sich nicht über Systeme hinweg), Vollständigkeit (keine fehlenden Informationen), Genauigkeit (fehlerfreie Daten), Gültigkeit (Konformität mit erforderlichen Formaten), Einzigartigkeit (keine Duplikate) und Aktualität (aktuelle Informationen). Databricks bietet Lakehouse Monitoring, um alle sechs Dimensionen zu verfolgen. Table Monitors erstellen Metrik-Tabellen und automatisch generierte Dashboards, die Qualitätsmetriken im Zeitverlauf visualisieren.
Daten, die in die Analytics-Plattform gelangen, erfüllen selten alle sechs Dimensionen von Anfang an, insbesondere wenn sie aus mehreren Systemen stammen. Während der Ingestion kann Databricks ungültige Daten mithilfe von Constraints blockieren, problematische Datensätze zur Überprüfung unter Quarantäne stellen oder Verstöße für die nachgelagerte Behandlung kennzeichnen. Auto Loader-Funktionen bieten intelligentes Schema-Handling, bei dem Schemata durchgesetzt, weiterentwickelt, überschrieben oder explizit basierend auf Governance-Anforderungen aktualisiert werden können.
Während Daten durch Transformations-Pipelines fließen, verbessert sich die Qualität durch die Medallion-Architektur. Die Bronze Layer hält Rohdaten aus Quellen, angereichert mit Metadaten zur Auffindbarkeit. Die Silver Layer ist der Ort, an dem die meiste Bereinigung stattfindet: Deduplizierung, Schema-Durchsetzung, Schaffung einer einzigen Source of Truth. Databricks bietet mehrere Deduplizierungstechniken durch MERGE-Operationen für Upserts und Ranking-Window-Funktionen, um Duplikate zu identifizieren und zu entfernen. Die Gold Layer liefert verfeinerte, aggregierte Daten, die für Reporting und KI-Tools bereit sind.
Genie Spaces sollten wann immer möglich mit Gold Layer Tables verbunden werden. Dies stellt sicher, dass Nutzer Daten abfragen, die bereits bereinigt und validiert wurden, was einen langen Weg dahin geht, zu verhindern, dass KI selbstsicher Müll-Ergebnisse präsentiert.
Genie Ihre Business Language beibringen
Stellen Sie sich Genie als einen neuen Datenanalysten vor, der Ihrem Unternehmen beitritt. Wie jeder neue Mitarbeiter benötigt Genie klaren Kontext, um effektiv zu sein. Es verlässt sich auf qualitativ hochwertige Metadaten, um zu verstehen, was Daten repräsentieren, Beispielabfragen, um zu lernen, wie das Unternehmen Probleme löst, und strukturierte Definitionen der Business-Terminologie. Je besser das Onboarding, desto besser die Ergebnisse.
Databricks ermöglicht das Hinzufügen von Metadaten auf mehreren Ebenen: Datenbanken, Tabellen, Spalten, sogar einzelne Commits. Eingebaute SQL-Befehle erfassen Metadaten wie Ingestion-Zeitstempel und Quelldatei-Lineage während des Datenladens. Dies hilft bei der Verfolgung von Problemen und unterstützt beim Debugging von Transformationsfehlern. Unity Catalog integriert sich mit Enterprise-Katalogisierungstools und ermöglicht einen umfassenden Metadaten-Export. Gut annotierte Datensätze sind durchsuchbar, nachprüfbar und für KI viel einfacher zu interpretieren. Da jeder Genie Space auf Unity Catalog-registrierten Daten aufbaut, verwendet Genie die an diese Objekte angehängten Metadaten.
Mit Databricks können wir Beschreibungen unserer Datensätze generieren:
Und auch Kommentare zu unseren Spalten hinzufügen:
Jeder Genie Space hat einen Space-Level Knowledge Store, eine Sammlung kuratierter semantischer Definitionen, die Genies Verständnis Ihrer Geschäftsdaten verbessern. Der Knowledge Store ermöglicht es Space-Autoren, Tabellen- und Spaltenbeschreibungen spezifisch für den Space anzupassen, ohne Unity Catalog-Metadaten zu ändern, Geschäftsbegriffe und Synonyme zu definieren und irrelevante Spalten aus dem Space auszublenden.
Genie lernt auch aus der Interaktion. Nutzer können Feedback zu Genies Antworten durch ein einfaches Daumen-hoch- und Daumen-runter-System geben. Wenn Autoren Antworten genehmigen oder Ergebnisse herunterladen, analysiert Genie das SQL und schlägt neue Ausdrücke oder Join-Beziehungen vor, die die zukünftige Genauigkeit verbessern könnten.
Business-Nutzer kennen die exakten Column Names oder Value Formats nicht. Genie überbrückt diese Lücke durch mehrere Features, die die Sprache lernen, die Nutzer natürlich sprechen. Jede Column kann mit Synonyms angereichert werden, die die spezifische Terminologie erfassen, die Nutzer wahrscheinlich verwenden werden, wenn sie mit Genie konversieren.
Prompt Matching besteht aus zwei Komponenten, die Genie helfen, natürliche Sprache zu interpretieren. Format Assistance bietet repräsentative Values für alle geeigneten Columns und hilft Genie, Data Types und Formatting Patterns zu verstehen. Entity Matching kuratiert Listen eindeutiger Values (bis zu 120 Columns, 1.024 Values pro Column) für Fields, auf die Nutzer häufig verweisen, wie States, Product Categories oder Customer Segments. Zusammen ermöglichen diese Features Genie, konversationelle Formulierungen mit tatsächlichen Column Names abzugleichen, Rechtschreibfehler in User Prompts zu korrigieren und Nutzer-Terminologie auf Database Values zu mappen. Prompt Matching ist standardmäßig aktiviert und pro Column anpassbar.
Business Logic für vertrauenswürdige Ergebnisse kodieren
Genauigkeit ist die kritischste Dimension für Genie. KI-Vertrauen kann Nutzer in die Irre führen, insbesondere nichttechnische. Ohne ordnungsgemäße Verankerung in der Business Logic könnte Genie syntaktisch korrekte, aber semantisch falsche Abfragen generieren. Databricks bietet mehrere Mechanismen, um Vertrauen aufzubauen und genaue Ergebnisse sicherzustellen.
Beim Hinzufügen von Data Assets zu einem Genie Space sucht es automatisch nach beliebten Workspace-Queries, die mit diesen Assets verbunden sind. Diese können überprüft und als Example SQL Queries hinzugefügt werden, die Genie helfen, korrektes SQL für häufige Fragen zu generieren. Example Queries können statisch oder parametrisiert sein. Es lohnt sich, die typischste Formulierung der Nutzerfrage als Titel zu verwenden, da dies Genies Fähigkeit verbessert, Prompts abzugleichen. Genie kann das Beispiel direkt verwenden oder Muster daraus lernen. Antworten mit parametrisierten Queries werden als Trusted markiert.
Für komplexe Logik, die nicht offengelegt oder modifiziert werden sollte, können Custom Functions im Unity Catalog registriert werden. Genie kann diese Functions aufrufen, um spezifische Fragen zu beantworten, ohne das zugrunde liegende SQL zu sehen. Antworten, die SQL Functions verwenden, werden ebenfalls als Trusted markiert. Diese Markierungen geben Nutzern die Gewissheit, dass Ergebnisse der etablierten Logik der Organisation folgen, anstatt Genies bester Vermutung.
Jeder Genie Space sollte einen klaren Fokus haben. Um Genie auf Kurs zu halten, muss implizites Business Knowledge durch Join Relationships und SQL Expressions explizit gemacht werden. Join Relationships definieren, wie Tables verbunden sind. Durch die klare Definition dieser Relationships einmal muss Genie nicht raten, wie Tables in Beziehung stehen, was das Halluzinationsrisiko beim Kombinieren von Daten aus mehreren Quellen reduziert.
SQL-Ausdrücke bieten strukturierte Definitionen für KPIs und Metriken (wie wichtige Business-Werte berechnet werden), Business Attributes (zusätzliche Dimensionen für Analysen) und Conditions und Filter (Business Rules für Daten-Subsets). SQL-Ausdrücke ergänzen Example Queries: Ausdrücke sind für wiederverwendbare Business-Konzepte, während Example Queries Genie beibringen, wie häufige Prompt-Formate zu handhaben sind. In unserem Space wollten wir, dass Genie Begriffe wie "Market Share", "Performance" und "Sales" versteht, also haben wir sie als Measures im Knowledge Store hinzugefügt:
Validierung und kontinuierliche Verbesserung
Selbst bei sorgfältiger Einrichtung benötigt Genie fortlaufende Validierung, um sicherzustellen, dass es genaue Ergebnisse liefert. Databricks bietet Benchmarking-Tools, um Genies Leistung im Laufe der Zeit zu messen und zu verbessern.
Benchmarks sind Test-Question-Sets (bis zu 500 pro Space), die die Antwortgenauigkeit von Genie bewerten. Jede Benchmark Question kann optional eine Gold Standard SQL Query enthalten, deren Ergebnisse die korrekte Antwort darstellen, oder eine Unity Catalog SQL Function als Referenz. Beim Hinzufügen neuer Benchmark Queries können Sie sogar Genie das initiale SQL generieren lassen, obwohl dies Vorsicht erfordert, da der eigentliche Zweck von Benchmarks darin besteht, qualitativ hochwertige KI-Ergebnisse sicherzustellen. Es lohnt sich, zu überprüfen, ob das SQL korrekt ist, bevor es als Ground Truth verwendet wird.
Während Benchmark-Läufen vergleicht Genie seine generierten Ergebnisse mit diesen Gold Standards. Nach der Einrichtung einer Benchmarking Suite kann jede Query mit einer Schaltfläche ausgeführt werden. Das System zeigt Ergebnisse nebeneinander an: Genies generiertes SQL und Ergebnisse neben der Ground Truth. Ein automatisierter Vergleich taggt jedes Ergebnis, was es einfach macht, Probleme auf einen Blick zu identifizieren.
Die nützlichsten Benchmarks decken die Fragen ab, die Nutzer am häufigsten stellen, enthalten mehrere Formulierungen derselben Frage, um Robustheit zu testen, verwenden realistische Frageformate, die widerspiegeln, wie Nutzer tatsächlich sprechen, und laufen regelmäßig, während Sie den Space verfeinern. Benchmarks liefern objektive Qualitätsmetriken und helfen zu identifizieren, wo der Knowledge Store verbessert werden muss.
Auf die Probe stellen
Jetzt, da wir unseren Genie Space vorbereitet haben, können wir ihn mit einem absichtlich schlampigen Prompt herausfordern, der nach den Publishern mit dem größten Marktanteil in der nordamerikanischen Region fragt.
Genie bewältigt dies gut. Es lässt sich nicht von unserem Tippfehler, dem Weglassen des Wortes "Publisher" oder der lässigen Art, wie wir Nordamerika erwähnen, beirren. Es liefert einen prägnanten Überblick, unterstützt durch eine Visualisierung.
Fazit
Datenqualität ist keine einmalige Checkliste. Es ist eine fortlaufende Praxis, die bestimmt, ob KI-Tools Wert oder Verwirrung liefern. Für Databricks Genie beginnt Qualität auf der Plattformebene mit Delta Lakes ACID-Garantien, Unity Catalogs Metadaten-Management und der strukturierten Verfeinerung der Medallion-Architektur. Aber damit endet es nicht.
Genie erweitert diese Grundlagen, indem es Datenqualität für KI umsetzbar macht. Durch den Knowledge Store, SQL-Provenance, Prompt Matching und Benchmarks transformiert Genie Roh-Metadaten in Geschäftskontext, der genaue, vertrauenswürdige Erkenntnisse generiert.
Die Investition in Datenqualität zahlt sich aus: bessere KI-Antworten, erhöhtes Nutzervertrauen, schnellere Time-to-Insight für Business Teams und reduzierter Support-Aufwand. Wenn Sie einen Genie Space aufbauen, sind die Grundlagen: Verbindung zu Gold Layer Tables, die bereits bereinigt und validiert wurden, Hinzufügen von Metadaten zu allen Tables und Columns, Erfassen bewährter Queries als Example SQL, um Genie in Ihrer Business Logic zu verankern, Aufbau einer Benchmark Suite, die Ihre häufigsten Fragen abdeckt, und Iteration basierend auf Feedback von tatsächlichen Nutzern.
Wie das Prinzip besagt: Garbage In, Garbage Out. Aber mit bewusster Aufmerksamkeit auf Qualität über alle sechs Dimensionen hinweg ist das Gegenteil erreichbar: Quality In, Confident Quality Out.
Weitere Artikel in diesem Themenbereich
Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.
Blog-Autor*in
Niklas Niggemann
Werkstudent Data & AI
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.