
Ohne den Menschen und seine kreativen Fähigkeiten geht es nicht: Mit einem Wettbewerb unter Abraxas-Mitarbeitenden stellte das Chatbot-Team im Rahmen des internen Programms #SoftwareExcellence die Zusammenarbeit von Mensch und Maschine in den Mittelpunkt. Die Wettbewerbsfrage lautete: Wie können Anfragen von Menschen in Kanton und Gemeinde durch den Chatbot präziser beantwortet werden – und das erst noch in kurzer Zeit?
Die Abraxas-Mitarbeitenden sollten die Fragestellung alleine oder in Teams bearbeiten und Lösungen vorschlagen, wie sich mithilfe einer leistungsfähigen Kontext-Datenbank Mensch und Maschine besser verstehen. Nicht nur Entwickler wurden eingeladen, sondern alle Mitarbeitenden mit Interesse am Thema künstliche Intelligenz (KI) in den Bereichen Steuern, Digital Government und Fachlösungen (DGF) sowie Solution Engineering (SOE).
Das Interesse am Wettbewerb war gross und das organisierende Bot-Team um Software-Ingenieur Peter Unger stellte eine Testumgebung und ein realistisches Set aus 60 Fragen von Kunden zur Verfügung. Zu gewinnende Sachpreise unterstrichen eher, dass es beim Wettbewerb um die Ehre ging, Exzellenz in der Softwareentwicklung zu demonstrieren, was das Ziel des Programms ist: Dieses soll das Fachwissen fördern und der Dynamik und Vielseitigkeit der Softwareentwicklung gerecht werden.
Mit neuer Methodik bessere Antworten bieten
Die Einstiegshürden wurden für die Teilnehmenden eher tief gelegt: Spezifische Programmierkenntnisse oder der Einsatz eines bestimmten Frameworks waren nicht notwendig. Der Chatbot rief eine technologieneutrale Web-API auf und erwartete vom Team eine Web-Antwort (HTTP). Die Entwicklung des entsprechenden Webservices war die Kernaufgabe des Teams, inklusive einer intelligenten Auswertung und Kontextualisierung der menschlichen Anfragen und Erwartungen an den Chatbot.
Anders als bei einer klassischen Suchanfrage per Keyword sind die Vorgänge im Hintergrund eines Large Language Models (LLM), worauf heutige KI-Systeme basieren, weit komplexer. Mit der neuen Methodik «Retrieval Augmented Generation» (RAG) lässt sich die Qualität einer KI verbessern. Ohne neues Training kann sie auf zusätzliche Datenressourcen zugreifen.
Eine solche Wissensdatenbank einer KI füllt sich unaufhörlich mit Kontext zu einer Suchanfrage ausserhalb des Modells, das dabei nicht verändert wird. Eine Vielzahl von Unternehmens- und Organisationsdaten fliesst bei der RAG-Methodik in die KI mit ein und erweitert die Antwortmöglichkeiten eines Chatbots.
Je effizienter die Methodik funktioniert, desto schneller und besser kann dieser antworten. Die zugrunde liegende KI «weiss», wie sie Fragen bereits beantwortet hat und schafft es, präziser zu erkennen, welche Antwort auf eine unklare Frage wie «Wie viel kostet eine Tageskarte?» tatsächlich erwartet wird. Oder dass die Frage: «Wer ist Stadtpräsident von St. Gallen?» nicht auf den männlichen Vorgänger abzielt. Die RAG-nutzende KI kann zudem ihre Quellen präzise benennen.
Kurz: Einen solchen sogenannten «Kontext-Retriever» auf der Basis einer Vector-Datenbank galt es für die Teams zu konzipieren.
Das siegreiche Vorgehen, die Tools und Erkenntnisse
Der Wettbewerb unter den Abraxas-Mitarbeitenden dauerte zwei Monate. Am Ende reichten vier Teams ihre Lösungen ein und massen sich dabei mit der Lösung des Abraxas-Bot-Teams. Klarer Sieger hinsichtlich der Antwortqualität war «Code Monkey». Hinter dem Teamnamen stand Abraxas CTO Christian Werder. Von 600 möglichen Qualitätspunkten erzielte er 476, schlug den Benchmark des Bot-Teams deutlich und erzielte eine Durchlaufzeit von durchschnittlich 8,5 Sekunden. Wie hat er das erreicht? Was war sein Vorgehen?

Christian Werder studierte die Herausforderungen intensiv und entwickelte eine Retriever-Strategie mit einer Kernherausforderung: «Wie kann ich aus einer Frage weitere Fragen ableiten und nur jene Informationen dem Modell zur Verfügung stellen, die es zwingend benötigt?»
Mit einer reinen Optimierung wäre er auf keinen grünen Zweig gekommen, sagte er während einer internen Vorstellung seines Konzepts, das auch die Nutzung von ChatGPT als Hilfsinstrument zur Klassifizierung von Fragen vorsieht. Am Ende des ganzen Prozesses entsteht eine Mehrfachanfrage aus mehreren Perspektiven: «Damit gehe ich in den Retriever».
Fun Fact: Christian Werder setzte für die Entwicklung nur ein altes MacBook, Python, das Open-Source-Framework Langchain und die Faiss Vector Database ein, dazu ein Embedding (Umwandlung von Wörtern und Sätzen in ein numerisches Vektor-Modell) und ein Reranker-Modell (Bewertung der Relevanz von Suchergebnissen), die beide genügsam lokal mit der CPU arbeiten. Sein Learning: «Embedding-Modelle sind kein grosser Hebel». Die Informationsaufbereitung sei entscheidender: «Kontext muss für die KI besser aufbereitet und erfassbar gemacht werden.» Werder zog noch ein anderes Fazit: «Es war spannend, wieder mal die Entwicklungsumgebung anzuschmeissen – der Einstieg fiel einfach, Kompliment dem Team.»

Was der Wettbewerb bewirkt hat
Das Kompliment konnte Peter Unger, Software Engineer im Abraxas-Bots-Team, nur zurückgeben an die vier Teams. Ihre Überlegungen und Ideen fliessen in die Weiterentwicklung des Abraxas-Bots mit ein. «Wir wollen und werden aus den Ergebnissen lernen», sagt er. Freude am Experimentieren und neue Denkansätze führten zu besseren Resultaten.
Als Nebeneffekt des Wettbewerbs verfügt das Abraxas-Bot-Team nun über eine automatische Evaluation der Antwortqualität eines Chatbots, der mit LLM und RAG arbeitet. Vor allem aber, so Peter Unger: «Wir konnten sehr viel von unseren ehrgeizigen Teilnehmenden lernen und diese konnten ihr Wissen über KI und verwandte Technologien stärken».
Daniel Scherrer, Chief Software Security Officer bei Abraxas und für #SoftwareExcellence im Unternehmen verantwortlich, zieht sein persönliches Fazit des Wettbewerbs: «Er hat gezeigt, wie viel kreative Kraft entsteht, wenn Teams über die eigentliche Produktgrenze hinweg zusammenarbeiten. Solche Formate fördern nicht nur die technische Expertise, sondern stärken auch den teamübergreifenden Austausch und den kreativen Umgang mit Herausforderungen.»

Über Bruno Habegger
Bruno Habegger ist Abraxas-Magazin-Autor und Senior Communication Manager. Er verfügt über eine langjährige Erfahrung im ICT- und Energie-Bereich als Journalist, Contentproduzent und Berater. Er war Präsident einer Regionalpartei und an seinem damaligen Wohnort acht Jahre Mitglied der Sicherheitskommission.