Bedeutung
LLM sind das «Gehirn» eines KI-Systems. Es handelt sich um Deep Learning – auf die Verarbeitung von Sprache spezialisiert. Das maschinelle Lernen erfolgt mit Algorithmen, die nach dem Vorbild des Gehirns arbeiten, jedoch ganz spezifische Fähigkeiten haben. LLMs basieren auf einer mathematischen Modellierung von Sprachmustern durch künstliche neuronale Netze, sind also inspiriert von Konzepten der Neurowissenschaft. Das «Gehirn» dient nur als Metapher. In Tat und Wahrheit erkennen LLMs nur Muster und sagen statistisch voraus, welches Wort wahrscheinlich als nächstes kommt.
Ein Modell analysiert riesige Textmengen und gibt je nach KI auf jede beliebige Eingabe des Menschen per Tastatur, Stimme oder mittels Upload beliebige Formate aus: Text, Bild, Video, Grafik, Programmcode und andere. Moderne LLM basieren meist auf der sogenannten Transformer-Architektur. Sie erst ermöglichte den Durchbruch der seit Jahrzehnten entwickelten Künstlichen Intelligenz.

Ausgangslage
Die künstliche Intelligenz (KI, Englisch AI) ist in Wirtschaft und Gesellschaft angekommen. Auch in der öffentlichen Verwaltung ist die Integration eines solchen Produktivitätstreibers ein grosses Thema, obwohl noch keine übergreifende Gesetzgebung besteht.
Abraxas selbst hat eine strategische KI-Initiative lanciert und sieht den Einsatz von KI bei Verwaltungen als Ergänzung und Optimierung bestehender Methoden. Die Integration eines solchen neuen «künstlichen Mitarbeitenden» ist in verschiedener Hinsicht anspruchsvoll, was in der Natur von LLM liegt: Sie denken nicht und sind nur so gut wie die Daten, mit denen sie trainiert werden und am hilfreichsten, wenn sie verantwortungsvoll implementiert und genutzt werden. Der Mensch muss klare Leitplanken setzen.
Geschichte
Die ersten Sprachmodelle sind in den 1960er-Jahren entwickelt worden. ELIZA etwa simulierte mit einfachen Mustern menschliche Dialoge – so echt, dass viele Testpersonen dachten, sie sprächen mit einem Menschen. Die Regeln waren allerdings vordefiniert. Statistische Sprachmodelle entstanden in der Folge und frühe neuronale Netze.
Den Durchbruch schafften LLM erst mit der Einführung der sogenannten Transformer-Architektur durch Google-Forschende. Dabei werden Texte in Zahlen (Tokens) kodiert und parallel verarbeitet. Sie wurde erstmals in der wegweisenden Veröffentlichung von 2017 «Attention is All You Need» von Ashish Vaswani und anderen beschrieben.
Danach ging es schnell: 2018 veröffentlichte OpenAI GPT-1 mit 117 Mio. Parametern, Google legte mit BERT und dreimal mehr Parametern nach – war also weit leistungsfähiger. In mehreren Schritten entwickelten sich LLM zur Anwendungsreife mit inzwischen Milliarden von Parametern. Der breiten Öffentlichkeit wurden LLMs erst durch ChatGPT im Jahr 2022 bekannt: Die Menschen konnten zum ersten Mal über eine einfache Oberfläche mit einem LLM «sprechen». Google folgte 2023 mit Bard (heute Gemini).
Die Entwicklung verläuft seither rasant. Es gibt über 40 relevante LLM verschiedenster Firmen und Organisationen, dazu eine unbekannte Zahl weiterer Modelle – jedes mit eigenen Stärken und Schwächen. Im Juli 2025 lancierte auch die ETH Zürich gemeinsam mit der EPFL Lausanne ein eigenes LLM, entwickelt im Schweizer Supercomputer-Zentrum CSCS. Es soll vollständig offen sein – auch die Trainingsdaten – und mehr als 1000 Sprachen beherrschen.
Deep Dive
Ein LLM ist ein auf die Sprachverarbeitung spezialisiertes neuronales Netzwerk. Es wird mit Hilfe von beliebigen Daten trainiert. Dabei werden die Wörter und Wortteile zuerst zu Zahlen umgewandelt – Computer können nur damit arbeiten. Diese Zahlen nennt man «Vektoren» und zeigen dem Computer den Zusammenhang der Wörter.
Der Transformer schaut sich nun alle Wörter (bzw. Zahlen) gleichzeitig an. Er merkt sich, welche Wörter wichtig sind und welche zusammengehören. Wird eine Eingabe gemacht, berechnet der Computer mit dem LLM das nächste passende Wort. Das gelingt mit vielen Parametern besser.
Die meisten modernen LLM sind im Gegensatz zu GPT-3 multimodal. Sie können also nicht nur Text, sondern auch Bilder in Zahlen zerlegen. Je mehr Bilder mit einer Katze das Modell «gesehen» hat, desto präziser kann es eine Katze auf einem beliebigen Bild «erkennen». Ähnlich, nur komplexer, ist die Verarbeitung von Videos (Einzelbilder, Audiospur, zeitliche Abfolge). Einfacher ist es wiederum mit Programmiercode – es handelt sich ja um Text. Das LLM erkennt die Muster und kann so mit Code umgehen und «programmieren». Im Zusammenspiel mit einem zusätzlichen RAG (Retrieval-Augmented Generation) kann das LLM bei einer Anfrage einen Kontext durch den Beizug neuer externer Quellen herstellen. Ansonsten wäre das Modell-Wissen beschränkt auf das bereits Gelernte.
Nun wird auch klar, warum es immer Menschen im Loop braucht. LLMs können Fehler machen. Sie lassen sich leicht durch Verzerrungen im Trainingsmaterial aus der ethischen, moralischen und inhaltlichen Spur («Halluzinationen») bringen. Sie sind zudem auf gutes, relevantes Material angewiesen. Ob sie dabei Urheberrechte verletzen, ist noch ungeklärt. Sie lassen sich durch bösartige Akteure manipulieren und erleichtern Kriminellen die Arbeit. Das sieht man auch an der steigenden Qualität der Phishing-E-Mails in der Inbox.
Wirkung
Chancen und Risiken von LLMs sind immens. Vieles ist aber ungeklärt, obwohl die Implementierung in Gesellschaft und Wirtschaft bereits angelaufen ist. In der Theorie sorgen LLM für Produktivitätsschübe, fördern neue Geschäftsmodelle und Innovationen, verändern Berufe und Tätigkeiten, schaffen Inklusion und lassen – vergleichbar mit der Einführung der Elektrizität – die globale Wirtschaft wachsen.
Die Kehrseite: KI auf LLM-Basis bilden auch einige Risiken, von denen selbst LLM-Entwickler immer wieder sprechen. Erst jüngst hat OpenAI-Chef Sam Altman in der Folge eins des offiziellen OpenAI-Postcasts davor gewarnt, der KI zu sehr zu vertrauen. «ChatGPT ist nicht besonders zuverlässig», sagte er. Zudem mahnte er, man solle den neuen ChatGPT Agenten nicht auf E-Mails zugreifen lassen.
Banken warnte er wiederum vor der Verwundbarkeit ihrer Authentifizierungsmethoden und vor einer kommenden Welle an Betrugsversuchen. Mit Ausnahme von Passwörtern könnten LLMs laut Altman alle Authentifizierungsmethoden überwinden. Terroristen könnten zudem das Stromnetz lahmlegen und mit LLM-Hilfe biologische Waffen entwickeln. «Ich habe manchmal Angst vor der KI», sagte Altman in Theo Von's Podcast.
Das amerikanische «Center for AI Safety» listet zahlreiche Risiken mit möglichen katastrophalen Folgen auf. Eines davon ist der Kontrollverlust über die KI. Diese würde vielleicht versuchen, die Menschheit auszulöschen – bis der Strom ausfällt.
Fazit: Chancen und Risiken von LLMs sind immens. Vieles ist aber ungeklärt, obwohl die Implementierung in Gesellschaft und Wirtschaft bereits angelaufen ist. In der Theorie sorgen LLM für Produktivitätsschübe, fördern neue Geschäftsmodelle und Innovationen, verändern Berufe und Tätigkeiten, schaffen Inklusion und lassen – vergleichbar mit der Einführung der Elektrizität – die globale Wirtschaft wachsen.
Alle bisher erschienenen Buchstaben im digitalen ABC
-
A
wie Artificial Intelligence
Artificial Intelligence; abgek. AI,
engl. für dt. künstliche Intelligenz, abgek. KI -
B
wie Big Data
Big Data (von englisch big = gross und data = Daten)
-
B
wie Bug Bounty
Bug-Bounty-Programm (engl. sinng. Kopfgeld-Programm für Programmierfehler)
-
C
wie Cloud
Cloud, w.
-
C
wie CERT
CERT, Akronym für engl. Computer Emergency Response Team
-
D
wie Digitale Schweiz
1. Digitale Schweiz, w. (die digitale Transformation der Schweiz betreffend)
2. Nebenbedeutung: Teil des Markenversprechens von Abraxas. «Für die digitale Schweiz. Mit Sicherheit» -
D
wie DevOps
DevOps, Kofferwort für Development und Operations
-
E
wie E-ID
E-ID, w. (staatlich anerkannte, nationale elektronische Identität)
-
E
wie Entra ID
Entra ID, cloudbasierter Identitäts- und Zugriffsverwaltungsdienst von Microsoft; neue Bezeichnung für Azure AD.
-
F
wie Firewall
Firewall, w.
engl. für Brandmauer -
F
wie Federated Machine Learning
Federated Machine Learning,
abgekürzt FML, engl. für föderiertes Lernen. -
G
wie Graphical User Interface
GUI, s. (Abk. für engl. Graphical User Interface)
-
G
wie GitOps
GitOps,
Kofferwort für Git (Versionskontrollsoftware) und Operations -
H
wie Hermes
Hermes, m.
1. Götterbote aus der griech. Mythologie, u. a. Gott des Handels, Begleiter der Toten in den Hades
2. frz. Familienunternehmen mit Sitz in Paris für Luxus-Modeartikel
3. Abk. für «Handbuch der Elektronischen Rechenzentren des Bundes, eine Methode zur Entwicklung von Systemen», offener Standard zur Führung und Abwicklung von IT-Systemen -
H
wie Hybrid Cloud
-
I
wie IoT
IoT, s.
Abk. für engl. Internet of Things -
I
wie IAM
IAM, s.
Abk. für engl. Identity and Access Management -
J
wie Java
Java, s.
1. kleinste der Grossen Sundainseln (Indonesien)
2. systemunabhängige Programmiertechnologie, besonders für Anwendungen im Internet -
J
wie JSON
JSON,
Abk. für «JavaScript Object Notation». -
K
wie Kubernetes
Kubernetes, m.
1. Steuermann (altgriechisch)
2. Container-Orchestrierungssystem (Software) -
K
wie Kritische Infrastruktur
kritische Infrastruktur, w.
Bezeichnung für besonders wichtige und systemrelevante Infrastrukturen, ohne die die Schweiz Krisen nur schwer überleben könnte. -
L
wie Latenz
Latenz, f.
1. Vorhandensein einer noch nicht sichtbaren Sache
2. Zeit zwischen Reiz und Reaktion (Physiologie)
3. symptomfreie Zeit zwischen Ansteckung und Ausbruch einer Krankheit (Medizin)
4. Zeit zwischen Anfrage und Antwort (IT) -
L
wie LLM
-
M
wie Malware
Malware, f.
Software, die in Computersysteme eindringen und dort Störungen oder Schäden verursachen kann -
N
wie New Work
New Work, n. od. f.
engl. für Neue Arbeit
Gesamtheit der modernen und flexiblen Formen der Arbeit bzw. der Arbeitsorganisation -
O
wie Outsourcing
Outsourcing, n.
engl. für Auslagerung
Übergabe von Aufgaben und / oder Strukturen eines Unternehmens an externe Dienstleister -
P
wie Proxy
Proxy, m.
engl. für Stellvertreter
ein Vermittler von Anfragen in Computernetzwerken -
Q
wie Quantencomputer
Quantencomputer, m.
Aus Qubits und Quantengattern aufgebauter Computer, der die Gesetze der Quantenmechanik ausnutzt. -
R
wie Redundanz
Redundanz, f.
Zusätzliche technische Ressourcen als Reserve (Technik) -
S
wie Software-as-a-Service
SaaS, (ohne Artikel)
Kurzwort für englisch Software-as-a-Service = Software als Dienstleistung -
T
wie Transport Layer Security
TLS, m.,
Kurzwort für englisch Transport Layer Security (= Transportschicht-Sicherheit) -
U
wie USV
USV, w.,
Abk. für Unterbrechungsfreie Stromversorgung -
V
wie VPN
VPN, n.,
Abk. für engl. virtual private network = virtuelles privates Netzwerk -
W
wie White-Hat-Hacker
White-Hat-Hacker, m.
Ein White-Hat-Hacker (Oder White Hat, engl. für Weisser Hut) ist ein ethischer Hacker für Computersicherheit. -
X
wie XSS (Cross-Site-Scripting)
XSS, s.
Abk. für engl. Cross-Site-Scripting; dieses webseitenübergreifendes Scripting ist eine Angriffsmethode von Cyberkriminellen. -
Y
wie Y2K
Y2K,
Numeronym für das Jahr-2000-Problem, engl. Year und 2K für 2 Kilo = 2000 -
Z
wie z/OS
z/OS,
seit 2001 im Einsatz stehendes Betriebssystem für IBM-Grossrechner

Über Bruno Habegger
Bruno Habegger ist Abraxas-Magazin-Autor und Senior Communication Manager. Er verfügt über eine langjährige Erfahrung im ICT- und Energie-Bereich als Journalist, Contentproduzent und Berater. Er war Präsident einer Regionalpartei und an seinem damaligen Wohnort acht Jahre Mitglied der Sicherheitskommission.