Was sind eigentlich LLMs?

Bedeutung

LLM sind das «Gehirn» eines KI-Systems. Es handelt sich um Deep Learning – auf die Verarbeitung von Sprache spezialisiert. Das maschinelle Lernen erfolgt mit Algorithmen, die nach dem Vorbild des Gehirns arbeiten, jedoch ganz spezifische Fähigkeiten haben. LLMs basieren auf einer mathematischen Modellierung von Sprachmustern durch künstliche neuronale Netze, sind also inspiriert von Konzepten der Neurowissenschaft. Das «Gehirn» dient nur als Metapher. In Tat und Wahrheit erkennen LLMs nur Muster und sagen statistisch voraus, welches Wort wahrscheinlich als nächstes kommt.

Ein Modell analysiert riesige Textmengen und gibt je nach KI auf jede beliebige Eingabe des Menschen per Tastatur, Stimme oder mittels Upload beliebige Formate aus: Text, Bild, Video, Grafik, Programmcode und andere. Moderne LLM basieren meist auf der sogenannten Transformer-Architektur. Sie erst ermöglichte den Durchbruch der seit Jahrzehnten entwickelten Künstlichen Intelligenz.

Ausgangslage

Die künstliche Intelligenz (KI, Englisch AI) ist in Wirtschaft und Gesellschaft angekommen. Auch in der öffentlichen Verwaltung ist die Integration eines solchen Produktivitätstreibers ein grosses Thema, obwohl noch keine übergreifende Gesetzgebung besteht.

Abraxas selbst hat eine strategische KI-Initiative lanciert und sieht den Einsatz von KI bei Verwaltungen als Ergänzung und Optimierung bestehender Methoden. Die Integration eines solchen neuen «künstlichen Mitarbeitenden» ist in verschiedener Hinsicht anspruchsvoll, was in der Natur von LLM liegt: Sie denken nicht und sind nur so gut wie die Daten, mit denen sie trainiert werden und am hilfreichsten, wenn sie verantwortungsvoll implementiert und genutzt werden. Der Mensch muss klare Leitplanken setzen.

Geschichte

Die ersten Sprachmodelle sind in den 1960er-Jahren entwickelt worden. ELIZA etwa simulierte mit einfachen Mustern menschliche Dialoge – so echt, dass viele Testpersonen dachten, sie sprächen mit einem Menschen. Die Regeln waren allerdings vordefiniert. Statistische Sprachmodelle entstanden in der Folge und frühe neuronale Netze.

Den Durchbruch schafften LLM erst mit der Einführung der sogenannten Transformer-Architektur durch Google-Forschende. Dabei werden Texte in Zahlen (Tokens) kodiert und parallel verarbeitet. Sie wurde erstmals in der wegweisenden Veröffentlichung von 2017 «Attention is All You Need» von Ashish Vaswani und anderen beschrieben.

Danach ging es schnell: 2018 veröffentlichte OpenAI GPT-1 mit 117 Mio. Parametern, Google legte mit BERT und dreimal mehr Parametern nach – war also weit leistungsfähiger. In mehreren Schritten entwickelten sich LLM zur Anwendungsreife mit inzwischen Milliarden von Parametern. Der breiten Öffentlichkeit wurden LLMs erst durch ChatGPT im Jahr 2022 bekannt: Die Menschen konnten zum ersten Mal über eine einfache Oberfläche mit einem LLM «sprechen». Google folgte 2023 mit Bard (heute Gemini).

Die Entwicklung verläuft seither rasant. Es gibt über 40 relevante LLM verschiedenster Firmen und Organisationen, dazu eine unbekannte Zahl weiterer Modelle – jedes mit eigenen Stärken und Schwächen. Im Juli 2025 lancierte auch die ETH Zürich gemeinsam mit der EPFL Lausanne ein eigenes LLM, entwickelt im Schweizer Supercomputer-Zentrum CSCS. Es soll vollständig offen sein – auch die Trainingsdaten – und mehr als 1000 Sprachen beherrschen.

Deep Dive

Ein LLM ist ein auf die Sprachverarbeitung spezialisiertes neuronales Netzwerk. Es wird mit Hilfe von beliebigen Daten trainiert. Dabei werden die Wörter und Wortteile zuerst zu Zahlen umgewandelt – Computer können nur damit arbeiten. Diese Zahlen nennt man «Vektoren» und zeigen dem Computer den Zusammenhang der Wörter.

Der Transformer schaut sich nun alle Wörter (bzw. Zahlen) gleichzeitig an. Er merkt sich, welche Wörter wichtig sind und welche zusammengehören. Wird eine Eingabe gemacht, berechnet der Computer mit dem LLM das nächste passende Wort. Das gelingt mit vielen Parametern besser.

Die meisten modernen LLM sind im Gegensatz zu GPT-3 multimodal. Sie können also nicht nur Text, sondern auch Bilder in Zahlen zerlegen. Je mehr Bilder mit einer Katze das Modell «gesehen» hat, desto präziser kann es eine Katze auf einem beliebigen Bild «erkennen». Ähnlich, nur komplexer, ist die Verarbeitung von Videos (Einzelbilder, Audiospur, zeitliche Abfolge). Einfacher ist es wiederum mit Programmiercode – es handelt sich ja um Text. Das LLM erkennt die Muster und kann so mit Code umgehen und «programmieren». Im Zusammenspiel mit einem zusätzlichen RAG (Retrieval-Augmented Generation) kann das LLM bei einer Anfrage einen Kontext durch den Beizug neuer externer Quellen herstellen. Ansonsten wäre das Modell-Wissen beschränkt auf das bereits Gelernte.

Nun wird auch klar, warum es immer Menschen im Loop braucht. LLMs können Fehler machen. Sie lassen sich leicht durch Verzerrungen im Trainingsmaterial aus der ethischen, moralischen und inhaltlichen Spur («Halluzinationen») bringen. Sie sind zudem auf gutes, relevantes Material angewiesen. Ob sie dabei Urheberrechte verletzen, ist noch ungeklärt. Sie lassen sich durch bösartige Akteure manipulieren und erleichtern Kriminellen die Arbeit. Das sieht man auch an der steigenden Qualität der Phishing-E-Mails in der Inbox.

Wirkung

Chancen und Risiken von LLMs sind immens. Vieles ist aber ungeklärt, obwohl die Implementierung in Gesellschaft und Wirtschaft bereits angelaufen ist. In der Theorie sorgen LLM für Produktivitätsschübe, fördern neue Geschäftsmodelle und Innovationen, verändern Berufe und Tätigkeiten, schaffen Inklusion und lassen – vergleichbar mit der Einführung der Elektrizität – die globale Wirtschaft wachsen.

Die Kehrseite: KI auf LLM-Basis bilden auch einige Risiken, von denen selbst LLM-Entwickler immer wieder sprechen. Erst jüngst hat OpenAI-Chef Sam Altman in der Folge eins des offiziellen OpenAI-Postcasts davor gewarnt, der KI zu sehr zu vertrauen. «ChatGPT ist nicht besonders zuverlässig», sagte er. Zudem mahnte er, man solle den neuen ChatGPT Agenten nicht auf E-Mails zugreifen lassen.

Banken warnte er wiederum vor der Verwundbarkeit ihrer Authentifizierungsmethoden und vor einer kommenden Welle an Betrugsversuchen. Mit Ausnahme von Passwörtern könnten LLMs laut Altman alle Authentifizierungsmethoden überwinden. Terroristen könnten zudem das Stromnetz lahmlegen und mit LLM-Hilfe biologische Waffen entwickeln. «Ich habe manchmal Angst vor der KI», sagte Altman in Theo Von's Podcast.

Das amerikanische «Center for AI Safety» listet zahlreiche Risiken mit möglichen katastrophalen Folgen auf. Eines davon ist der Kontrollverlust über die KI. Diese würde vielleicht versuchen, die Menschheit auszulöschen – bis der Strom ausfällt.

Fazit: Chancen und Risiken von LLMs sind immens. Vieles ist aber ungeklärt, obwohl die Implementierung in Gesellschaft und Wirtschaft bereits angelaufen ist. In der Theorie sorgen LLM für Produktivitätsschübe, fördern neue Geschäftsmodelle und Innovationen, verändern Berufe und Tätigkeiten, schaffen Inklusion und lassen – vergleichbar mit der Einführung der Elektrizität – die globale Wirtschaft wachsen.

Alle bisher erschienenen Buchstaben im digitalen ABC

Abraxas erklärt die wichtigsten Begriffe und Buzzwords der IT-Branche.

A
wie Artificial Intelligence

Artificial Intelligence; abgek. AI,
engl. für dt. künstliche Intelligenz, abgek. KI

Zum Artikel im digitalen ABC
B
wie Big Data

Big Data (von englisch big = gross und data = Daten)

Zum Artikel im digitalen ABC
B
wie Bug Bounty

Bug-Bounty-Programm (engl. sinng. Kopfgeld-Programm für Programmierfehler)

Zum Artikel im digitalen ABC
C
wie Cloud

Cloud, w.

Zum Artikel im digitalen ABC
C
wie CERT

CERT, Akronym für engl. Computer Emergency Response Team

Zum Artikel im digitalen ABC
D
wie Digitale Schweiz

1. Digitale Schweiz, w. (die digitale Transformation der Schweiz betreffend)
2. Nebenbedeutung: Teil des Markenversprechens von Abraxas. «Für die digitale Schweiz. Mit Sicherheit»

Zum Artikel im digitalen ABC
D
wie DevOps

DevOps, Kofferwort für Development und Operations

Zum Artikel im digitalen ABC
E
wie E-ID

E-ID, w. (staatlich anerkannte, nationale elektronische Identität)

Zum Artikel im digitalen ABC
E
wie Entra ID

Entra ID, cloudbasierter Identitäts- und Zugriffsverwaltungsdienst von Microsoft; neue Bezeichnung für Azure AD.

Zum Artikel im digitalen ABC
F
wie Firewall

Firewall, w.
engl. für Brandmauer

Zum Artikel im digitalen ABC
F
wie Federated Machine Learning

Federated Machine Learning,
abgekürzt FML, engl. für föderiertes Lernen.

zum Artikel im digitalen ABC
G
wie Graphical User Interface

GUI, s. (Abk. für engl. Graphical User Interface)

Zum Artikel im digitalen ABC
G
wie GitOps

GitOps,
Kofferwort für Git (Versionskontrollsoftware) und Operations

zum Artikel im digitalen ABC
H
wie Hermes

Hermes, m.
1. Götterbote aus der griech. Mythologie, u. a. Gott des Handels, Begleiter der Toten in den Hades
2. frz. Familienunternehmen mit Sitz in Paris für Luxus-Modeartikel
3. Abk. für «Handbuch der Elektronischen Rechenzentren des Bundes, eine Methode zur Entwicklung von Systemen», offener Standard zur Führung und Abwicklung von IT-Systemen

Zum Artikel im digitalen ABC
H
wie Hybrid Cloud

Hybrid Cloud

IT-Architektur aus privater und öffentlicher Cloud.

Zum Artikel im digitalen ABC
I
wie IoT

IoT, s.
Abk. für engl. Internet of Things

Zum Artikel im digitalen ABC
I
wie IAM

IAM, s.
Abk. für engl. Identity and Access Management

Zum Artikel im digitalen ABC
J
wie Java

Java, s.
1. kleinste der Grossen Sundainseln (Indonesien)
2. systemunabhängige Programmiertechnologie, besonders für Anwendungen im Internet

Zum Artikel im digitalen ABC
J
wie JSON

JSON,
Abk. für «JavaScript Object Notation».

Zum Artikel im digitalen ABC
K
wie Kubernetes

Kubernetes, m.
1. Steuermann (altgriechisch)
2. Container-Orchestrierungssystem (Software)

Zum Artikel im digitalen ABC
K
wie Kritische Infrastruktur

kritische Infrastruktur, w.
Bezeichnung für besonders wichtige und systemrelevante Infrastrukturen, ohne die die Schweiz Krisen nur schwer überleben könnte.

Zum Artikel im digitalen ABC
L
wie Latenz

Latenz, f.
1. Vorhandensein einer noch nicht sichtbaren Sache
2. Zeit zwischen Reiz und Reaktion (Physiologie)
3. symptomfreie Zeit zwischen Ansteckung und Ausbruch einer Krankheit (Medizin)
4. Zeit zwischen Anfrage und Antwort (IT)

Zum Artikel im digitalen ABC
L
wie LLM
M
wie Malware

Malware, f.
Software, die in Computersysteme eindringen und dort Störungen oder Schäden verursachen kann

Zum Artikel im digitalen ABC
M
wie Managed Workplace

Managed Workplace, m.
engl. Begriff für IT-Dienstleistungen mit externer Betreuung, erbracht von einem Managed Service Provider.

Zum Artikel im digitalen ABC
N
wie No Code

No Code, engl. Begriff für eine bestimmte Art der Softwareentwicklung und des Programmierens.

zum Artikel im digitalen ABC
N
wie New Work

New Work, n. od. f.
engl. für Neue Arbeit
Gesamtheit der modernen und flexiblen Formen der Arbeit bzw. der Arbeitsorganisation

zum Artikel im digitalen ABC
O
wie Outsourcing

Outsourcing, n.
engl. für Auslagerung
Übergabe von Aufgaben und / oder Strukturen eines Unternehmens an externe Dienstleister

zum Artikel im digitalen ABC
P
wie Proxy

Proxy, m.
engl. für Stellvertreter
ein Vermittler von Anfragen in Computernetzwerken

zum Artikel im digitalen ABC
Q
wie Quantencomputer

Quantencomputer, m.
Aus Qubits und Quantengattern aufgebauter Computer, der die Gesetze der Quantenmechanik ausnutzt.

zum Artikel im digitalen ABC
R
wie Redundanz

Redundanz, f.
Zusätzliche technische Ressourcen als Reserve (Technik)

zum Artikel im digitalen ABC
S
wie Software-as-a-Service

SaaS, (ohne Artikel)
Kurzwort für englisch Software-as-a-Service = Software als Dienstleistung

zum Artikel im digitalen ABC
T
wie Transport Layer Security

TLS, m.,
Kurzwort für englisch Transport Layer Security (= Transportschicht-Sicherheit)

zum Artikel im digitalen ABC
U
wie USV

USV, w.,
Abk. für Unterbrechungsfreie Stromversorgung

zum Artikel im digitalen ABC
V
wie VPN

VPN, n.,
Abk. für engl. virtual private network = virtuelles privates Netzwerk

zum Artikel im digitalen ABC
W
wie White-Hat-Hacker

White-Hat-Hacker, m.
Ein White-Hat-Hacker (Oder White Hat, engl. für Weisser Hut) ist ein ethischer Hacker für Computersicherheit.

zum Artikel im digitalen ABC
X
wie XSS (Cross-Site-Scripting)

XSS, s.
Abk. für engl. Cross-Site-Scripting; dieses webseitenübergreifendes Scripting ist eine Angriffsmethode von Cyberkriminellen.

zum Artikel im digitalen ABC
Y
wie Y2K

Y2K,
Numeronym für das Jahr-2000-Problem, engl. Year und 2K für 2 Kilo = 2000

zum Artikel im digitalen ABC
Z
wie z/OS

z/OS,
seit 2001 im Einsatz stehendes Betriebssystem für IBM-Grossrechner

zum Artikel im digitalen ABC

Über Bruno Habegger

Bruno Habegger ist Abraxas-Magazin-Autor und Senior Communication Manager. Er verfügt über eine langjährige Erfahrung im ICT- und Energie-Bereich als Journalist, Contentproduzent und Berater. Er war Präsident einer Regionalpartei und an seinem damaligen Wohnort acht Jahre Mitglied der Sicherheitskommission.