Wer lokale KI ernst meint, sollte nicht nur auf Workstations und Cloud-GPUs schauen. Die interessantere Frage lautet oft: Was läuft noch sinnvoll, wenn Hardware knapp, Strombudget begrenzt und Latenz kritisch ist?

Genau dafür ist der Raspberry Pi 5 ein gutes Testfeld. Er ist nicht dafür da, Frontier-Modelle zu stemmen. Aber er ist schnell genug, um zu zeigen, wo kleine Sprachmodelle heute praktisch werden.

Und genau hier kommt TinyStories ins Spiel.

Warum TinyStories ein guter Kandidat für den Pi 5 ist

TinyStories ist mehr als ein nettes Mini-Modell. Das zugrunde liegende Paper von Ronen Eldan und Yuanzhi Li zeigt, dass bereits sehr kleine Sprachmodelle kohärente Sprache erzeugen können, wenn der Datenraum sauber konstruiert ist. Die Autoren trainieren auf einem synthetischen Datensatz mit einfachen Geschichten und demonstrieren, dass sogar Modelle mit unter 10 Millionen Parametern erstaunlich konsistente Ergebnisse liefern können.

Für den Raspberry Pi ist das ideal. Nicht weil TinyStories ein Ersatz für große Assistenten wäre, sondern weil es genau das tut, was man für einen lokalen Härtetest braucht:

überschaubare Modellgröße
klar begrenzter Sprachraum
schneller Start ohne Cloud-Abhängigkeit
gut geeignet, um Latenz, Speicherbedarf und Laufzeitverhalten zu beobachten

Praktisch ist auch die verfügbare Modellfamilie auf Hugging Face. Das Modell roneneldan/TinyStories-33M basiert auf GPT-Neo, nutzt laut Model Card eine Kontextlänge von 512 und verweist auf einen Datensatz mit 2,14 Millionen Beispielen. Das ist genau die Größenordnung, in der Experimente auf kleiner Hardware Spaß machen, statt in Frust umzuschlagen.

Warum der Raspberry Pi 5 dafür interessant ist

Der Raspberry Pi 5 ist kein KI-Beschleuniger im klassischen Sinn. Er bringt aber genug Substanz mit, um kleine Sprachmodelle lokal zu testen:

Broadcom BCM2712, 2,4 GHz, Quad-Core Cortex-A76
LPDDR4X-RAM mit Varianten bis 16 GB
PCIe 2.0 x1, falls Sie später mit schnellerem Storage experimentieren möchten
optional aktiver Kühler, den Raspberry Pi für Dauerlast ausdrücklich empfiehlt

Wichtig ist die Einordnung: Der Pi 5 hat zwar eine VideoCore-VII-GPU, aber für klassische Transformer-Inference in Python ist in der Praxis meistens die CPU der entscheidende Pfad. Wer lokal mit kleinen Modellen arbeitet, sollte den Pi 5 deshalb eher als effiziente CPU-Plattform verstehen und nicht als Ersatz für eine CUDA-Maschine.

Genau das macht ihn für lokale KI so interessant: Er zwingt zu Disziplin. Man arbeitet automatisch näher an der Realität von Edge-Geräten, Industrie-Hardware und stromsparenden On-Prem-Systemen.

Was Sie für einen sauberen Start brauchen

Für einen ersten lokalen Test würde ich Folgendes ansetzen:

Raspberry Pi 5 mit 64-Bit Raspberry Pi OS
möglichst 8 GB RAM oder mehr
aktive Kühlung bei längeren Läufen
ein solides 5V/5A-Netzteil, wenn zusätzlich USB-Peripherie oder Dauerlast dazukommt

Die Empfehlung für Kühlung und Netzteil kommt nicht aus Bastler-Paranoia, sondern direkt aus der Raspberry-Pi-Dokumentation: Unter anhaltender Last arbeitet der Pi 5 stabiler und ohne unnötiges Throttling, wenn Stromversorgung und Thermik sauber sind.

Einrichtung: bewusst einfach halten

Für einen ersten Test lohnt es sich, die Toolchain möglichst schlicht zu halten. Kein Benchmark-Zoo, kein exotisches Runtime-Tuning, keine komplizierten Container-Setups.

sudo apt update
sudo apt full-upgrade -y
sudo apt install -y python3-venv python3-pip git

mkdir -p ~/tinystories-pi
cd ~/tinystories-pi
python3 -m venv .venv
. .venv/bin/activate
python -m pip install --upgrade pip
pip install torch transformers safetensors

Hinweis: Je nach Raspberry-Pi-OS-Image, Python-Version und Architektur kann die genaue torch-Installation variieren. Für einen ersten Blog-Durchlauf ist der entscheidende Punkt aber nicht die perfekte Wheel-Strategie, sondern ein reproduzierbarer Minimalaufbau.

Minimaler Test: TinyStories lokal starten

Ein kleines Python-Skript reicht, um zu prüfen, ob der Stack sauber läuft:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import time

model_id = "roneneldan/TinyStories-33M"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
model.eval()

prompt = "Once upon a time there was a tiny robot"
inputs = tokenizer(prompt, return_tensors="pt")

start = time.perf_counter()
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=120,
        do_sample=True,
        temperature=0.8,
        top_p=0.95,
    )
duration = time.perf_counter() - start

text = tokenizer.decode(output[0], skip_special_tokens=True)
new_tokens = output.shape[-1] - inputs["input_ids"].shape[-1]

print(text)
print(f"{new_tokens} neue Tokens in {duration:.2f}s ({new_tokens / duration:.2f} tok/s)")

Starten Sie das Skript anschließend mit:

python run_tinystories.py

Wenn alles sauber installiert ist, erhalten Sie innerhalb weniger Sekunden bis Minuten eine kurze Geschichte. Nicht perfekt. Nicht weltwissend. Aber lokal, reproduzierbar und ohne irgendeine Cloud dazwischen.

Was Sie realistisch erwarten sollten

An dieser Stelle passieren oft zwei typische Fehlinterpretationen:

„Der Pi 5 ist zu langsam für KI.“
Falsch. Er ist zu langsam für viele große Modelle, aber nicht für alle sinnvollen KI-Experimente.
„Wenn TinyStories läuft, kann ich auch gleich einen vollwertigen Firmenassistenten lokal betreiben.“
Ebenfalls falsch. TinyStories ist ein sehr gutes Demonstrations- und Lernmodell, aber kein universelles Produktionssystem.

Der eigentliche Wert liegt woanders:

Sie bekommen ein Gefühl für lokale Inference
Sie sehen, wie stark Modellgröße und Datenraum die Nutzbarkeit bestimmen
Sie lernen, wo Speicher, Temperatur und Laufzeit zum limitierenden Faktor werden
Sie schaffen die Grundlage für den nächsten Schritt: quantisierte, spezialisierte Modelle

Gerade der letzte Punkt ist wichtig. Für ernsthafte lokale Produktivsysteme würde ich auf so einer Plattform langfristig eher zu stark optimierten, quantisierten Runtimes greifen als zu einer reinen Standard-PyTorch-Ausführung. Aber für einen verständlichen ersten Einstieg ist TinyStories nahezu perfekt.

Warum dieser kleine Test strategisch interessant ist

Der Pi-5-Test ist kein Nerd-Spielzeug. Er ist eine gute Management-Frage in Hardwareform:

Wie viel KI brauche ich wirklich, um einen konkreten Nutzen lokal bereitzustellen?

Sobald diese Frage sauber gestellt wird, verändert sich die Perspektive. Dann geht es nicht mehr darum, das größte verfügbare Modell auf ein Gerät zu pressen. Dann geht es um:

Datenschutz
Kostenkontrolle
geringe Latenz
Offline-Fähigkeit
robuste Spezialisierung

Und genau dort beginnt der Bereich, in dem kleine Modelle wirtschaftlich interessant werden.

Fazit

TinyStories auf dem Raspberry Pi 5 ist kein Spektakel. Und gerade deshalb ist es spannend.

Der Aufbau zeigt in kompakter Form, worum es bei lokaler KI wirklich geht: nicht um maximale Modellgröße, sondern um ein gutes Verhältnis aus Fähigkeit, Rechenbudget, Speicherbedarf und praktischer Nützlichkeit.

Wer verstehen will, wie lokale Sprachmodelle auf kleiner Hardware funktionieren, bekommt mit dem Pi 5 und TinyStories einen erstaunlich guten Einstieg. Nicht als Endpunkt, sondern als sauberen Anfang.

Weiterführende Quellen

Wenn Sie lokale KI für Edge-Geräte, On-Prem-Systeme oder CPU-effiziente Inference evaluieren, sprechen Sie uns gerne an: info@geisten.com