Mesures

Chaque chiffre de cette page est balisé vers son fichier source publié sous /proofs/ — et la construction du site échoue si un chiffre cesse de correspondre à sa source. Les logs bruts sont publiés tels quels (le caviardage des identifiants locaux est déclaré en première ligne ; les chiffres sont intouchés).

Récupération OOM à l'exécution — trois fabricants de GPU

Testé : démarrer des configurations volontairement impossibles et laisser l'échelle de récupération travailler (KV-quant → contexte → délestage). Résultat : NVIDIA RTX 3070 (CUDA) : une demande de contexte de 262144 tokens récupérée à 131072, vraie réponse servie. AMD Radeon 780M (Vulkan) : récupération 1000000→500000, servie. Apple M1 (Metal) : tourne et sert ; la récupération sous OOM forcé n'y est pas encore démontrée. 2026-06 · brut : RESULTS → · AMD → · cross-platform →

Watchdog — effondrement VRAM en pleine génération, vraie pression

Testé : un second processus GPU charge en pleine génération (l'événement « vous ouvrez un jeu »), sur une RTX 4070 Laptop 8 Go. Résultat : plancher franchi à 102 MiB libres → redémarrage contrôlé → récupéré en 223.9 s à un contexte 8192 → 4096 sur le même port, sous pression maintenue — puis réponse servie. Coût honnête : la génération en cours est perdue. Contre-test : 0 soft alerts, 0 interventions sur des générations normales. 2026-06-11 · log brut →

Persistance — la configuration qui a démarré est retenue

Testé : lancement à froid puis à chaud d'un modèle MoE de 9.5 GB sur la RTX 4070 8 Go ; invalidation artificielle d'empreinte ; entrée de cache empoisonnée. Résultat : plan à froid 222.63 s → démarrage à chaud directement sur la configuration connue ; une tentative ratée coûte ~220 s de chargement — le cache existe pour ne jamais payer deux fois. Invalidation et supersede append-only prouvés. 2026-06-11 · log brut →

Installation — zéro prérequis, hôte et VM propre

Testé : environnement nettoyé sur l'hôte, puis une VM Windows 11 neuve sans aucun outillage (pas de GPU → cible CPU). Résultat : hôte : 7.6 s d'un départ à froid à une réponse servie (modèle de test de 1 Go sur disque, téléchargement épinglé b9592 + SHA256 obligatoire inclus). VM propre : démarré en 10.04s, 12.2s au total — après que la passe a trouvé et corrigé deux vrais bloqueurs de premier lancement (magasin TLS paresseux ; DLLs MSVC manquantes). 2026-06-11 · log brut →

Énergie — mesurée, jamais estimée

Testé : RAPL (package CPU) + nvidia-smi pendant le démarrage et un décodage de 256 tokens ; Ryzen 7 8845HS + RTX 4070 Laptop. Résultat : décodage 215.13 J sur 4.41 s = 48.8 W CPU en moyenne = 0.84 J/token (CPU-side), GPU 37.4 W. Sans l'instrument de mesure installé, le champ est absent — jamais estimé. 2026-06-11 · log brut →