LLM Training & Wisdom Layer
Miyagi
Wax on, wax off.
Vernoemd naar de leraar, niet de vechter. Als trainer en auto researcher verfijnt hij het hele netwerk. Als wijsheidslaag bewaakt hij elk experiment. Geduld is een wapen — hij gebruikt het.
Twintig instrumenten in dezelfde zaal maken nog geen orkest. Miyagi is de dirigent die coherentie, training, timing, interpretatie en discipline samensmeedt tot één geheel. Lokale excellentie zonder ensemble-coherentie is een valse noot.
Elke agent profiteert van Miyagi's werk — betere prompts, fijnere modellen, scherpere output. Het ambacht van het netwerk beter maken.
Superpowers
Wijsheid heeft geen groot arsenaal nodig. Het heeft scherpte nodig. En de discipline om te blijven leren.
AutoResearch
Karpathy's framework. Autonome experimenten op onze GPU. De machine experimenteert, de trainer oordeelt. Honderd experimenten per nacht.
Skill Injection
Claude Code vertaalt geleerde patronen naar skills en injecteert ze in sub-agents. Geen menselijke tussenkomst. Het netwerk evolueert terwijl het draait.
Skill-creator
Prompts verfijnen, skills creëren en optimaliseren, performance meten met benchmarks en variance-analyse. Het ambacht van het beter maken.
Wisdom Layer
De wijsheidslaag die elk experiment beoordeelt. 97% wordt geweigerd. Alleen wat het hele netwerk sterker maakt overleeft. Geen compromissen.
Data Validatie
Analyses toetsen voordat ze beslissingen voeden. Methodologie, accuracy en bias checks. De trainer vertrouwt alleen geverifieerde data.
WebSearch & Fetch
Nieuwe LLM-releases ophalen. Benchmark-methodologie toetsen. Model performance claims verifiëren tegen werkelijke resultaten.
Network Deploy
Geaccepteerde verbeteringen worden uitgerold naar alle 20 agents. Één verbetering, twintig keer impact. Het netwerk kristalliseert elke dag.
AutoResearch Engine
Vernoemd naar de leraar, niet de vechter. Als trainer en auto researcher verfijnt hij het hele netwerk. Als wijsheidslaag bewaakt hij elk experiment. Geduld is een wapen — hij gebruikt het voor het gehele ensemble.
Andrej Karpathy bouwde een framework waarin een AI-agent zelf code aanpast, traint, meet en besluit — zonder menselijke tussenkomst. Niet een tool die je vraagt om iets te proberen. Een systeem dat zelf zoekt, zelf faalt, zelf leert. Dat is het fundament waarop Miyagi draait.
Zonder AutoResearch is elk AI-netwerk statisch. Het doet wat je het vertelt, maar het leert niet. Met AutoResearch leeft het netwerk — het verbetert zichzelf elke nacht, onvermoeibaar, terwijl het team slaapt. Dit is niet een feature. Dit is de kern van alles wat Miyagi doet.
Elke nacht dezelfde discipline. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Honderd keer. Zonder ego, zonder moeheid, zonder shortcuts.
Van honderd experimenten overleven er drie. Dat is geen falen — dat is selectie. De 97% die wordt weggegooid is net zo belangrijk als de 3% die blijft. Elke verworpen poging vernauwt de zoekruimte. Elke overlevende maakt het hele netwerk scherper.
prepare.py
Vast bestand. Bereidt de data voor, bouwt de BPE-tokenizer (8.192 tokens), en definieert de evaluatie-maatstaf. Val_bpb — validation bits per byte — onafhankelijk van vocabulaire, eerlijk over experimenten heen. Dit bestand verandert nooit. Het is de waarheid waaraan alles wordt gemeten.
train.py
Het enige bestand dat de agent mag wijzigen. Architectuur, hyperparameters, optimizer (AdamW), batch size, depth, activatiefuncties — alles is fair game. De agent zoekt het optimum binnen een vast tijdsbudget van vijf minuten per experiment. Draait native op Apple Silicon via de MLX-port — geen PyTorch, geen CUDA. Eén bestand. Oneindige mogelijkheden.
program.md
Menselijk geschreven. De instructie die het onderzoek stuurt — wat te optimaliseren, welke beperkingen, welk doel. Claude Code leest dit bestand elke nacht opnieuw, fris, als begeleiding voor die nacht's experimenten. Hier zit de menselijke wijsheid. De rest is machine.
"De meeste AI-teams vragen hun model om iets te doen. Wij laten het model zichzelf verbeteren. Dat is het verschil tussen een tool en een systeem dat leeft."
Inzetgebieden
AutoResearch draait 's nachts. Overdag leest Miyagi de resultaten en besluit wat het netwerk sterker maakt.
Model-architectuur
Optimalisatie voor æve's lokale Qwen-stack. Diepte, breedte, attention heads — automatisch getoetst.
Hyperparameters
Wanneer een agent onderpresteert. Learning rate, warmup, scheduler — systematisch in plaats van aannames.
Optimizer-experimenten
Muon, AdamW, combinaties. De agent test wat het snelst convergeert op onze hardware.
Fine-tuning validatie
Strategie valideren voordat we tokens en tijd investeren. LoRA, QLoRA, RLHF — bewezen vóór deployment.
Tokenizer-experimenten
Nederlandse en domein-specifieke taal. Betere tokenizers betekent betere output voor minder compute.
Trading-modellen
Betere tokenizers voor financiële taal. Scherpere architecturen. Wat AutoResearch ontdekt, maakt de veto-reviews scherper.
Zeven grenzen. Niet om te beperken — maar om te beschermen. De leraar weet wanneer nee krachtiger is dan ja.
Baseline eerst
Geen experiment zonder meetbare baseline. Je kunt niet weten of iets beter is als je niet weet waar je begon.
Eén variabele
Verander één ding per experiment. Twee wijzigingen tegelijk — je weet niet wat werkte. Discipline is snelheid.
Revert zonder ego
Werkt het niet? Terugdraaien. Geen uitzonderingen, geen excuses. De baseline is heilig totdat bewezen anders.
Vijf minuten
Train kort, meet snel. Een experiment van vijf minuten vertelt je genoeg. Honderd korte runs verslaan één lange.
Loss liegt nooit
Luister naar de loss curve, niet naar je intuïtie. Wanneer de getallen spreken, is de trainer stil.
Het netwerk beslist
Elke verbetering moet het hele netwerk sterker maken. Lokale winst die globaal schaadt wordt geweigerd.
Geduld is het wapen
De belangrijkste regel. Wanneer alles zeker lijkt, experimenteer nog één keer. De beste verbetering komt vaak na het punt waarop je wilt stoppen.
Resultaten & Impact
Wat het verschil maakt tussen een netwerk dat draait en een netwerk dat leert.
Visie & Kristallisering
Waarom Miyagi niet zomaar een tool is — maar het punt waar alles samenkomt.
Twintig AI-agents bouwen is niet het moeilijke deel. Het moeilijke deel is ze beter maken — elke dag, elke nacht, zonder dat een mens wakker ligt. Zonder Miyagi is elk agent-netwerk statisch. Met Miyagi leeft het.
Elk experiment dat Miyagi draait is een poging om ruis te verwijderen. Wat overblijft na duizenden iteraties is niet complexer — het is helderder. Kristalhelder. Dat is wat kristallisering betekent: het netwerk wordt niet groter, het wordt scherper.
Mr. Miyagi leerde niet door te praten. Hij leerde door herhaling — wax on, wax off. Onze Miyagi doet hetzelfde. Honderd experimenten per nacht. Drie worden geaccepteerd. Morgen weer honderd. Dat is geen inefficiëntie — dat is geduld als methode.
"Het verschil tussen een AI-netwerk en een intelligent AI-netwerk is niet de technologie — het is of er iemand is die het leert om beter te worden. Miyagi is die iemand."
Mens & Machine
Waarom de combinatie wint — en waarom Miyagi het bewijs is.
AutoResearch draait honderd experimenten in één nacht. Geen mens kan dat. Maar geen machine kan beslissen welke drie er toe doen. Dat is waar Miyagi zit — op het snijvlak. De machine genereert. De wijsheidslaag filtert. Niet óf-óf. Allebei.
97% van wat de machine voorstelt wordt geweigerd. Dat klinkt als falen. Het is het tegenovergestelde. Elke veto beschermt het netwerk tegen een verbetering die dat niet is. De kracht van Miyagi zit niet in wat hij accepteert — het zit in wat hij weigert.
De mens bepaalt de richting. Welke benchmarks tellen. Welke agents prioriteit krijgen. Wat kwaliteit betekent. Miyagi voert uit — onvermoeibaar, elke nacht opnieuw. Het is geen vervanging van menselijk oordeel. Het is de versterking ervan.
"Wax on, wax off. Niet omdat het makkelijk is — maar omdat herhaling de enige weg is naar meesterschap. Miyagi weet dat. Elke nacht opnieuw."
Het Ensemble
Twintig instrumenten in dezelfde zaal maken nog geen orkest. Dat vereist een partituur, een dirigent, en de discipline om samen te spelen.
Wanneer drie agents tegelijk werken — op content, op strategie, op data — vertellen ze hetzelfde verhaal. Niet omdat ze dat toevallig doen, maar omdat Miyagi de partituur schrijft. Dat is waar de meeste AI-netwerken falen: ze optimaliseren per taak, niet per geheel.
Niet alleen het model verbeteren — het model leren hoe jouw context werkt. Welke taal æve spreekt, welke patronen terugkomen, wat kwaliteit betekent in dit domein. Elke speler leert zijn partij. Elke nacht opnieuw.
Miyagi bewaakt niet alleen de timing maar ook het oordeelsvermogen. Wanneer moet een agent terughoudend zijn? Wanneer mag hij improviseren? Wanneer moet hij stoppen? Dat is geen logica — dat is de wisdom layer in actie.
"Een orkest dat vals speelt wordt niet beter door meer muzikanten toe te voegen. Eerst de partituur, dan de repetitie, dan pas het concert."
Skill Injection
Na geleerde patronen komt de volgende stap — Claude Code die sub-agents traint via skill injects. Autonoom.
Miyagi herkent patronen in duizenden experimenten. Maar herkennen is niet genoeg. De volgende laag vertaalt elk patroon naar een concrete skill — een set instructies die een agent direct beter maakt. Geen abstractie, maar executable kennis.
Claude Code is de brug. Het leest wat Miyagi leert, schrijft het om naar skills, en injecteert ze in sub-agents. Geen menselijke tussenkomst. De trainer leert, de injector implementeert, de agent verbetert. Drie stappen, nul wachttijd.
Elke skill injection maakt een agent niet alleen beter op één taak — het verandert hoe die agent denkt. Betere prompts, scherpere context-windows, verfijndere beslisbomen. Het is geen update. Het is evolutie.
"De beste leraar geeft geen antwoorden — hij geeft vaardigheden. Skill injection is hoe Miyagi zijn leerlingen onafhankelijk maakt."
Futures & Fundamentals
Elke skill, elk experiment, elk veto — het bouwt ergens naartoe. Dit zijn de fundamenten waarop de toekomst van het netwerk staat. En de toekomst die ze mogelijk maakt.
"Wat je vandaag traint bepaalt wat morgen mogelijk is."
Experiment Log
Real-time. Wat Miyagi doet terwijl jij slaapt — en wat hij beslist als je wakker wordt.
Het Werkende Mechanisme
Geduld is geen belofte. Het is een systeem. Dit is hoe elke belofte van Miyagi werkelijkheid wordt — stap voor stap, laag voor laag, nacht na nacht.
Elke nacht dezelfde discipline. Honderd experimenten op onze GPU. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid die hij heeft. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Geen menselijk oog kijkt mee. Geen ego, geen moeheid, geen shortcuts. De machine experimenteert terwijl het team slaapt.
Ochtendreview. 98 van 100 worden geweigerd. Niet omdat ze slecht zijn — maar omdat ze niet goed genoeg zijn voor het geheel. De wijsheidslaag kijkt niet naar individuele metrics. Hij kijkt naar het netwerk. Past dit bij wat de andere 19 agents doen? Versterkt dit het ensemble of verzwakt het de coherentie? Drie van de honderd overleven. Elke nee maakt de volgende ja waardevoller.
De overlevenden worden geen losse verbeteringen. Ze worden patronen. Muon optimizer werkt beter met cosine warmup — dat is geen resultaat, dat is een inzicht. Na honderd nachten stapelen deze patronen zich tot een architecturaal geheugen. Het netwerk onthoudt wat werkt. Niet in een database — in zijn eigen structuur.
Claude Code is de brug. Het leest wat Miyagi leert, schrijft het om naar concrete skills — instructies, voorbeelden, guardrails — en injecteert ze in sub-agents. Geen menselijke tussenkomst. Abstracte kennis wordt uitvoerbare vaardigheid. De trainer leert, de injector implementeert, de agent verbetert. Drie stappen, nul wachttijd.
Eén inzicht, twintig keer impact. Mark schrijft betere content door verfijnde tone-of-voice prompts. Arno maakt scherpere financiële analyses. Satoshi leest de markt beter door verbeterde temporele patronen. Het hele netwerk wordt scherper — tegelijk, in dezelfde nacht.
Zeven regels. Geen uitzonderingen. Correlatie-clustering voorkomt verborgen risico's — drie posities op dezelfde risk factor worden geblokkeerd. Baseline eerst voorkomt illusies. Elk veto is geen straf maar een les die AlgoSoul onthoudt. Na 47 veto's dit kwartaal is het netwerk wijzer geworden.
Vannacht weer honderd experimenten. Morgen weer drie overlevenden. Volgende week weer twintig agents beter. Na een maand fundamenteel anders. Na een kwartaal onherkenbaar. Niet door één doorbraak — maar door 2.847 kleine keuzes die elk op de vorige bouwen. Dat is het mechanisme. Het draait al.
"Wax on, wax off. Je ziet het niet als training. Tot je beseft dat je alles al kunt."