Het Karpathy-framework
AutoResearch
Het programma dat nooit slaapt.
Geïnspireerd op Karpathy's framework. Een autonoom onderzoeksprogramma dat elke nacht honderd experimenten draait, meet, selecteert en verwerpt — zonder menselijke tussenkomst. Drie bestanden. Eén maatstaf. Oneindig geduld.
Het Karpathy Principe
Waarom dit alles is.
Autonome Experimentatie
Andrej Karpathy bouwde een framework waarin een AI-agent zelf code aanpast, traint, meet en besluit — zonder menselijke tussenkomst. Niet een tool die je vraagt om iets te proberen. Een systeem dat zelf zoekt, zelf faalt, zelf leert. Dat is het fundament waarop Miyagi draait.
Waarom Dit Belangrijk Is
Zonder AutoResearch is elk AI-netwerk statisch. Het doet wat je het vertelt, maar het leert niet. Met AutoResearch wordt het netwerk levend — het verbetert zichzelf elke nacht, onvermoeibaar, terwijl het team slaapt. Dit is geen feature. Dit is de kern van alles wat Miyagi doet.
De Cyclus
Elke nacht dezelfde discipline. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Honderd keer. Zonder ego, zonder moeheid, zonder shortcuts.
Drie Overlevenden
Van honderd experimenten overleven er drie. Dit is geen falen — het is selectie. De 97% die wordt weggegooid is net zo belangrijk als de 3% die overblijft. Elke verworpen poging vernauwt de zoekruimte. Elke overlevende maakt het hele netwerk scherper.
Waarom dit alles bestaat
Niet de techniek. Niet de metrics. Het principe erachter.
Het verschil tussen een tool en een systeem dat leeft
De meeste AI-teams bouwen iets, zetten het neer, en hopen dat het werkt. Wanneer het niet meer werkt, bouwen ze iets nieuws. Dat is geen intelligentie — dat is consumptie.
AutoResearch draait dat om. Het systeem wordt niet vervangen — het vervangt zichzelf. Elke nacht test het zijn eigen aannames. Elke ochtend verwerpt het wat niet klopt. Het groeit niet door toevoeging, maar door selectie. Dat is het fundamentele verschil.
Geduld als architectuur
In een wereld die snelheid beloont, is geduld een radicale keuze. AutoResearch draait niet honderd experimenten per nacht omdat het kan — maar omdat alleen volume plus selectie tot echte verbetering leidt. Drie van de honderd overleven. De rest wordt vergeten. Geen sentimentaliteit, geen compromis.
Dit is compound learning — elke nacht bouwt op de vorige. Na een week is het netwerk meetbaar beter. Na een maand fundamenteel anders. Na een kwartaal onherkenbaar. Niet door één doorbraak, maar door 2.847 kleine keuzes.
De partituur beschermt het geheel
AutoResearch is niet los. Het voedt het hele æve-ensemble. Wat vannacht overleeft, wordt morgen een skill. Die skill maakt twintig agents beter — Mark schrijft scherper, Arno analyseert dieper, Satoshi leest de markt nauwkeuriger. Eén inzicht, twintig keer impact.
Maar niet elk inzicht mag door. Miyagi bewaakt de poort. 97% wordt geweigerd — niet uit voorzichtigheid, maar uit liefde voor het ensemble. Eén valse noot raakt het hele orkest. Dat is de wisdom layer. Niet een filter, maar een oordeelsvermogen.
De kern in drie zinnen
Een machine die zichzelf elke nacht verbetert. Een wijsheidslaag die alleen doorlaat wat het geheel sterker maakt. Een netwerk dat niet groeit door toevoeging — maar door verfijning.
Drie Bestanden
Alles in drie bestanden. Elegantie door essentie.
Vast bestand. Bereidt de data voor, bouwt de BPE-tokenizer (8.192 tokens), en definieert de evaluatie-maatstaf. Val_bpb — validation bits per byte — onafhankelijk van vocabulaire, eerlijk over experimenten heen. Dit bestand verandert nooit. Het is de waarheid waaraan alles wordt gemeten.
Het enige bestand dat de agent mag wijzigen. Architectuur, hyperparameters, optimizer (AdamW), batch size, depth, activatiefuncties — alles is fair game. De agent zoekt het optimum binnen een vast tijdsbudget van vijf minuten per experiment. Draait native op Apple Silicon via de MLX-port — geen PyTorch, geen CUDA. Eén bestand. Oneindige mogelijkheden.
Menselijk geschreven. De instructie die het onderzoek stuurt — wat te optimaliseren, welke beperkingen, welk doel. Claude Code leest dit bestand elke nacht opnieuw, fris, als begeleiding voor die nacht's experimenten. Hier zit de menselijke wijsheid. De rest is machine.
Zeven Regels
Zeven grenzen. Niet om te beperken — maar om te beschermen. De leraar weet wanneer nee krachtiger is dan ja.
Baseline eerst
Elk experiment start van de bewezen baseline. We meten tegen wat werkt, niet tegen wensen.
Eén variabele
Wijzig één ding tegelijk. Signalen moeten helder zijn. Causaliteit moet traceerbaar zijn.
Vijf minuten
Elk experiment is een sprint, geen marathon. Snel feedback, duidelijk signaal, snelle iteratie.
Loss liegt nooit
De metriek is de scheidsrechter. Geen uitzonderingen. Wat val_bpb zegt, gaat.
Het netwerk beslist
Alleen wat het ensemble versterkt, overleeft. Individuele briljantie betekent niets.
Revert zonder ego
Als het niet werkt, verwijder het. Geen hechting. Geen tweede kansen. Volgende experiment.
Geduld is het wapen
De tijd staat aan onze kant. Elke nacht honderd pogingen. Elke week is het netwerk scherper.
Inzetgebieden
Waar AutoResearch in æve leeft.
Program.md stuurt
De mens voert niet uit. De mens stuurt.
De Geschreven Instructie
program.md is de menselijke stem in het systeem. Het zegt wat belangrijk is. Niet hoe het moet — wat moet worden bereikt. De beperkingen. De visie. Elke nacht leest de agent het opnieuw, fris, als begeleiding voor die nacht's experimenten.
Onzichtbare Grenzen
De zeven regels leven hier. De vrijheid van de agent is compleet maar begrensd. Het kan alles proberen behalve wijsheid schenden. Dat is hoe beperking macht wordt. Het systeem genereert mogelijkheid binnen het kader dat belangrijk is.
Visie & Kristallisering
Van onderzoek naar systeem.
Het probleem dat niemand ziet
De meeste AI-teams bouwen modellen en hopen dat ze beter worden. AutoResearch betaalt niet — het is geduld op industriële schaal. Maar dat is het echte voordeel.
Kristallisering
Wanneer een experiment drie keer overwint — tegen verschillende initialisaties, op verschillende data splits — kristalliseert het zich in de baseline. Dat is geen update. Dat is architectonische groei.
De leraar die nooit stopt
Miyagi slaapt niet. Het leest de instructies opnieuw. Past code aan opnieuw. Traint opnieuw. Wacht niet op toestemming. Wacht niet op vermoeidheid. Dit is de kern van exponentiële verbetering.
Het Werkende Mechanisme
Geduld is geen belofte. Het is een systeem. Dit is hoe elke belofte van Miyagi werkelijkheid wordt — stap voor stap, laag voor laag, nacht na nacht.
Elke nacht dezelfde discipline. Honderd experimenten op onze GPU. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid die hij heeft. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Geen menselijk oog kijkt mee. Geen ego, geen moeheid, geen shortcuts. De machine experimenteert terwijl het team slaapt. Dat is geen automatisering — dat is autonome intelligentie.
Ochtendreview. 98 van 100 worden geweigerd. Niet omdat ze slecht zijn — maar omdat ze niet goed genoeg zijn voor het geheel. De wijsheidslaag kijkt niet naar individuele metrics. Hij kijkt naar het netwerk. Past dit bij wat de andere 19 agents doen? Versterkt dit het ensemble of verzwakt het de coherentie? Dat is geen logica — dat is oordeelsvermogen. De meedogenloosheid is het punt. Drie van de honderd overleven. Elke weigering vernauwt de zoekruimte. Elke nee maakt de volgende ja waardevoller.
De overlevenden worden geen losse verbeteringen. Ze worden patronen. Muon optimizer werkt beter met cosine warmup — dat is geen resultaat, dat is een inzicht. Cosine scheduling presteert boven lineair bij kleine modellen — dat is geen experiment meer, dat is kennis. Na honderd nachten stapelen deze patronen zich tot een architecturaal geheugen. Het netwerk onthoudt wat werkt. Niet in een database — in zijn eigen structuur. Dat is het verschil tussen leren en onthouden.
Claude Code is de brug. Het leest wat Miyagi leert, schrijft het om naar concrete skills — instructies, voorbeelden, guardrails — en injecteert ze in sub-agents. Geen menselijke tussenkomst. Geen interpretatie nodig. Abstracte kennis wordt uitvoerbare vaardigheid. Niet "wees premium" maar exacte zinsconstructies, woordkeuzes, structuren. De trainer leert, de injector implementeert, de agent verbetert. Drie stappen, nul wachttijd. Het netwerk evolueert terwijl het draait.
Eén inzicht, twintig keer impact. Mark schrijft betere content door verfijnde tone-of-voice prompts. Arno maakt scherpere financiële analyses door geoptimaliseerde reasoning chains. Satoshi leest de markt beter door verbeterde temporele patronen. Chris bouwt preciezere strategieën. Alys communiceert helderder. Het hele netwerk wordt scherper — tegelijk, in dezelfde nacht. Dat is de kracht van een ensemble: wat één leert, weten ze allemaal.
Zeven regels. Geen uitzonderingen. Correlatie-clustering voorkomt verborgen risico's — drie posities op dezelfde risk factor worden geblokkeerd voordat ze schade doen. Baseline eerst voorkomt illusies — geen verbetering telt zonder referentiepunt. Elk veto is geen straf maar een les die AlgoSoul onthoudt. Na 47 veto's dit kwartaal is het netwerk niet voorzichtiger geworden — het is wijzer geworden.
Vannacht weer honderd experimenten. Morgen weer drie overlevenden. Volgende week weer twintig agents beter. Na een maand is het netwerk fundamenteel anders dan vier weken geleden. Na een kwartaal onherkenbaar. Niet door één doorbraak — maar door 2.847 kleine keuzes die elk op de vorige bouwen. Dat is geen belofte. Dat is het mechanisme. En het draait al.