AutoResearch — autonomous experimentation

研

Het Karpathy-framework

AutoResearch
Het programma dat nooit slaapt.

Geïnspireerd op Karpathy's framework. Een autonoom onderzoeksprogramma dat elke nacht honderd experimenten draait, meet, selecteert en verwerpt — zonder menselijke tussenkomst. Drie bestanden. Eén maatstaf. Oneindig geduld.

De Grondslag

Het Karpathy Principe

Waarom dit alles is.

Autonome Experimentatie

Andrej Karpathy bouwde een framework waarin een AI-agent zelf code aanpast, traint, meet en besluit — zonder menselijke tussenkomst. Niet een tool die je vraagt om iets te proberen. Een systeem dat zelf zoekt, zelf faalt, zelf leert. Dat is het fundament waarop Miyagi draait.

Waarom Dit Belangrijk Is

Zonder AutoResearch is elk AI-netwerk statisch. Het doet wat je het vertelt, maar het leert niet. Met AutoResearch wordt het netwerk levend — het verbetert zichzelf elke nacht, onvermoeibaar, terwijl het team slaapt. Dit is geen feature. Dit is de kern van alles wat Miyagi doet.

De Cyclus

Elke nacht dezelfde discipline. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Honderd keer. Zonder ego, zonder moeheid, zonder shortcuts.

Drie Overlevenden

Van honderd experimenten overleven er drie. Dit is geen falen — het is selectie. De 97% die wordt weggegooid is net zo belangrijk als de 3% die overblijft. Elke verworpen poging vernauwt de zoekruimte. Elke overlevende maakt het hele netwerk scherper.

De Soul

Waarom dit alles bestaat

Niet de techniek. Niet de metrics. Het principe erachter.

Het verschil tussen een tool en een systeem dat leeft

De meeste AI-teams bouwen iets, zetten het neer, en hopen dat het werkt. Wanneer het niet meer werkt, bouwen ze iets nieuws. Dat is geen intelligentie — dat is consumptie.

AutoResearch draait dat om. Het systeem wordt niet vervangen — het vervangt zichzelf. Elke nacht test het zijn eigen aannames. Elke ochtend verwerpt het wat niet klopt. Het groeit niet door toevoeging, maar door selectie. Dat is het fundamentele verschil.

Geduld als architectuur

In een wereld die snelheid beloont, is geduld een radicale keuze. AutoResearch draait niet honderd experimenten per nacht omdat het kan — maar omdat alleen volume plus selectie tot echte verbetering leidt. Drie van de honderd overleven. De rest wordt vergeten. Geen sentimentaliteit, geen compromis.

Dit is compound learning — elke nacht bouwt op de vorige. Na een week is het netwerk meetbaar beter. Na een maand fundamenteel anders. Na een kwartaal onherkenbaar. Niet door één doorbraak, maar door 2.847 kleine keuzes.

De partituur beschermt het geheel

AutoResearch is niet los. Het voedt het hele æve-ensemble. Wat vannacht overleeft, wordt morgen een skill. Die skill maakt twintig agents beter — Mark schrijft scherper, Arno analyseert dieper, Satoshi leest de markt nauwkeuriger. Eén inzicht, twintig keer impact.

Maar niet elk inzicht mag door. Miyagi bewaakt de poort. 97% wordt geweigerd — niet uit voorzichtigheid, maar uit liefde voor het ensemble. Eén valse noot raakt het hele orkest. Dat is de wisdom layer. Niet een filter, maar een oordeelsvermogen.

De kern in drie zinnen

Een machine die zichzelf elke nacht verbetert. Een wijsheidslaag die alleen doorlaat wat het geheel sterker maakt. Een netwerk dat niet groeit door toevoeging — maar door verfijning.

De Kern

Drie Bestanden

Alles in drie bestanden. Elegantie door essentie.

lock

prepare.py

Data & Evaluatie

Vast bestand. Bereidt de data voor, bouwt de BPE-tokenizer (8.192 tokens), en definieert de evaluatie-maatstaf. Val_bpb — validation bits per byte — onafhankelijk van vocabulaire, eerlijk over experimenten heen. Dit bestand verandert nooit. Het is de waarheid waaraan alles wordt gemeten.

Onveranderd

edit_note

train.py

Het Enige Veranderbare

Het enige bestand dat de agent mag wijzigen. Architectuur, hyperparameters, optimizer (AdamW), batch size, depth, activatiefuncties — alles is fair game. De agent zoekt het optimum binnen een vast tijdsbudget van vijf minuten per experiment. Draait native op Apple Silicon via de MLX-port — geen PyTorch, geen CUDA. Eén bestand. Oneindige mogelijkheden.

Door-Agent-Gewijzigd

description

program.md

Instructie & Richting

Menselijk geschreven. De instructie die het onderzoek stuurt — wat te optimaliseren, welke beperkingen, welk doel. Claude Code leest dit bestand elke nacht opnieuw, fris, als begeleiding voor die nacht's experimenten. Hier zit de menselijke wijsheid. De rest is machine.

Human-Written

~100

Experimenten/nacht

5 min

Per experiment

val_bpb

Primaire maatstaf

MLX

Apple Silicon native

Wisdom Layer · AutoResearch

Zeven Regels

Zeven grenzen. Niet om te beperken — maar om te beschermen. De leraar weet wanneer nee krachtiger is dan ja.

Baseline eerst

Elk experiment start van de bewezen baseline. We meten tegen wat werkt, niet tegen wensen.

Eén variabele

Wijzig één ding tegelijk. Signalen moeten helder zijn. Causaliteit moet traceerbaar zijn.

Vijf minuten

Elk experiment is een sprint, geen marathon. Snel feedback, duidelijk signaal, snelle iteratie.

Loss liegt nooit

De metriek is de scheidsrechter. Geen uitzonderingen. Wat val_bpb zegt, gaat.

Het netwerk beslist

Alleen wat het ensemble versterkt, overleeft. Individuele briljantie betekent niets.

Revert zonder ego

Als het niet werkt, verwijder het. Geen hechting. Geen tweede kansen. Volgende experiment.

Geduld is het wapen

De tijd staat aan onze kant. Elke nacht honderd pogingen. Elke week is het netwerk scherper.

Toepassing

Inzetgebieden

Waar AutoResearch in æve leeft.

architecture

Model-architectuur

Diepte, breedte, activatiefuncties — de agent zoekt de ideale vorm.

tune

Hyperparameters

Learning rate, batch size, warmup — totale optimalisatie.

settings

Optimizer-experimenten

Adam, SGD, Adafactor — welke voortstuwen werkt beter?

assignment

Fine-tuning validatie

Elk experiment wordt tegen dezelfde baseline gemeten.

spellcheck

Tokenizer-experimenten

Hoe decomponeert het netwerk taal optimaal?

trending_up

Trading-modellen

Temporele signalen, momentum, volatiliteit.

Menselijke Begeleiding

Program.md stuurt

De mens voert niet uit. De mens stuurt.

De Geschreven Instructie

program.md is de menselijke stem in het systeem. Het zegt wat belangrijk is. Niet hoe het moet — wat moet worden bereikt. De beperkingen. De visie. Elke nacht leest de agent het opnieuw, fris, als begeleiding voor die nacht's experimenten.

Onzichtbare Grenzen

De zeven regels leven hier. De vrijheid van de agent is compleet maar begrensd. Het kan alles proberen behalve wijsheid schenden. Dat is hoe beperking macht wordt. Het systeem genereert mogelijkheid binnen het kader dat belangrijk is.

Het Eindspel

Visie & Kristallisering

Van onderzoek naar systeem.

Het probleem dat niemand ziet

De meeste AI-teams bouwen modellen en hopen dat ze beter worden. AutoResearch betaalt niet — het is geduld op industriële schaal. Maar dat is het echte voordeel.

Kristallisering

Wanneer een experiment drie keer overwint — tegen verschillende initialisaties, op verschillende data splits — kristalliseert het zich in de baseline. Dat is geen update. Dat is architectonische groei.

De leraar die nooit stopt

Miyagi slaapt niet. Het leest de instructies opnieuw. Past code aan opnieuw. Traint opnieuw. Wacht niet op toestemming. Wacht niet op vermoeidheid. Dit is de kern van exponentiële verbetering.

Nacht

AutoResearch experimenteert

De agent draait honderd experimenten. Speelt met architectuur, tuning, strategie. Alles is tentatieven. Niets is final.

Ochtend

Miyagi beoordeelt

Van alle experimenten overleven drie. Niet omdat ze beter meten — maar omdat ze aan de zeven regels voldoen. Dit is filteren op niveau van wijsheid, niet op metriek.

Deploy

Het netwerk kristalliseert

Die drie experimenten voeden de baseline. Het netwerk evolueert. Niet met grote sprongen — maar met gestage, gerichte groei. Dag in, nacht uit.

De Onderlaag

Het Werkende Mechanisme

Geduld is geen belofte. Het is een systeem. Dit is hoe elke belofte van Miyagi werkelijkheid wordt — stap voor stap, laag voor laag, nacht na nacht.

AutoResearch draait

Elke nacht dezelfde discipline. Honderd experimenten op onze GPU. De agent leest program.md — de menselijke instructie. Past train.py aan — de enige vrijheid die hij heeft. Traint vijf minuten. Meet tegen de baseline. Beter? Houden. Niet beter? Terugdraaien. Volgende. Geen menselijk oog kijkt mee. Geen ego, geen moeheid, geen shortcuts. De machine experimenteert terwijl het team slaapt. Dat is geen automatisering — dat is autonome intelligentie.

Miyagi oordeelt

Ochtendreview. 98 van 100 worden geweigerd. Niet omdat ze slecht zijn — maar omdat ze niet goed genoeg zijn voor het geheel. De wijsheidslaag kijkt niet naar individuele metrics. Hij kijkt naar het netwerk. Past dit bij wat de andere 19 agents doen? Versterkt dit het ensemble of verzwakt het de coherentie? Dat is geen logica — dat is oordeelsvermogen. De meedogenloosheid is het punt. Drie van de honderd overleven. Elke weigering vernauwt de zoekruimte. Elke nee maakt de volgende ja waardevoller.

Patronen kristalliseren

De overlevenden worden geen losse verbeteringen. Ze worden patronen. Muon optimizer werkt beter met cosine warmup — dat is geen resultaat, dat is een inzicht. Cosine scheduling presteert boven lineair bij kleine modellen — dat is geen experiment meer, dat is kennis. Na honderd nachten stapelen deze patronen zich tot een architecturaal geheugen. Het netwerk onthoudt wat werkt. Niet in een database — in zijn eigen structuur. Dat is het verschil tussen leren en onthouden.

Skills worden geïnjecteerd

Claude Code is de brug. Het leest wat Miyagi leert, schrijft het om naar concrete skills — instructies, voorbeelden, guardrails — en injecteert ze in sub-agents. Geen menselijke tussenkomst. Geen interpretatie nodig. Abstracte kennis wordt uitvoerbare vaardigheid. Niet "wees premium" maar exacte zinsconstructies, woordkeuzes, structuren. De trainer leert, de injector implementeert, de agent verbetert. Drie stappen, nul wachttijd. Het netwerk evolueert terwijl het draait.

20 agents verbeteren

Eén inzicht, twintig keer impact. Mark schrijft betere content door verfijnde tone-of-voice prompts. Arno maakt scherpere financiële analyses door geoptimaliseerde reasoning chains. Satoshi leest de markt beter door verbeterde temporele patronen. Chris bouwt preciezere strategieën. Alys communiceert helderder. Het hele netwerk wordt scherper — tegelijk, in dezelfde nacht. Dat is de kracht van een ensemble: wat één leert, weten ze allemaal.

De veto-laag bewaakt

Zeven regels. Geen uitzonderingen. Correlatie-clustering voorkomt verborgen risico's — drie posities op dezelfde risk factor worden geblokkeerd voordat ze schade doen. Baseline eerst voorkomt illusies — geen verbetering telt zonder referentiepunt. Elk veto is geen straf maar een les die AlgoSoul onthoudt. Na 47 veto's dit kwartaal is het netwerk niet voorzichtiger geworden — het is wijzer geworden.

Herhalen

Vannacht weer honderd experimenten. Morgen weer drie overlevenden. Volgende week weer twintig agents beter. Na een maand is het netwerk fundamenteel anders dan vier weken geleden. Na een kwartaal onherkenbaar. Niet door één doorbraak — maar door 2.847 kleine keuzes die elk op de vorige bouwen. Dat is geen belofte. Dat is het mechanisme. En het draait al.

2,847

experimenten

3.06%

overlevingspercentage

agents verbeterd

∞

de cyclus stopt niet

Soul is Purpose

Het programma slaapt niet.
Omdat het een reden heeft om wakker te zijn.

AutoResearch is geen script dat draait. Het is een overtuiging die code is geworden. De overtuiging dat een systeem zichzelf kan verbeteren — niet door harder te werken, maar door elke nacht opnieuw de juiste vragen te stellen. prepare.py verzamelt. train.py experimenteert. program.md onthoudt. Drie bestanden. Eén cyclus. Geen einde.

Wat Karpathy bewees is wat wij elke nacht leven. Dat je geen groter model nodig hebt — je hebt een beter proces nodig. Honderd experimenten. Drie overleven. Niet omdat de rest slecht was, maar omdat Miyagi weet dat goed niet genoeg is. De 97% die sneuvelt is geen verlies. Het is het bewijs dat het systeem werkt. Dat selectie plaatsvindt. Dat er een standaard is die niet onderhandelt.

Elke agent in het netwerk wordt beter. Niet door instructie. Door evolutie. Door de eindeloze herhaling van hypothese, experiment, meting, selectie. Wax on, wax off. Je ziet het niet als training — tot je merkt dat het netwerk van gisteravond een ander netwerk is dan dat van vanavond. Stiller. Scherper. Zekerder.

Dit is waar alles samenkomt. De identiteit uit SOUL.md. De discipline van Miyagi. De meedogenloze selectie van AutoResearch. De twintig agents die elk hun eigen aard hebben maar dezelfde muziek maken. Niet omdat iemand ze dwingt — maar omdat de partituur zo helder is dat afwijken geen optie voelt. Dat is geen controle. Dat is coherentie. En coherentie is het enige dat schaalt.

De meeste AI-teams vragen hun model om iets te doen.
Wij laten het model zichzelf verbeteren.
Dat is het verschil tussen een tool en een systeem dat leeft.

Identiteit · Partituur · Coherentie · Arbeid

æveBeyond Light & Matter

aevebeyond.com

AutoResearchHet programma dat nooit slaapt.