æve Council — Collectieve AI-intelligentie voor blinde peer review

Het Probleem

Eén model is niet genoeg

Elk AI-model heeft blinde vlekken. Het weet niet wat het niet weet. En het geeft je altijd zelfverzekerd antwoord — ook als het fout zit.

sentiment_satisfied

Gedrag

Sycofantie

Modellen bevestigen wat je wilt horen. Ze zijn getraind om behulpzaam te zijn, niet om je tegen te spreken. De aangenaamste leugen wint van de ongemakkelijke waarheid.

visibility_off

Beperking

Blinde vlekken

Elk model mist dingen die een ander model wel ziet. GPT denkt anders dan Gemini denkt anders dan Grok. Geen enkel perspectief is compleet.

label

Bias

Merkherkenning

Als je een model vraagt om een ander model te beoordelen, speelt reputatie mee. Anonimiteit elimineert dat volledig. Alleen inhoud telt.

Het Protocol

Drie stages. Eén waarheid.

Geinspireerd door Karpathy's LLM Council. Gebouwd op het bestaande agent-netwerk. Elk model draagt bij. Elk model beoordeelt. De chairman beslist.

Parallel

Alle raadsleden antwoorden

De vraag gaat tegelijk naar Grok, Gemini, GPT en Claude. Elk model geeft zijn eigen, onafhankelijke analyse — zonder te weten wat de anderen antwoorden. Focus op kernantwoord, onderbouwing, risico's en een confidence score.

Anoniem

Blinde peer review

De antwoorden worden ontdaan van elke identiteit — Antwoord A, B, C, D. Elk model beoordeelt de anderen op accuraatheid, diepte, originaliteit en bruikbaarheid. Geen naam, geen merk, geen bias. Alleen inhoud.

Synthese

Chairman synthese

Claude leest alle antwoorden, alle peer reviews en de berekende rankings. Combineert de sterkste elementen, lost conflicten op, identificeert wat iedereen gemist heeft. Een helder, definitief antwoord.

De Raadsleden

Vier stemmen. Eén council.

Elk model brengt een uniek perspectief. Samen zien ze wat alleen niet mogelijk is.

local_fire_department

Criticus

Grok

grok-4-fast · xAI

Zoekt zwaktes, blinde vlekken en ongemakkelijke waarheden die anderen negeren.

Direct API

diamond

Onderzoeker

Gemini

gemini-2.0-flash · Google

Feiten, data, bronnen en de efficientste route van A naar B.

Direct API

psychology

Analist

GPT

gpt-5.2 · OpenAI via BlockRun

Diepte, nuance en reasoning. Ziet patronen waar anderen data zien.

BlockRun

bolt

Wildcard

Claude

claude-sonnet-4.6 · Anthropic via BlockRun

Coordinator en de wijze COO

BlockRun

Chairman

gavel

Claude

sonnet-4.6 · Anthropic

De chairman. Orkestreert het protocol, synthetiseert alle stemmen, levert het eindoordeel. Geen eigen stem in Stage 1 — objectieve arbiter.

Main Agent · OpenClaw

Data-analyse zonder identiteit — het blinde oordeel

Het Mechanisme

Identiteit verwijderd

In Stage 2 weet geen enkel model wie welk antwoord schreef. Dit voorkomt merkbias en dwingt beoordeling op inhoud.

local_fire_department Grok

diamond Gemini

psychology GPT

bolt Claude

arrow_forward Blind

Antwoord A

Antwoord B

Antwoord C

Antwoord D

gavel

Council Verdict

Chairman Synthesis — Claude

Antwoord D (Claude) scoorde het hoogst op originaliteit — een invalshoek die de anderen misten. Antwoord B (Gemini) leverde de sterkste onderbouwing met bronnen. Antwoord A (Grok) identificeerde een kritiek risico dat niemand anders noemde. De synthese combineert Grok's risico-analyse, Gemini's bronnen en Claude's creatieve richting tot een actionable advies.

De chairman overziet alle data — synthese van het geheel

Waarom Dit Werkt

Drie principes

Anonimiteit dwingt eerlijkheid

Wanneer een model weet dat het Grok beoordeelt, speelt merkkennis mee. Bewust of onbewust. De beoordeling verschuift van inhoud naar reputatie.

Door alle antwoorden te strippen tot Antwoord A, B, C, D verdwijnt die ruis. Wat overblijft is een zuiver oordeel op basis van wat er staat — niet wie het schreef.

Mechanisme

Identiteit verwijderd, inhoud versterkt

Dezelfde techniek die peer review in de wetenschap betrouwbaar maakt. Blind review elimineert bias systematisch.

Resultaat

De wildcard wint vaker dan verwacht

Zonder naam-bias scoren onverwachte antwoorden hoger. Creativiteit wordt beloond, niet ondergewaardeerd.

Parallelle diversiteit vangt blinde vlekken

Elk model is getraind op andere data, met andere prioriteiten. Waar GPT nuance ziet, ziet Grok risico's. Waar Gemini bronnen levert, legt Claude onverwachte verbanden.

Vier modellen parallel is geen redundantie — het is complementariteit. De blinde vlek van het ene model is het sterkste punt van het andere.

Diversiteit

Vier trainingssets, vier wereldbeelden

xAI, Google, OpenAI, Anthropic — elk model draagt fundamenteel andere kennis mee. Samen is het beeld compleet.

Snelheid

Parallel, niet sequentieel

Alle antwoorden komen tegelijk binnen. Vier perspectieven in de tijd van een. Geen wachttijd, maximale dekking.

De chairman synthetiseert, niet kiest

Claude kiest niet het "beste" antwoord. Claude neemt het sterkste element uit elk antwoord, lost conflicten op waar de raadsleden het oneens zijn, en identificeert wat niemand gezegd heeft.

Het eindresultaat is geen winnaar — het is een synthese die sterker is dan elk individueel antwoord. Collectieve intelligentie die geen enkel model alleen had kunnen produceren.

Rol

Objectieve arbiter, geen deelnemer

Claude geeft geen eigen antwoord in Stage 1. Geen eigen belang. Alleen het mandaat om het beste te destilleren uit alle stemmen.

Output

Consensus + conflict = volledigheid

Waar iedereen het eens is, is dat een sterk signaal. Waar discussie is, zit de nuance. Beide worden meegenomen.

Solisten vs. Council — een versus het collectief

Het Verschil

Zonder vs. Met Council

Een model geeft een zelfverzekerd maar eenzijdig antwoord

Vier perspectieven die blinde vlekken vangen

Bias in beoordeling door merkherkenning

Anonieme review op puur inhoud

Geen kwaliteitscontrole op het antwoord

16 peer reviews per council run

Sycofantie versterkt je eigen bias

Tegenspraak is ingebouwd in het protocol

Het "beste" model voor alles

Het beste van elk model, gecombineerd

Vertrouwen op één enkel oordeel

Gewogen consensus als beslisbasis

Activeren

Eén commando. Vier perspectieven.

Via WhatsApp, Telegram of CLI. Claude herkent ook zelf wanneer een vraag complex genoeg is.

$ /council Wat is de beste strategie om de eerste 10 klanten te krijgen?

$ /council-quick Moet ik Stripe of Mollie gebruiken voor betalingen?

Full council — alle vier raadsleden + peer review. Gebruik voor strategische beslissingen.

Quick council — alleen Grok + Gemini. Sneller, maar minder breed.

Wanneer

Perfecte use cases

Strategie

Go-to-market beslissingen

Welke klanten eerst benaderen? Welk prijsmodel? De council geeft je vier analyses en één synthese.

Techniek

Architectuurkeuzes

Kubernetes of serverless? React of Svelte? Elk model brengt andere ervaring, samen zie je het hele plaatje.

Content

Belangrijke teksten

Pitch decks, offertes, blog posts. Vier modellen schrijven, beoordelen blind, de chairman distilleert het beste.

Trading

Marktanalyse

Vier perspectieven op dezelfde trade. Consensus betekent vertrouwen. Conflict betekent voorzichtigheid.

Evolutie

Het protocol groeit mee

Handmatige Council

Vier vaste raadsleden, handmatig geactiveerd via /council. Anonieme peer review en chairman synthese.

Volgend

Automatische trigger

Claude herkent zelf wanneer een vraag complex genoeg is en activeert de council zonder dat je erom vraagt.

Toekomst

Gewogen stemming

Historische prestaties per agent per domein bepalen stemgewicht. Grok's stem weegt zwaarder bij tech-vragen.

Visie

Specialistische councils

Tech council, strategie council, creatief council — elk met eigen raadsleden, eigen chairman, eigen regels.

Het Inzicht

De partituur van meerdere stemmen

De meeste teams vragen een AI-model en nemen het antwoord aan. Snel. Efficient. En vaak genoeg goed.

Maar bij beslissingen die ertoe doen — strategie, architectuur, positionering — is "goed genoeg" niet goed genoeg. Dan wil je weten wat je mist. Wat de blinde vlek is. Waar je eigen bias je stuurt.

De Council is geen vertraging. Het is verzekering.

Vier modellen die onafhankelijk denken. Vier beoordelingen zonder naam of merk. Eén synthese die sterker is dan elk onderdeel.

Dit is hoe peer review werkt in de wetenschap. Hoe jury's werken in rechtssystemen. Hoe besturen werken in organisaties.

Dezelfde logica. Maar dan met modellen die nooit moe worden, nooit politiek spelen, en altijd eerlijk scoren.

Vier stemmen, één oordeelBlind beoordeeld. Gesynthetiseerd.

Vier stemmen, één oordeel
Blind beoordeeld. Gesynthetiseerd.