01 Problem
Jedan model je samouvjereni generalist
Svaki tko ozbiljnije koristi LLM-ove zna taj osjećaj: postavite teško, otvoreno pitanje — "trebamo li migrirati monolit na mikroservise?", "build ili buy za interni tooling?" — i dobijete uglađen, samouvjeren odgovor koji zvuči pametno, ali nigdje se ne vidi napetost. Model se ne svađa sam sa sobom. Trade-offovi se izglade, rizici se spomenu usput, a vi i dalje ne znate gdje je stvarna kvaka.
Većina "multi-agent" frameworka to rješava tako da isti model razgovara sam sa sobom u pet kostima. Cortex ide korak dalje: svaka persona vrti se na drugom modelu — Anthropic Claude, OpenAI o-serija, xAI Grok, Google Gemini, Mistral, DeepSeek. Različite arhitekture, različiti podaci za treniranje, različiti načini na koje griješe. Prava kognitivna raznolikost, ne kazalište jednog glumca.
03 Detalji
možeš dodati i Cortex u radove… tekst ti šaljem ispod
Cortex: vijeće AI modela koje raspravlja umjesto vas — i sada je open source
Što ako za tešku odluku ne pitate jedan AI, nego pet — i to pet različitih AI-jeva, koji se međusobno ne slažu, prepiru se kroz nekoliko krugova, a na kraju netko mora presjeći i donijeti jednu odluku?
Točno to radi Cortex, alat koji smo gradili za vlastite potrebe — i koji smo upravo otvorili kao open source pod MIT licencom: github.com/invictumhr/cortex.
Kako izgleda rasprava
Zadate temu, a Cortex sastavi panel od pet persona iz rostera od trideset stručnjaka — od Ane (software architect) i Zare (security analyst) do Marca (strateški savjetnik) i Dragana, persone s titulom “Klijent Pizajzl”, koja postavlja neugodna klijentska pitanja koja inženjeri najradije preskoče. Panel može izabrati jeftini router-model po domeni pitanja, možete ga složiti ručno, ili pustiti Panel Architecta da za vaše konkretno pitanje generira pet skrojenih uloga koje ne postoje u rosteru.
Rasprava teče kroz krugove, i tu je nekoliko detalja do kojih nam je bilo stalo:
Prvi krug je nezavisan — persone ne vide tuđe odgovore, pa početne pozicije ostaju stvarno raznolike umjesto da se prva izrečena teza pretvori u grupno mišljenje.
Od drugog kruga forsiramo neslaganje — svaka persona mora ili argumentirano odbaciti konkretnu raniju tvrdnju, ili donijeti genuinely novi kut. Bez “slažem se s kolegom” praznog hoda.
Zadnji krug forsira konvergenciju — rasprava se mora zatvoriti, ne razvodniti.
Uz debatere rade još dvije posebne uloge: Scribe, koji periodički sažima raspravu i na kraju isporučuje strukturiranu sintezu (ključne ideje s atribucijom tko ih je donio, otvorena pitanja, action itemi, prioritetna matrica), i Chair, koji mora donijeti jednu odluku u fiksnom formatu: ODLUKA / RAZLOG / NAJVEĆI TRADE-OFF / PRVI KORAK. Bez “ovisi”. Bez muljanja.
U web sučelju rasprava teče uživo preko WebSocketa — vidite svaku personu kako “razmišlja” i odgovara, krug za krugom, dok ne stisnete pauzu. A pošto svaki krug košta stvarne novce na šest različitih API-ja, stranica šalje heartbeat: zatvorite li tab, rasprava se sama pauzira. Ništa nikad ne vrti tokene u pozadini.
Najvažniji dio: iskreni benchmark
Ovdje dolazi dio kojeg se većina projekata ne bi pohvalila, a mi smatramo da je najvredniji.
Pitali smo se: pobjeđuje li ovaj boardroom uopće jedan jak model? Pa smo testirali — 30 otvorenih, teških pitanja, boardroom protiv samog Claude Opusa, odgovori slijepo A/B-randomizirani i ocijenjeni od dva neovisna suca iz različitih provider obitelji (claude-sonnet i gpt-4o).
Rezultat: boardroom pobjeđuje u prosjeku 31,7 % slučajeva, uz 2,8× veći trošak.
Ne, to nije tipfeler. Multi-model rasprava ne pobjeđuje dobar single model sustavno — i mislimo da je važno to reći naglas, jer marketing oko “multi-agent” sustava uglavnom tvrdi suprotno bez ijednog broja. Boardroom je uvjerljivo bolji na specifičnoj klasi problema: višedimenzionalni dizajn i dijagnostika — arhitektura sustava za milijune korisnika, build-vs-buy analize, dijagnoza zašto metrika raste a prihod ne, dizajn procesa u timu. Tamo gdje različite stvarne funkcije (arhitektura, product, QA, security, operations) svaka vide nešto što ostale propuštaju. Gubi na jasnim strateškim odlukama i sinteznim esejima, gdje jedan oštar glas piše bolje od pet glasova u sobi.
Usput smo otkrili i nešto što bi trebao znati svatko tko benchmarkira AI sustave: Claude sudac je u 9 od 11 spornih slučajeva presudio u korist Claude odgovora — isti parovi odgovora pred GPT sucem preokrenuli su se na boardroom. Sudac iz iste obitelji modela nije slijep. Ako mjerite multi-agent sustave jednim sucem, mjerite krivo.
Cijela metodologija, svih 30 pitanja, sirovi odgovori i obrazloženja oba suca su u repozitoriju — eksperiment može reproducirati bilo tko.
Ispod haube
Za one koje zanima tehnička strana, Cortex je punokrvna Laravel aplikacija:
Laravel 12 / PHP 8.3, MySQL 8, Redis, Laravel Reverb za live streaming rasprave
Inertia + React chat sučelje s vlastitim design systemom (Tailwind, dark mode, HR/EN)
Filament admin i customer paneli
6 provider adaptera iza zajedničkog interfacea — uključujući rješenja za stvarne provider kvirkove (Gemini koji potroši cijeli output budžet na interno “razmišljanje”, OpenAI o-serija koja odbija temperature parametar…)
Prepaid wallet sustav s event-sourced ledgerom: svaki odgovor persone radi pre-flight rezervaciju sredstava, poziv modela, pa commit stvarnog troška — atomarno, s dnevnom rekonsilijacijom invariranti. Top-up ide preko 14-znamenkastih PIN kodova.
REST API s osam endpointa i scoped tokenima — dizajniran tako da i drugi AI agenti mogu pokretati rasprave (cortex “…” –json iz CLI-ja vraća strojno čitljiv rezultat)
Sve skupa: 30 fiksnih persona plus Scribe i Chair, 23 podržana jezika rasprave, ~240 PHP datoteka i preko 11.000 linija aplikacijskog koda.
Probajte ga
Cortex je na GitHubu, MIT licenca, self-hostable — treba vam PHP 8.3, MySQL, Redis i API ključ barem jednog providera (više providera = više raznolikosti):
→ github.com/invictumhr/cortex
U repozitoriju ćete naći i detaljnu arhitekturnu dokumentaciju, kompletan benchmark suite i lab-notebook s rezultatima. Najkorisniji doprinosi: persona promptovi na drugim jezicima, adapteri za nove providere, benchmark pitanja iz vaše domene.
Cortex je nastao kao interni alat u Invictumu — malom softverskom studiju iz Požege — jer smo ga sami trebali za odluke gdje “pitaj ChatGPT” nije bilo dovoljno. Otvaramo ga jer mislimo da je pošteno izmjeren multi-model boardroom korisniji prilog ekosustavu od još jednog framework-a s velikim obećanjima.
Built for thinking, not vibe-coding.