Vad mätte CVorias benchmark för personliga brev?

Den mätte AI-bedömd brevkvalitet i blinda head-to-head-jämförelser över fem svenska CV- och jobbannonspartner.

Bevisar benchmarken att CVoria ger fler intervjuer?

Nej. Benchmarken mäter bedömd brevkvalitet, inte återkopplingar, intervjuer eller jobberbjudanden.

CVoria benchmark för personliga brev 2026

Vi ville svara på en enkel men obekväm produktfråga: blir våra personliga brev faktiskt bättre än det en användare får genom att klistra in sitt CV och en jobbannons i en vanlig AI-modell? Därför körde vi en blind benchmark. I 60 AI-bedömda head-to-head-jämförelser föredrogs CVoria V2 i 57 fall.

Kortversionen

CVoria V2 vann 57 av 60 blinda jämförelser totalt. Det inkluderar 44 av 45 jämförelser mot standardprompter i ChatGPT, Gemini och Claude, samt 13 av 15 jämförelser mot CVoria V1.

Varför vi gjorde testet

Det är lätt att skapa personliga brev med AI idag. Just därför räcker det inte att texten bara är välskriven. Ett verktyg som CVoria måste skapa brev som känns specifika för rollen, bygger på kandidatens faktiska CV och ger rekryteraren en anledning att fortsätta läsa.

Den svaga versionen av påståendet vore “AI kan skriva personliga brev”. Det vet alla redan. Den riktiga frågan är om ett strukturerat CVoria-flöde kan slå vanlig prompting och dessutom förbättra vårt tidigare CVoria-system.

Så gick testet till

Vi använde fem svenska CV- och jobbannonspartner inom försäljning, vård, mjukvaruutveckling, digital marknadsföring och lagerarbete. För varje par skapades ett CVoria V2-brev med Gemini Flash 3.5 och jämfördes mot fyra baslinjer.

ChatGPT 5.5 Thinking med en enkel standardprompt för personligt brev.
Gemini 3.5 Flash med samma standardprompt.
Claude Haiku 4.5 med samma standardprompt.
Claude Haiku 4.5 CVoria V1, vårt tidigare CVoria-upplägg för personliga brev.

Varje jämförelse bedömdes av ChatGPT 5.5 Thinking, Claude Opus 4.6 Thinking och Gemini 3.1 Pro. Domaren såg CV, jobbannons, brev A och brev B, men inte vilket system som hade skrivit vilket brev.

Resultatet

Jämförelse	Vinster för CVoria V2	Vinstgrad
Totalt	57 / 60	95,0 %
Mot standardprompter	44 / 45	97,8 %
Mot CVoria V1	13 / 15	86,7 %

Jämförelsen mot V1 är särskilt viktig för oss. Att slå en enkel generisk prompt är användbart, men det visar inte ensamt att produkten har blivit bättre. Att slå vårt tidigare Claude Haiku 4.5-baserade CVoria-upplägg är en starkare signal om att det nya Gemini Flash 3.5-baserade flödet är ett steg framåt.

Vad domarna belönade

De vinnande breven var inte bara längre eller mer polerade. Domarna belönade framför allt brev som gjorde kandidatens matchning lättare att förstå utan att hitta på detaljer.

Starkare inledningar som gav rekryteraren en anledning att läsa vidare.
Mer rollkänsligt skrivande i stället för en generisk “professionell” ton.
Bättre användning av konkreta bevis från CV:t.
Tydligare bryggor när kandidaten inte var en perfekt match.
Färre ostödda påståenden om entusiasm, verktyg, flyttvilja eller praktiska krav.

Där V2 fortfarande förlorade

CVoria V2 förlorade tre jämförelser. Alla tre låg i marknadsföringsprofilen, där jobbannonsen betonade praktiska krav som videoproduktion, resor, plats och körkort.

Det är användbar feedback. V2 var försiktig när CV:t inte fullt ut stödde de praktiska åtagandena. Vissa domare belönade den ärligheten. Andra föredrog ett mer aggressivt brev som lät mer säkert, även när den säkerheten inte tydligt stöddes av CV:t.

Vad vi kan och inte kan påstå

Vi är medvetet försiktiga med formuleringen. Det här bevisar inte att CVoria ger fler intervjuer, återkopplingar eller jobberbjudanden. Sådana påståenden kräver tester med rekryterare eller en riktig fältstudie.

Jämförelsen mellan CVoria V1 och V2 innehåller också ett modellbyte: V1 genererades med Claude Haiku 4.5, medan V2 genererades med Gemini Flash 3.5. Resultatet bör därför läsas som en benchmark av det nuvarande genereringsupplägget, inte som ett rent prompt-only A/B-test.

Det vi kan säga är smalare, men fortfarande meningsfullt: i den här kontrollerade benchmarken föredrog AI-domare CVoria V2 i 57 av 60 blinda head-to-head-jämförelser.

Varför vi publicerar datan

Vi publicerar whitepapern och ett publikt datapaket eftersom den här typen av påstående bör gå att granska. Paketet innehåller anonymiserade CV- och jobbinput, genererade brev, blinda bedömningar, standardprompten, jämförelsepromptens mall och ett verifieringsscript.

Vi publicerar inte den proprietära CVoria-prompten. Den är produktlogiken. Men input, output, bedömningar och resultaträkning finns tillgängliga så att benchmarken går att inspektera utan att exponera kandidaters eller företags identiteter.

Vad detta betyder för användare

Slutsatsen är inte att varje genererat brev är perfekt. Den är att ett system för personliga brev måste göra mer än att formatera generisk entusiasm. Det ska läsa rollen, välja rätt bevis, undvika ostödda påståenden och skapa en första paragraf som gör att rekryteraren vill fortsätta.

Varför användarens input fortfarande spelar roll

Benchmarken använde bara CV och jobbannons för att testet skulle vara kontrollerat. Det riktiga CVoria-flödet för personliga brev kan använda mer än så. Användaren kan lägga till personliga höjdpunkter, extra kontext, tonönskemål, skrivinstruktioner eller ett befintligt brev som ska anpassas.

Det spelar roll eftersom några av de starkaste detaljerna i ett personligt brev inte alltid syns i ett CV: varför rollen intresserar dig, om du är öppen för resor eller flytt, vilken prestation du vill lyfta fram eller vilken ton som känns naturlig. Produkten bör använda sådana detaljer när användaren ger dem, men fortfarande hålla brevet grundat i bevis.

Du kan testa arbetsflödet med ditt eget CV och en jobbannons i CVorias verktyg för personligt brev.

Vi benchmarkade CVorias personliga brev. Så gick det.