
I team di assunzione amano i loro rubric di intervista. Pochi sanno se predicono davvero chi avrà successo. La risposta onesta per la maggior parte dei team è: no. I benchmark del settore mettono la correlazione tra punteggi di intervista non strutturati e performance lavorativa a r = 0,20 — appena sopra il random.
Lo scoring AI strutturato di intervista è una categoria diversa. Sulla nostra coorte benchmark di 2.400 assunzioni con performance reviews verificate a 6 mesi, la correlazione di Pearson è 0,74. È una predictive validity forte — comparabile ai test di abilità cognitiva, gold standard nella psicologia I/O.
Al momento dell'intervista, l'AI valuta ogni candidato per competenza: comunicazione, profondità tecnica, problem-solving, motivazione, cultural fit (configurabile). La decisione di assunzione e i termini dell'offerta vengono loggati.
A tre mesi, il manager del nuovo assunto valuta la performance reale. A sei mesi, di nuovo. Il sistema accoppia queste valutazioni con i punteggi AI originali e calcola la correlazione per competenza. Correlazioni forti significano che il segnale era reale; deboli significano che quella parte del rubric non è predittiva — eliminala.
Il benchmark globale r = 0,74 è il punto di partenza. Il fine-tuning per cliente, dopo circa 50 assunzioni a ciclo chiuso per famiglia di ruolo, alza la predictive accuracy di un altro 12–18% sui ruoli specifici di quel team.
Tre o quattro cicli di assunzione dopo, il modello è calibrato sulla tua asticella — sa come si vede un «ottimo backend engineer» nella tua azienda specificamente. I nuovi candidati vengono valutati contro quella calibrazione. L'assunzione smette di essere intuizione e diventa un sistema misurabile.

