La media dei sondaggi di Cassandra
Come funziona?
I dati su cui vengono calcolati i trend provengono dal sito della Presidenza del Consiglio sui sondaggi pubblicati..
Recuperati tutti i sondaggi, il prossimo passo è assegnare quanta influenza devono avere nel modello: questo peso viene calcolato per istituto e serve ad evitare che gli istituti che rilasciano più sondaggi abbiano un impatto sproporzionato rispetto agli istituti che ne producono di meno.
A questo punto viene creata una regressione locale, in pratica una linea che approssima al meglio i dati dei singoli sondaggi, che possono essere anche molto differenti nello stesso periodo. Questo valore viene poi utilizzato per calcolare se, e quanto, ogni istituto si discosta dal “consenso” per un dato giorno, il cosiddetto house effect.
Questo valore tiene conto di quanti sondaggi sono stati prodotti da un dato istituto, l’idea alla base è il valore debba derivare da una differenza di stima sistematica e non debba essere calcolato in maniera “aggressiva” se il campione di sondaggi analizzati è piccolo.
I dati grezzi di ogni sondaggio vengono poi adattati in modo da contare l’house effect dell’istituto che lo ha realizzato e viene effettuata una nuova regressione lineare, il cui risultato è il valore definitivo della media dei sondaggi.