Il machine learning contro l’abbandono universitario: ecco come

Il machine learning può essere utile al mondo delle università in due modi: predittivo e analitico. Ecco in che modo può essere utilizzato per conoscere in anticipo gli studenti a rischio abbandono e consentire agli atenei di limitare un fenomeno con pesanti ricadute economiche e sociali e molto diffuso nel nostro Paese.

Fonte: Agendadigitale.eu
di Antonio Macaluso | Data Analyst Cineca, dottorando dell’Università di Bologna,
Giacomo Scillia | Direttore Struttura Complessa Università, Cineca,
David Vannozzi | Direttore generale, Cineca.

Diversi studi certificano che il tasso di abbandono degli studi universitari in Italia si attesta sui livelli più alti d’Europa, con conseguenze estremamente negative per la crescita economica e l’occupazione, la produttività e la competitività del Paese. Il progetto Osservatorio Abbandoni di Cineca ha obiettivo di esplorare le possibili applicazioni delle tecniche di analisi dati e Machine Learning, anche per monitorare le performance e le caratteristiche degli studenti che durante l’anno presentano un’alta probabilità di abbandono con l’obiettivo di limitare o prevenire il fenomeno.

Abbandono degli studi: i dati italiani sono sconfortanti

La riduzione dell’abbandono scolastico è una delle priorità della Commissione Europea perché (…) rappresenta un ostacolo per la crescita economica e l’occupazione. Frena la produttività e la competitività e alimenta povertà ed esclusione sociale.

Gli obiettivi di EU2020 in questo ambito riguardano diversi aspetti del fenomeno: da un lato la riduzione dei tassi di abbandono al di sotto del 10% e dall’altro l’aumento al 40% delle persone nella fascia di età 30-34 anni con un’istruzione universitaria.

Per quanto riguarda l’Italia, il Programme for International Student Assessment (PISA), che ha l’obiettivo di misurare le capacità degli studenti quindicenni di tutto il mondo ad affrontare problemi lavorativi tramite l’utilizzo di test basati sulla lettura, sulla matematica e sulle scienze, ha calcolato che il sistema dell’istruzione italiana non solo performa peggio della media europea, ma rimane al di sotto di ciò che ci si aspetterebbe dato il reddito pro capite del paese.

Nel Rapporto biennale sullo stato del sistema universitario e della ricerca dell’ANVUR è possibile constatare, a livello nazionale, un lieve miglioramento in termini di tassi di abbandoni universitari (36,9% -> 38,7%), tuttavia il numero di abbandoni nelle università italiane rimane tra i più alti d’Europa. Inoltre persistono importanti differenze per area geografica oppure per anno di corso. Gli studenti iscritti al primo anno di corso e quelli del mezzogiorno sono quelli più soggetti a questo fenomeno.

Investimenti in istruzione e ricchezza pro-capite

La relazione tra gli investimenti in istruzione e ricchezza pro-capite di un paese emerge da molti studi svolti da diverse istituzioni internazionali (World Economic Forum, Eurostat). I dati riportati da Eurostat restituiscono un quadro in cui le università italiane faticano a trattenere gli studenti evitando che questi abbandonino gli studi prima di aver completato il percorso universitario. Questo fenomeno ha un impatto non solo sulla società (come emerge dalla ricerca del 2016 della London School of Economics, condivisa dal World Economic Forum) ma anche su aspetti legati alle risorse da cui attingono gli atenei italiani (Fondo di Finanziamento Ordinario – FFO, quota premiale, indicatori relativi alla didattica).

Sebbene il mondo dell’istruzione sia soggetto all’influenza da parte di diversi fattori esogeni, come l’andamento economico, i mutamenti sociali, etc, il fenomeno degli abbandoni universitari è strettamente legato alla vita del singolo ateneo. La possibilità quindi di indagare, e possibilmente limitare, il fenomeno degli abbandoni risulta una importante leva strategica per l’università da due punti di vista: la contribuzione da parte degli studenti, tramite le tasse di iscrizione da un lato e il FFO erogato dal Ministero dell’Istruzione, Università e Ricerca dall’altro.

L’Osservatorio abbandoni

Il progetto Osservatorio Abbandoni di Cineca ha obiettivo di esplorare le possibili applicazioni delle tecniche di analisi dati e Machine Learning in diversi contesti che riguardano il sistema accademico. L’Osservatorio nasce dalla collaborazione con alcune università che, rendendosi disponibili ad effettuare alcune sperimentazioni, hanno consentito lo sviluppo e il consolidamento di un’infrastruttura che permette di fornire la previsione degli studenti a rischio abbandono attraverso l’utilizzo del Machine Learning. In questa fase, l’analisi predittiva riguarda soltanto gli studenti delle lauree triennali dell’ateneo che, rispetto alle altre tipologie di laurea (ciclo unico, magistrale, etc.), rappresentano l’insieme a più alto rischio.

L’Osservatorio sfrutta i dati presenti nei sistemi di DataWarehouse di ateneo, in particolare quelli del Data Mart Segreteria Studenti per estrarre alcune informazioni riguardanti le carriere degli studenti utilizzate poi per effettuare l’analisi predittiva. I dati estratti riguardano tre tipologie di informazioni:

  • Anagrafica: dati che descrivono le caratteristiche socio-demografiche degli studenti (età, sesso, etc.);
  • Carriera: dati riguardanti l’attuale percorso accademico intrapreso dello studente e la scuola di provenienza;
  • Performance: dati che riguardano il grado di partecipazione dello studente alla vita universitaria (esami, CFU, etc.)
Tra gli obiettivi dell’Osservatorio vi è quello di promuovere un confronto tra gli atenei basato su un mutuo scambio di informazioni tra i partecipanti. La condivisione riguarda solo dati aggregati e i dati condivisi sono visibili esclusivamente dagli altri atenei partecipanti all’osservatorio. Oltre che ad un generico confronto con le statistiche a livello nazionale fornite dagli organi ufficiali, tramite l’Osservatorio è quindi possibile monitorare le performance e le caratteristiche degli studenti che durante l’anno corrente presentano un’alta probabilità di abbandono, confrontando gli andamenti con gli altri atenei partecipanti.

I dati di dettaglio dell’Osservatorio sono fruibili dai singoli atenei attraverso il “Portale Osservatorio Abbandoni”, che prevede una serie di cruscotti per navigare, filtrare e analizzare i dati degli studenti. Le dashboard del portale danno la possibilità all’ateneo di visualizzare lo storico dei dati di abbandono e i dati di previsione sia dell’anno accademico corrente, sia di quello precedente.

È possibile inoltre scaricare i dati di dettaglio delle previsioni di abbandono (nominativi e probabilità) e di effettuare un confronto (benchmark) con i dati aggregati degli altri atenei partecipanti. Infine è anche prevista la possibilità di partecipare agli eventi organizzati nell’ambito della community sull’Osservatorio per fare rete con gli altri atenei sul tema della student retention. La possibilità di conoscere in anticipo gli studenti a rischio abbandono, quindi prima che questi abbandonino effettivamente gli studi, può consentire all’ateneo di intervenire per limitare e/o gestire preventivamente il fenomeno. Sono diverse le possibili applicazioni dei dati di previsione: l’attuazione di azioni di contrasto (come contatto diretto, corsi di recupero, tutoraggio, questionari); l’identificazione delle principali cause che portano all’abbandono; la possibilità di dare un feedback allo studente della situazione a rischio, una migliore programmazione della didattica; la previsione della contribuzione studentesca, e altre ancora.

Machine Learning, scopi e applicazioni

L’Osservatorio fa uso di tecnologie di machine learning. Quando si parla di machine learning ci si riferisce ad una particolare branca dell’Intelligenza Artificiale che si occupa dello sviluppo di algoritmi e tecniche che consentono ai computer di imparare dai dati, ed è noto anche come Apprendimento Automatico.

Solitamente il machine learning viene accostato ad applicazioni in campi super-specialistici (Scienza, Medicina, Ingegneria spaziale, etc.) di esclusiva pertinenza del mondo della scienza, della tecnologia o della ricerca, lontano dalla vita di tutti i giorni. Si tratta però di un errore: l’apprendimento automatico può essere utilizzato in moltissime applicazioni di uso quotidiano. Un’applicazione classica di machine learning, ad esempio, è quella del riconoscimento vocale di cui sono dotati molti smartphone, che permettono di attivare comandi tramite la propria voce. Ancora, molto comuni sono gli strumenti intelligenti che fanno uso di riconoscimento vocale per le diverse applicazioni di domotica, e che imparano via via nuovi vocaboli o modi di dire seguendo i comandi vocali che vengono impartiti.

Non è semplice definire in maniera univoca le caratteristiche e le applicazioni del machine learning, esso infatti prevede differenti modalità, tecniche e strumenti per essere realizzato. Si può tuttavia dire che il suo principale scopo è quello di permettere a una macchina intelligente di migliorare nel tempo le proprie capacità e prestazioni. Alla base dell’apprendimento automatico ci sono una serie di differenti algoritmi che, partendo da nozioni primitive, sono in grado di prendere una specifica decisione piuttosto che un’altra o effettuare azioni apprese nel tempo.

Potenzialmente il machine learning è in grado di semplificare operazioni tecnicamente complesse servendosi della statistica. Possiamo dire che, partendo da obiettivi chiari e definendo i passi da intraprendere, il machine learning sfrutta in maniera intelligente l’universo di informazioni a disposizione e ne ricava una guida fondamentale nel supporto dei processi decisionali.

In generale, l’applicazione più comune degli strumenti di machine learning è quella di produrre previsioni. Che si tratti di realizzare consigli personalizzati per i consumatori, di prevedere la fedeltà a lungo termine dei clienti o di stimare il rischio di credito di un prestito, il problema di business consiste sempre nel dover prendere una decisione corretta in un contesto complesso, in cui i fattori importanti sono molti. Il risultato consiste in una previsione.

Machine Learning in ambito accademico

L’uso di tecniche di apprendimento automatico per migliorare e studiare il mondo delle università, e più in generale il mondo dell’istruzione, ha lo scopo di sviluppare metodi di esplorazione dei dati per scoprire individuare modelli di comportamento significativi che siano rilevanti per tutti i soggetti coinvolti. I dati raccolti e memorizzati (corsi virtuali, e-learning, file di registro, dati demografici e accademici degli studenti, informazioni di ammissione / registrazione, etc.) possono essere utili per gli algoritmi di apprendimento automatico.

Dal punto di vista tecnico, il machine learning può essere utile al mondo delle università in due modi distinti: il primo è di tipo predittivo, il secondo di tipo analitico.

Dal punto di vista predittivo, uno strumento che consenta di capire ed anticipare alcuni fenomeni quali abbandoni, iscrizioni, lauree, etc. consentirebbe alle istituzioni e alle università di monitorare ed eventualmente intervenire attivamente per migliorare e ottimizzare molte delle dinamiche che ne influenzano loro la vita. L’Osservatorio Abbandoni sviluppato da Cineca si muove in questa direzione, e nasce dalla consapevolezza che il problema degli abbandoni è un molto sentito dal mondo delle università. Il già citato Rapporto Biennale sullo Stato del Sistema Universitario e della Ricerca 2018 dell’ANVUR, infatti, descrive 23 indicatori e parametri per la valutazione periodica delle attività formative che caratterizzano i corsi di studio e le carriere degli studenti. Questi indicatori riguardano l’analisi dei fenomeni legati al percorso e all’esito delle carriere accademiche degli studenti universitari, si basano su dati individuali degli studenti e seguono in modo longitudinale gli eventi della carriera: quindi, la possibilità di conoscere a priori i flussi in entrata e in uscita degli studenti consente a un ateneo di stimare la quantità di risorse a lei destinate nel corso degli anni avvenire, essendo la sua valutazione tramite questi indicatori strettamente legata al fondo di finanziamento ordinario (FFO).

L’aspetto analitico invece riguarda lo studio a consuntivo dei flussi degli studenti inter-ateneo ma anche le ragioni che spingono gli studenti ad iscriversi e ad abbandonare. La possibilità di accedere ad una piattaforma che dispone di informazioni afferenti a diverse realtà universitarie consente di affrontare i problemi comuni delle università in modo trasversale, e far emergere risultati anche inaspettati. Ad esempio, attraverso analisi ad hoc effettuate su alcuni atenei è emerso che alcune delle azioni correttive implementate per filtrare all’ingresso solo gli studenti migliori, imponendo quasi estensivamente i corsi a numero chiuso, hanno portato all’effetto contrario rispetto a quello voluto. Come è noto infatti l’obiettivo del numero chiuso è quello di selezionare a priori gli studenti migliori, per migliorare il livello della didattica. Tuttavia ciò che è emerso dai dati analizzati rispetto al livello di partecipazione degli studenti alla vita universitaria, è che la scelta non ha dato i risultati sperati. Infatti, in molti casi gli studenti ammessi ad un corso di laurea a numero chiuso hanno performance peggiori rispetto agli studenti degli anni precedenti iscritti allo stesso corso ma che non hanno dovuto superare l’ostacolo del test selettivo.

Un altro insight che è emerso riguarda l’associazione tra indirizzo di studi intrapreso all’università e percorso di studi precedente. Contrariamente a quanto ci si aspetterebbe, i corsi di laurea ad alto contenuto tecnico non sono quelli con maggior numero di abbandoni. Inoltre, il background di partenza in molti casi non è un buon indicatore rispetto alle performance degli studenti, esistono molte differenze rispetto alle scuole e ai corsi di laurea.

Il machine learning applicato al mondo dell’education inizia a dimostrare che l’esplorazione dei dati consente di far emergere le correlazioni nascoste, non facilmente individuabili dall’intervento umano, o addirittura risultati controintuitivi, ma preziosi nella lettura della realtà dei fenomeni (in questo caso i flussi di studenti).

In definitiva, l’apporto di questa nuova tecnologia rappresenta uno strumento cruciale per l’Osservatorio abbandoni. Tecnologia che, peraltro, si combina perfettamente con la logica di “fare rete” fra Istituzioni, cioè consente agli atenei di mettere a fattor comune e valorizzare il patrimonio di dati del sistema accademico. In questo modo Cineca attualizza la propria missione consortile, quella cioè di supportare le università nei processi decisionali e nell’analisi dei fenomeni che le riguardano tramite l’utilizzo di tecnologie innovative.