I dati per addestrare le IA si stanno esaurendo

Lo studio del MIT evidenzia una “crisi dei dati” per l’IA, con restrizioni sempre più comuni che limitano l’accesso ai set di dati per l’addestramento dei modelli.

un ampio flusso di dati e di bit

Tempo di lettura:

2 minuti


L’ accesso ai dati è di cruciale importanza per lo sviluppo dei modelli di intelligenza artificiale.

I dati utilizzati per addestrare questi modelli provengono da diverse fonti, e la disponibilità di tali dati ha permesso significativi avanzamenti nel campo dell’IA. Tuttavia, come emerge da uno studio pubblicato dalla Data Provenance Initiative, un gruppo di ricerca del MIT, recenti cambiamenti nelle normative e l’aumento delle restrizioni stanno compromettendo questa accessibilità, creando quella che viene definita una crisi dei dati.

Lo studio, che è riportato anche dal The New York Times, in un lungo articolo di Kevin Roose dello scorso 19 luglio, ha esaminato 14.000 domini web inclusi in tre set di dati di addestramento dell’IA comunemente utilizzati, evidenziando una “crisi emergente del consenso”, in quanto gli editori e le piattaforme online hanno adottato misure per impedire l’acquisizione dei loro dati.

I ricercatori stimano che nei tre set di dati – chiamati C4, RefinedWeb e Dolma – il 5% di tutti i dati, e il 25% dei dati provenienti dalle fonti di qualità più elevata, sia stato sottoposto a restrizioni. Queste restrizioni sono state impostate attraverso il protocollo di esclusione dei robot, un metodo vecchio di decenni che consente ai proprietari di siti web di impedire ai bot automatici di effettuare il crawling delle loro pagine utilizzando un file chiamato robots.txt.

Lo studio ha anche rilevato che ben il 45% dei dati di un set, C4, è stato limitato dai termini di servizio dei siti web.

Tuttavia, è utile ricordare che, sebbene gli editori possano cercare di impedire alle società di I.A. di effettuare lo scraping dei loro dati inserendo delle restrizioni nei loro file robots.txt, queste richieste non sono legalmente vincolanti e la loro osservanza è volontaria.

I principali motori di ricerca onorano queste richieste di opt-out e diverse aziende leader nel settore dell’intelligenza artificiale, tra cui OpenAI e Anthropic, hanno dichiarato pubblicamente che lo fanno anche loro. Ma altre aziende, (ne abbiamo scritto in precedente articolo) tra cui il motore di ricerca alimentato dall’IA Perplexity, sono state accusate di ignorarle.

Queste limitazioni rappresentano un problema anche per le piccole imprese di IA e per i ricercatori accademici, che spesso dipendono dai set di dati pubblici e non hanno le risorse finanziarie per acquistare licenze direttamente dagli editori.

Secondo il Times, alcune aziende ritengono di poter superare la mancanza dei dati utilizzando dati sintetici, ovvero dati generati da sistemi di I.A., per addestrare i loro modelli. Ma molti ricercatori dubitano che gli attuali sistemi di IA siano in grado di generare dati sintetici di qualità sufficiente a sostituire i dati creati dall’uomo che stanno perdendo.