DVR

Web Scraping: le Linee guida per l’addestramento dei modelli di Intelligenza Artificiale a tutela dei dati personali

2025 0

Dal Garante privacy arrivano le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento, dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).

Obiettivo: addestrare gli algoritmi di intelligenza artificiale (IA) da parte di soggetti terzi, a contrasto del web scraping indiscriminato.

Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre approvata con Avviso pubblico. Il provvedimento è in corso di pubblicazione nella Gazzetta Ufficiale.

Che cos’è il Web Scraping

Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling.

L’attività di crawling si basa su software (il crawler è il bot o spider) che riesce a raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. Il crawler è normalmente utilizzato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati.

Il web scraping serve quindi a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Web scraping indiscriminato: cosa prevede il Garante Privacy

Con Provvedimento del 14 gennaio 2016 e del 10 febbraio 2022 il Garante si è espresso in merito all’illiceità dell’utilizzo di dati raccolti tramite web scraping per finalità incompatibili con quelle iniziali.

Nel 2022 il Garante privacy ha sanzionato Clearview per 20 milioni di euro: la società aveva un database di oltre 10 miliardi di immagini di volti di persone di tutto il mondo, estratte da fonti web pubbliche tramite web scraping. L’azienda risultanze avrebbe trattato illecitamente i dati personali detenuti, inclusi quelli biometrici e di geolocalizzazione senza un’adeguata base giuridica, che non può sicuramente essere il legittimo interesse della società americana ed ha violato altri principi base del GDPR, come quelli relativi agli obblighi di trasparenza, non avendo adeguatamente informato gli utenti, di limitazione delle finalità del trattamento, avendo utilizzato i dati degli utenti per scopi diversi rispetto a quelli per i quali erano stati pubblicati online e di limitazione della conservazione, non avendo stabilito tempi di conservazione dei dati.

Nel Maggio 2023 Il Garante privacy con Provvedimento del 17 maggio 2023 ha vietato al titolare del sito web “www.trovanumeri.com” la costituzione e diffusione on line di un elenco telefonico formato “rastrellando” i dati tramite web scraping (ricerca automatizzata nel web) e gli ha ingiunto il pagamento di una sanzione di 60 mila euro.

Indagine sul web scraping sui siti internet: chi riguarda?

L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale.

Spiega il Garante che diverse piattaforme di IA attraverso il webscraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati.

Il Garante invitava associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico a presentare i propri commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali ai fini di addestramento degli algoritmi.

Web Scraping: come contrastarlo: arrivano le Linee guida del Garante Privacy sui modelli di Intelligenza artificiale

L’Autorità ha ritenuto necessario fornire accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.

Nel documento l’Autorità suggerisce alcune misure concrete:

  • la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità;
  • l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita;
  • interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).

Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.

Trattamento dei dati: l’informazione e la formazione per il Professionista della Security

Qual è la normativa di riferimento per la security in azienda?

In materia di trattamento dei dati suggeriamo i libri di Security editi da EPC editore e dedicati alla formazione e informazione dei professionisti della security e dei lavoratori:

Protezione dei dati personali e sicurezza informatica, EPC Editore, ottobre 2023, a Beccara Jean Louis, Cirolini Lunelli Alessandra , Ranise Silvio

Protezione dei dati personali e sicurezza informatica

Compliance aziendale e modalità tecnico-comportamentali nella conduzione degli audit

a Beccara Jean Louis, Cirolini Lunelli Alessandra , Ranise Silvio

Libro

Edizione: ottobre 2023

Pagine: 176

Formato: 150×210 mm

Tutela dei dati e sicurezza informatica, EPC Editore, novembre 2022, Del Pizzo Alessia

Tutela dei dati e sicurezza informatica

Del Pizzo Alessia
E-book

Contesto normativo e strategico, studio della cybersecurity e blockchain, Cyber security del PTD, il corretto trattamento dei dati nei processi digitali e conoscenza del percorso digitale della pubblica amministrazione.

Il volume fa parte della collana “PNRR, digitalizzazione e cybersecurity”

Abc del trattamento dei dati personali, EPC Editore, ristampa aggiornata marzo 2022, Biasiotti Adalberto

Abc del trattamento dei dati personali

Biasiotti Adalberto

Manualistica per i lavoratori

Edizione: ristampa aggiornata marzo 2022

Pagine: 96

Formato: 115×165 mm

Il sistema integrato per la SICUREZZA delle INFORMAZIONI ed il GDPR, EPC Editore, marzo 2021, Castroreale Renato, Ponti Chiara

Il sistema integrato per la SICUREZZA delle INFORMAZIONI ed il GDPR

Castroreale Renato, Ponti Chiara

Libro

Edizione: marzo 2021

Pagine: 384

Formato: 150×210 mm

Corso di formazione e-learning sul GDPR

security plan

In materia di formazione del professionista della Security, suggeriamo il corso organizzato da Istituto Informa nel catalogo dei corsi di Security e Privacy e dedicato al GDPR

Corso e-learning
GDPR General Data Protection Regulation – Il nuovo Regolamento europeo sul trattamento dei dati

In questo corso si possono approfondire tutte le novità introdotte dal nuovo Regolamento Europeo 679/2016 relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali. Il corso è rivolto a tutti coloro che hanno necessità di apprendere in modo puntuale e veloce le novità introdotte dal nuovo GDPR.

Una squadra di professionisti editoriali ed esperti nelle tematiche della salute e sicurezza sul lavoro, prevenzione incendi, tutela dell’ambiente, edilizia, security e privacy. Da oltre 20 anni alla guida del canale di informazione online di EPC Editore

Redazione InSic

Una squadra di professionisti editoriali ed esperti nelle tematiche della salute e sicurezza sul lavoro, prevenzione incendi, tutela dell'ambiente, edilizia, security e privacy. Da oltre 20 anni alla guida del canale di informazione online di EPC Editore