Regno Unito: Modelli di fondazione AI e proprietà intellettuale

Redazione

No comment

La revisione dei modelli di fondazione da parte della CMA del Regno Unito l’autorità britannica per la concorrenza e il mercato (“CMA”) ha recentemente annunciato una revisione dei modelli di fondazione dell’IA (AI, Artificial Intelligence Foundation Models) come parte dell’attuazione dell’approccio del governo britannico alla regolamentazione dell’IA. La revisione si concentra sulle barriere all’ingresso nello sviluppo dei modelli di base, sul loro impatto su altri mercati e sulla protezione dei consumatori. L’esame della CMA rappresenta un intervento tempestivo e precoce in una tecnologia trasformativa ad alto impatto.

La conformità con le leggi sulla proprietà intellettuale e il potenziale impatto sui titolari di diritti di proprietà intellettuale non rientrano nell’ambito della revisione della CMA, ma i recenti sviluppi negli Stati Uniti iniziano a mostrare come la situazione potrebbe evolvere nel Regno Unito e in Europa.

Cosa sono i modelli Foundation?

I modelli Foundation dipendono da grandi quantità di dati grezzi, dagli algoritmi per sfruttarli e addestrarli e da potenti capacità di calcolo (sotto forma di unità di elaborazione grafica (GPU) e tensoriale (TPU)). I dati grezzi sono tipicamente presi da internet – per ChatGPT-3 sono stati ricavati da istantanee dell’intero internet tra il 2016 e il 2019 tramite Common Crawl, un web crawler. I dati grezzi vengono ripuliti e addestrati utilizzando la “auto-supervisione”. In questo modo si elimina la necessità di etichettare i dati sottostanti e si consente al sistema di apprendere da solo, accelerando notevolmente i tempi.

Modelli di fondazione

Il modello di fondazione viene poi sottoposto a una serie di processi tutti ripetuti in parallelo per accelerare ulteriormente i tempi. Come spiega la revisione iniziale del CMA:

“Durante l’addestramento, i dati vengono suddivisi in piccoli token (ad esempio, i dati di testo possono essere suddivisi in parole) e il modello apprende le relazioni probabilistiche tra ogni token e ogni altro token nei dati che gli vengono forniti”.

In modo un po’ più dettagliato:

in primo luogo, i dati sottostanti vengono convertiti in token numerici;
poi, al token viene data una definizione e viene inserito in uno “spazio di significato” vicino ad altri token con significati simili;
in terzo luogo, la “rete di attenzione” del sistema sviluppa associazioni tra i token nel corso di miliardi di addestramenti;
quarto, il sistema codifica gradualmente come pesi ciò che vede come numeri e utilizza questi paesi per rendere le associazioni tra i token più strette e precise;
in quinto luogo, il modello viene messo a punto per casi d’uso particolari;
infine, l’applicazione viene distribuita, ad esempio come chat o generativa, scrittura di codice o generazione di immagini.

Modelli di fondazione e proprietà intellettuale – Stati Uniti

Gran parte del contenuto dei modelli di fondazione è potenzialmente protetto da diritto d’autore e si prevedono interventi normativi e contenziosi per stabilire i confini di ciò che è, o non è, proteggibile o violabile.

Nel marzo 2023, l’Ufficio statunitense per il diritto d’autore ha fornito chiare indicazioni su come trattare le opere contenenti materiale generato dall’IA, affermando che:

“Se gli elementi tradizionali di paternità di un’opera sono stati prodotti da una macchina, l’opera manca di paternità umana e l’Ufficio non la registrerà. Ciò include situazioni in cui una tecnologia AI è sviluppata in modo tale da generare materiale in modo autonomo senza il coinvolgimento dell’uomo. Ad esempio, quando una tecnologia AI riceve solo un suggerimento da un essere umano e produce in risposta complesse opere scritte, visive o musicali, gli “elementi tradizionali della paternità” sono determinati ed eseguiti dalla tecnologia, non dall’utente umano”.

Un primo caso negli Stati Uniti è Getty Images v Stability AI. In questo caso Stability AI ha creato un modello di generazione di immagini chiamato Stable Diffusion che utilizza l’intelligenza artificiale per fornire immagini “sintetizzate al computer” in risposta a richieste di testo. Getty, nella sua denuncia emendata del 29 marzo 2023, sostiene che Stability AI ha copiato oltre 12 milioni di fotografie di Getty Images in violazione dei diritti d’autore, dei marchi, dell’avviamento e delle condizioni d’uso del sito web di Getty.

Un caso che forse solleva più interrogativi è un’azione collettiva intentata contro i coimputati GitHub, Microsoft e OpenAI, che sostengono di aver violato il diritto d’autore consentendo a Copilot, un modello di generazione di codice addestrato su miliardi di linee di codice, di fornire frammenti di codice su licenza senza alcun credito. I convenuti sostengono che la causa dovrebbe essere respinta praticamente su tutti i fronti: i ricorrenti non hanno dimostrato l’esistenza del diritto d’autore, la proprietà del diritto d’autore, la violazione del diritto d’autore da parte dei convenuti o il danno subito dai ricorrenti.

Modelli di fondazione e proprietà intellettuale – Regno Unito

L’evoluzione di questi casi sarà interessante per gli avvocati che forniscono consulenza in materia di IA in tutto il mondo. E per quanto riguarda il Regno Unito? Ecco i nostri dieci punti principali:

Opere generate al computer: l’approccio del Regno Unito alle opere generate al computer differisce da quello degli Stati Uniti. Ai sensi dell’articolo 9, paragrafo 3, del Copyright Designs and Patents Act 1998 del Regno Unito, l’autore di un’opera generata al computer è la persona che ha preso le disposizioni per la sua creazione; e in base all’articolo 178, un’opera generata al computer è quando non c’è un autore umano dell’opera. Sembra quindi che nel Regno Unito sia possibile risalire a un soggetto umano nel circuito, come non è possibile fare negli Stati Uniti.

Screen scraping: molto spesso parti del modello di fondazione sono create attraverso il web crawling e lo screenscraping. Le condizioni d’uso di molti siti web cercano di impedire questo tipo di attività e sia il caso Stability che quello Copilot includono richieste di risarcimento per violazione del contratto.

Termini di licenza/servizio dell’operatore del modello di fondazione: questi devono essere esaminati con attenzione dagli utenti aziendali perché contengono trappole per gli incauti, in particolare nelle aree della protezione dei dati, della riservatezza, dell’indennizzo, della responsabilità, della portata della licenza e della proprietà dei dati e dei dati derivati.

Testo e data mining: l’UE ha adottato l’eccezione per il text and data mining (“TDM”) nella direttiva sul mercato unico digitale. Tale eccezione riguarda “qualsiasi tecnica analitica automatizzata finalizzata all’analisi di testi e dati in forma digitale al fine di generare informazioni che includono, ma non si limitano a, modelli, tendenze e correlazioni”. L’eccezione può essere superata da un linguaggio di riserva opportunamente espresso. Il Regno Unito non ha emanato la direttiva prima della Brexit e si è discusso molto sull’ambito di applicazione dell’eccezione TDM: dove andrà a finire è ancora una questione aperta.

Eccezioni al diritto d’autore per gli “atti consentiti” nel Regno Unito: al di fuori dell’eccezione TDM, il Regno Unito non dispone dell’ampia eccezione statunitense del copyright “fair dealing” e i convenuti potrebbero avere difficoltà a far rientrare i modelli di fondazione in uno degli atti consentiti più specifici del Regno Unito.

Diritto alle banche dati: Il diritto sulle banche dati è un diritto particolare del Regno Unito e dell’UE. Un querelante può sostenere che il creatore di un modello di fondazione ha estratto o riutilizzato il contenuto della banca dati del querelante, ma i tribunali nazionali in Europa e la corte di giustizia europea non sono stati troppo comprensivi nei confronti delle richieste di violazione del diritto sulle banche dati. In un certo senso, potrebbe essere più facile per l’operatore del modello di fondazione rivendicare il diritto alla banca dati nel modello che ha creato.

Pubblicazione di sintesi di materiale protetto da copyright utilizzato per addestrare i modelli di IA: il Parlamento europeo ha recentemente proposto di modificare la legge sull’IA per richiedere agli operatori di modelli generativi di fondazione di pubblicare le sintesi del materiale protetto da copyright utilizzato per l’addestramento.

Copyright nelle query di input e nelle risposte di output, ecc: infine, osservare la posizione dell’IP in relazione alle query di input e alle risposte di output generate da tali query.

Altri diritti di proprietà intellettuale: considerare altri diritti di proprietà intellettuale come segreti commerciali, marchi e diritti sulle invenzioni.

Protezione dei dati, ecc: la proprietà intellettuale è solo una delle aree legali interessate dall’IA, in particolare non bisogna dimenticare la protezione dei dati.

Come sempre, la legge fatica a stare al passo con la tecnologia, ma con i modelli di fondazione dell’IA, il ritmo del cambiamento tecnologico è più veloce e la gamma di problemi legali impattati è più ampia di quanto si sia mai visto prima.