Imprimer la page
Vie quotidienne

D’où viennent les DONNÉES de l’IA générative de contenus ?

© JONATAS - stock.adobe.com

© JONATAS - stock.adobe.com

Les ChatGPT (OpenAI), Mistral AI ou autres Claude (Anthropic) fournissent-ils des données fiables, véridiques et légales ? Quelles sont leurs sources ? La transparence n’est pas toujours au rendez-vous. La fondation Mozilla le déplore, ainsi que l’autorité européenne de régulation des données personnelles.

Les données utilisées et reformulées par les plateformes IA génératrices de contenus posent questions sur leur fraîcheur (de quand datent-elles ?), leur véracité et leur respect de la vie privée. La fondation Mozilla (univers des développeurs du logiciel libre ou « open source ») avait interpellé OpenAI en mars dernier sur son absence de transparence à propos des données utilisées dans ChatGPT : « Ces modèles d’IA générative s’appuient sur de gigantesques ensembles de données collectées sur le Web qui contiennent des contenus néfastes. Ces données doivent donc être filtrées avec une extrême vigilance, avant de pouvoir être utilisées pour entraîner des modèles ».
Mozilla s’en prend d’abord à Common Crawl, une plateforme qui publie des archives mensuelles à partir de milliards de pages web souvent mal filtrées (propos racistes, sexuels, etc.), avant de viser OpenAI : « Nous ne savons toujours pas comment OpenAI entraîne ses modèles d’IA, quelles données ils utilisent, comment elles sont collectées, filtrées ou non dans leurs outils d’IA », dénonce la fondation qui cite Sam Altman, Président-Directeur-Général de la firme : « Je pense que vous pouvez faire des choses dans le monde… Vous n’avez pas besoin d’attendre, vous n’avez pas besoin d’obtenir la permission. »
Sauf que le New York Times a intenté un procès à OpenAI pour utilisation de données personnelles et de contenus protégés par le droit d’auteur… L’éditeur de ChatGPT n’est pas le seul visé : « Google et Microsoft ont accès à d’importantes quantités de données personnelles de leurs utilisateurs, comme des conversations privées, des documents financiers ou encore des photos et des vidéos de famille », ajoute Mozilla, qui constate que les géants de la Tech refusent la transparence, en invoquant le « contexte concurrentiel ».

Véracité, hélas relative

Un avertissement a également été lancé par le Comité européen de la protection des données (European Data Protection Board - EDPB), dont fait partie la Cnil pour la France : « Les efforts fournis jusqu’ici par OpenAI ne sont pas suffisants pour assurer le respect du règlement européen sur les données personnelles (RGPD). (…) Leur principe même est d’extraire des données issues de sites Internet pour former et enrichir leurs modèles. Or, parmi ces données, il y a inévitablement des données à caractère personnel ».
Maartje de Graaf, Avocate spécialisée dans la protection des données (Noyb), alerte : « Inventer de fausses informations est déjà problématique en soi. Mais lorsqu’il s’agit de fausses informations sur des personnes, les...

Cet article est réservé aux abonnés. Pour lire la suite de cet article, vous pouvez acheter notre journal ou vous abonner.
Accédez à toute l'actualité et aux annonces légales en illimité

1 AN (52 n°)Hebdomadaire
à partir de 25,00 €/an *

(* Tarif en vigueur en France Métropolitaine, valable pour la version numérique)

Déjà abonné ?  > je me connecte