Google entraîne son IA avec vos données publiques

Google entraîne son IA avec vos données publiques

Pour entraîner son IA Bard, Google a discrètement changé ses règles de confidentialité de ses services en s'octroyant le droit d'utiliser tout le contenu disponible sur Internet. Y compris toutes les informations que vous publiez…

On le sait, Google recueille une quantité astronomique de données personnelles lorsque nous utilisons ses services – même si l'on ne se rend pas compte à quel point. Ces données lui permettent de proposer des navigations et des résultats plus personnalisés et de meilleure qualité, mais aussi, et surtout, d'engranger d'importants revenus, notamment auprès des annonceurs. Toutefois, avec l'explosion de l'IA et la nécessité de former le modèle de langage le plus puissant pour alimenter cette dernière, Google pourrait bien avoir les yeux plus gros que le ventre en matière de collecte. Ce week-end, la firme de Mountain View a opéré un subtil et discret changement au sein de sa politique de confidentialité américaine. Comme l'a repéré TechPower, elle compte bien utiliser sa position dominante sur Internet pour nourrir ses IA avec toujours plus de contenus publics. Et cette fois, elle pourrait bien prendre la liberté d'étendre son champ d'action à l'ensemble du Web afin de gagner sa course à l'intelligence artificielle. Et tant pis pour notre vie privée !

Google : un petit changement qui en entraîne un gros

Jusqu'à ce week-end, Google stipulait dans sa politique de confidentialité américaine que les données accessibles publiquement seraient utilisées pour le business, la recherche, et pour améliorer Google Translate. Or, on peut désormais lire que l'entreprise "utilise des informations pour améliorer ses services et développer de nouveaux produits, fonctionnalités et technologies au profit de ses utilisateurs et du grand public. Par exemple, nous utilisons des informations accessibles au public pour former les modèles d'IA de Google et créer des produits et des fonctionnalités tels que Google Translate, Bard et les capacités de Cloud AI." Forcément, une telle modification interroge. Qu'entend-elle par "informations accessibles au public" ? Un peu plus loin, la firme de Mountain View explique que "Nous pouvons collecter des informations disponibles en ligne ou sur d'autres sources publiques". Voilà une formulation pour le moins ambigüe ! Parle-t-elle des informations que l'on fournit sur ces services, comme les commentaires sur YouTube ou les avis laissés sur Google Maps et sur les applications du Play Store ? Ou s'accorde-t-elle un droit de regard sur le Web public dans son entièreté ?

Ce changement est appliqué depuis le 1er juillet et, pour le moment, uniquement aux États-Unis. Sur la page française de Google, aucune mention de ces changements, même s'il y a bien eu des modifications à cette date. On peut se dire que ce n'est que temporaire, les États-Unis servant souvent de lieu de "test" pour toutes les nouveautés de l'entreprise, mais il est aussi possible que les lois européennes soient trop restrictives pour Google, notamment avec le RGPD et l'IA Act, qui est en cours de rédaction (voir notre article). Rappelons que son IA Bard n'est pas disponible sur le Vieux continent, même s'il est possible d'utiliser un VPN pour y accéder.

Google : une opacité de la gestion des données problématique

En soi, toutes les intelligences artificielles, que ce soit ChatGPT ou Bing Chat, ont probablement été entraînées à partir des données publiques disponibles sur Internet. Mais c'est la première fois qu'une entreprise – et pas n'importe laquelle – indique sans détour – ou presque – la provenance de ces données. Un jeu dangereux d'un point de vue légal, sachant que de nombreux artistes considèrent que leurs droits d'auteur ont été bafoués – l'IA générative se sert de leur travail pour produire du contenu – et que la législation est en train de s'adapter à l'émergence de cette technologie.

Ce n'est pas la première fois que le géant du numérique attire l'attention par ses politiques troubles. Dans un communiqué publié ce 4 juillet, la Direction Générale de la Concurrence, de la Consommation et de la Répression des Fraudes (DGCCRF) indique que Google va devoir s'acquitter d'une jolie amende de 2 millions d'euros pour ne pas avoir respecté le code de la consommation français. En effet, elle constate, pour trois types de services, un manque d'"une information claire, loyale et transparente" pour ses utilisateurs.

Ainsi, Google Search n'indique pas assez explicitement quels sont les critères de classement des résultats lorsqu'un internaute effectue une requête. Il manque également des informations essentielles pour qu'il puisse faire un choix éclairé lorsqu'il compare les offres d'hébergement touristique – par exemple, le service n'indique pas si l'offre est annulable et remboursable, ou si le petit-déjeuner est inclus dans le prix affiché. Enfin, le Play Store "oublie" d'indiquer les critères de classement des résultats, la qualité de la société offrant un service – est-ce un professionnel ou d'un particulier ? –, les modalités de paiement et les règles en matière de règlement des litiges. De plus, les utilisateurs n'ont pas de motif de refus lorsque la publication d'un de leurs avis est refusée. Depuis l'enquête, Google a résolu certains problèmes, mais pas tous.

Autour du même sujet

Guide confidentialité