theinternet.zip : les systèmes d'intelligence artificielle ont besoin de données humainement générées, et fiables, pour apprendre et générer des modèles utiles et génériques. D'où viennent ces données ? Notamment d'internet (qui contient un peu de tout). L'organisme "Common Crawl" télécharge et partage un corpus de pétaoctets de donnés (petabytes of data), collectées régulièrement depuis 2008. Dans la vidéo ci-après "L'IA est en train de s'empoisonner elle-même (et personne n'en parle)", l'intervenante Loubna Ben Allal (HuggingFace) évoque le chiffre de 200 à 400 téraoctets (non comprimés) de données par mois. Grand amateur de théorie de l’information et de compression de données, c'est l'occasion de repartager ce gif animé (datant d'avant au moins 2006) qui m'amuse encore. Rappel : la plupart des formats de compression que l'on utilise encore aujourd'hui quotidiennement (hormis pour la vidéo) sont de conception antérieures à l'an 2000. : zip, mp3, png, gif, mpeg.
![]() |
Download the internet (zipped) |
L'IA est en train de s'empoisonner elle-même (et personne n'en parle)
https://www.youtube.com/watch?v=AfgAEIK9F8c