February 17, 2025

Télécharger internet

theinternet.zip : les systèmes d'intelligence artificielle ont besoin de données humainement générées, et fiables, pour apprendre et générer des modèles utiles et génériques. D'où viennent ces données ? Notamment d'internet (qui contient un peu de tout). L'organisme "Common Crawl" télécharge et partage un corpus de pétaoctets de donnés (petabytes of data), collectées régulièrement depuis 2008. Dans la vidéo ci-après "L'IA est en train de s'empoisonner elle-même (et personne n'en parle)", l'intervenante Loubna Ben Allal (HuggingFace) évoque le chiffre de 200 à 400 téraoctets (non comprimés) de données par mois. Grand amateur de théorie de l’information et de compression de données, c'est l'occasion de repartager ce gif animé (datant d'avant au moins 2006) qui m'amuse encore. Rappel : la plupart des formats de compression que l'on utilise encore aujourd'hui quotidiennement (hormis pour la vidéo) sont de conception antérieures à l'an 2000. : zip, mp3, png, gif, mpeg.
 

Download the internet (zipped)

L'IA est en train de s'empoisonner elle-même (et personne n'en parle)
https://www.youtube.com/watch?v=AfgAEIK9F8c

February 16, 2025

L'ntelligence naturelle de Jorge Luis Borges

Quasi-inconditionnel amateur de l'écrivain Jorge Luis Borges, je frétillais à ce partage (merci KP) : "Jorge Luis Borges et la Machine à Fiction (CMS #1)". Une vidéo inspirée de l'article de 2023 "Borges and AI" de Léon Bottou et Bernhard Schölkopf. Un titre inspiré de "Borges and I", de Borges (par) lui-même. Je deviens sûrement trop vieux pour ce type de montage. On peut allègrement passer les 5'30" initiales, et apprendre quelques analogies intéressantes, fondées sur deux superbes textes de l'auteur argentin : "Le jardin aux sentiers qui bifurquent", et la célèbre "Bibliothèque de Babel" (qui a méchamment inspiré "Le nom de la Rose"). Cependant, si l'on réfléchit à deux des questions tempestives --- 1) les limites d'échelle des LLM quant aux donnés générées par des humains ("data wall") ou l'empoissonnement des données 2) l'impact sur des destinées humaines des systèmes de recommandation opaques estampillées #AI pour Intelligence Artificielle (est-ce tant piller ?), deux autres nouvelles du bibliothécaire de Buenos Aires méritent votre attention : "Funes ou la mémoire" (questions d'insomnies) et "La loterie à Babylone". Bref, par temps de froid, plutôt que de "prompter", lisez et relisez un auteur majeur du réalisme magique, plutôt que de succomber à la pensée magique entourant la hype-LLM. En écrivant ceci, je suis conscient de nourrir la bête. Peut-être avec un alicament ? Quelques lectures en commentaires.

"Jorge Luis Borges et la Machine à Fiction (CMS #1)" par Artificialis
https://youtu.be/Ic6HfP97e6k?t=327

"Borges and AI" by Léon Bottou and Bernhard Schölkopf
https://arxiv.org/abs/2310.01425

"Borges and I"  (Spanish "Borges y Yo") : "Borges's story raises many philosophical questions of Self and epistemology. Viewed through the analytic lens of Russell's knowledge by description, the story explores the interesting concept of knowledge of Self by description (as opposed to the more expected knowledge by acquaintance)"
https://en.wikipedia.org/wiki/Borges_and_I

Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data
https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

(Re)reading Borges in the AI Era
https://www.ie.edu/insights/articles/rereading-borges-in-the-ai-era/

Has AI scaling hit a limit?
https://foundationcapital.com/has-ai-scaling-hit-a-limit/

Télécharger internet

theinternet.zip : les systèmes d'intelligence artificielle ont besoin de données humainement générées, et fiables, pour apprendre et gén...