În era post-ChatGPT, peisajul digital global nu mai arată deloc ca înainte. De când OpenAI a lansat ChatGPT la finalul lui 2022, conținutul generat de inteligență artificială a invadat rețelele sociale, blogurile, motoarele de căutare și până și paginile oficiale ale unor instituții. Rezultatul? O avalanșă de texte scrise nu de oameni, ci de modele de limbaj. Iar acest nou tip de „poluare digitală” e mult mai greu de detectat decât pare, anunță BusinessInsider.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
În fața acestei transformări radicale, unii specialiști compară momentul cu o altă criză a purității, cea a oțelului „fără fond radioactiv” din perioada post-nucleară.
Oțelul curat și datele curate
După 1945, testele nucleare atmosferice au contaminat planeta cu radiații. Acestea au pătruns inclusiv în metalele produse după război, ceea ce le-a făcut inutilizabile pentru instrumente de mare precizie, precum contoarele Geiger. Soluția? Reciclarea oțelului din epava unor nave de război scufundate înainte de Hiroshima.
În 2025, o problemă asemănătoare se petrece în spațiul digital: textele scrise de oameni, necontaminate de AI, sunt tot mai greu de găsit. Iar cercetătorii încep să le trateze cu aceeași grijă precum oțelul curat, ca pe o resursă rară, prețioasă și esențială pentru viitorul științei și al gândirii critice.
O spirală a autoimitării
De ce e important acest conținut scris de oameni, de dinainte de ChatGPT? Pentru că majoritatea modelelor AI, inclusiv cele de tip LLM, sunt antrenate pe texte preluate din online. În teorie, aceste date ar trebui să reflecte modul în care gândesc, vorbesc și scriu oamenii reali. Dar dacă AI-ul învață acum din texte generate tot de AI, care la rândul lor au fost scrise pe baza altor texte sintetice, intrăm într-un cerc vicios, o spirală a autoimitării cunoscută în cercetare sub numele de model collapse.
E ca atunci când fotocopiezi o fotocopie de zeci de ori: fiecare generație pierde din claritate, din originalitate, din nuanță. Modelele devin tot mai fade și previzibile. Iar dacă nu mai avem acces la sursa umană a informației, nici AI-ul nu va mai ști cum gândesc, de fapt, oamenii.
Oameni care salvează internetul de dinainte
Will Allen, vicepreședinte la Cloudflare — compania care operează una dintre cele mai mari rețele globale, spune că datele anterioare lui 2022 devin din ce în ce mai valoroase. Ele reprezintă un fel de realitate comună, nefiltrată de algoritmi, de la care putem reconstrui o imagine mai clară a lumii.
Iar în domenii sensibile precum medicina, dreptul sau fiscalitatea, e esențial ca modelele AI să fie antrenate pe texte bazate pe cercetări reale, nu pe articole inventate de roboți. „Dacă pierdem conexiunea cu adevărul, totul devine mai complicat”, spune Allen.
Paul Graham și căutarea pizzei autentice
Problema nu e doar una teoretică. Investitorul Paul Graham povestea pe X (fostul Twitter) că, atunci când a căutat online temperatura ideală pentru un cuptor de pizza, s-a trezit ignorând rezultate noi — suspectând că sunt „momeală SEO generată de AI”. A început să caute doar postări vechi, scrise înainte de boomul AI.
Malte Ubl, fost inginer la Google Search, l-a susținut, comparând situația cu fenomenul „low-background steel”. Tot mai mulți programatori, inclusiv Matt Rickard, atrag atenția că seturile de date online devin tot mai contaminate de output-uri AI — și că detectarea acestora e tot mai dificilă.
O nouă misiune: să salvăm web-ul scris de oameni
Un exemplu concret vine de la John Graham-Cumming, CTO al Cloudflare, care a lansat proiectul LowBackgroundSteel.ai, o arhivă digitală a datelor create de oameni înainte de 2022. Inițiativa adună site-uri, baze de date, texte, softuri open-source și documente care nu au fost scrise cu ajutorul AI. Printre ele se numără și Arctic Code Vault al GitHub, o arhivă îngropată într-o fostă mină din Norvegia, salvată în februarie 2020.
Un alt exemplu este „wordfreq”, un proiect al lingvistei Robyn Speer, care urmărea frecvența cuvintelor folosite pe internet. A fost întrerupt în 2021, când Speer a remarcat că „AI-ul a poluat datele lingvistice”. Un exemplu? Cuvântul „delve”, folosit obsesiv de ChatGPT, deși rareori de către oameni.
Realitatea noastră comună
Deși Allen recunoaște că AI-ul poate spori productivitatea și reduce monotonia în multe activități, el insistă că modelele trebuie mereu ancorate într-un adevăr verificabil. „Întotdeauna trebuie să te bazezi pe un nivel minim de realitate.”
Adevărata miză nu e doar calitatea modelelor. E felul în care ne raportăm, ca specie, la gândire, comunicare și memorie colectivă. Așa cum cercetătorii au avut nevoie de oțel necontaminat pentru a construi instrumente de precizie, poate vom avea nevoie de texte necontaminate de AI pentru a înțelege cum gândeau oamenii înainte de epoca algoritmilor.
Internetul „pur” a dispărut. Dar, ca niște scafandri care recuperează fragmente de trecut de pe fundul oceanului, câțiva pasionați încearcă să salveze ceea ce a mai rămas. Iar poate că tocmai acele relicve ne vor ajuta să reconstruim viitorul pe baze mai solide.