Înapoi la știri

Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră

1 oră în urmă
8 minute min
Elena Dumitrescu
Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră

Astăzi, căutarea informațiilor pe Google înseamnă a te confrunta cu AI Overviews, un robot de căutare alimentat de Gemini, care apare în partea de sus a paginii de rezultate. Conform arstechnica.com, o nouă analiză realizată de The New York Times a evaluat acuratețea AI Overviews, constată că acesta are un procent de corectitudine de 90%.

👉 Analiza acurateței și modul de testare a AI Overviews

AI Overviews a avut parte de critici din cauza acurateței sale variabile, dar s-a îmbunătățit de la lansarea sa în 2024, oferind adesea răspunsuri corecte. Cu toate acestea, un răspuns din zece este greșit, ceea ce, pentru Google, înseamnă sute de mii de minciuni în fiecare minut. The Times a realizat această analiză cu ajutorul unei startups numită Oumi, care este implicată în dezvoltarea modelor AI. Aceasta a folosit instrumente AI pentru a evalua AI Overviews cu ajutorul testului SimpleQA, un test comun pentru a clasifica factualitatea modelelor generative precum Gemini.

SimpleQA, lansat de OpenAI în 2024, include o listă de peste 4.000 de întrebări cu răspunsuri verificabile care pot fi introduse într-un AI. Oumi a început testul anul trecut, când Gemini 2.5 era cel mai bun model disponibil. La acea vreme, benchmark-ul a arătat o rată de acuratețe de 85%. După actualizarea Gemini 3, AI Overviews a răspuns corect la 91% din întrebări. Extrapolând această rată de greșeală la toate căutările din Google, AI Overviews generează zeci de milioane de răspunsuri incorrecte pe zi.

👉 Controverse și limitări legate de testare și performanța AI Overviews

Raportul include câteva exemple în care AI Overviews a greșit. De exemplu, atunci când a fost întrebat despre data la care fosta locuință a lui Bob Marley a devenit muzeu, AI Overviews a citat trei pagini, dintre care două nu discutau deloc despre dată. Ultima, Wikipedia, a listat doi ani contradictorii, iar AI Overviews a ales cu încredere anul greșit. De asemenea, benchmark-ul a solicitat modelelor să producă data la care Yo Yo Ma a fost inclus în sala de faimă a muzicii clasice. Deși AI Overviews a citat site-ul organizației care lista includerea lui Ma, a declarat că nu există așa ceva ca Sala de fame a muzicii clasice.

Google nu este de acord cu acest test. Un purtător de cuvânt al Google, Ned Adriance, a declarat pentru The Times că Google crede că SimpleQA conține informații incorecte. Evaluările modelului său se bazează adesea pe un test similar numit SimpleQA Verified, care folosește un set mai mic de întrebări, care au fost verificate mai riguros. „Acest studiu are serii de slăbiciuni”, a spus Adriance. „Nu reflectă ceea ce caută oamenii pe Google.”

Evaluarea noilor modele AI se simte uneori mai mult ca o artă decât o știință, ceea ce face parte din problemă. Fiecare companie are propriul mod preferat de a demonstra ce poate face un model, iar natura non-deterministică a AI-ului generativ poate face dificilă verificarea oricărui aspect. Acești roboți pot oferi un răspuns corect la o întrebare factuală și apoi să rateze complet dacă rerun testează imediat acea întrebare. Oumi utilizează și instrumente AI pentru a-și desfășura evaluările, iar acele modele pot halucina, de asemenea.

Un alt aspect este că AI Overviews nu este un model monolitic. Google a declarat pentru Ars Technica că folosește „modelul corect” pentru fiecare interogare. Deși AI Overviews ar obține cele mai bune răspunsuri rulând întotdeauna Gemini 3.1 Pro, acest lucru este lent și costisitor. Pentru a încărca rapid informațiile pe o pagină de căutare, AI folosește, atunci când este posibil, modelele mai rapide Gemini Flash (ceea ce se pare că se întâmplă cel mai des).

Răspunsul Google la acest raport este revelator. În domeniul factualității AI, 9 din 10 nu este nici măcar atât de rău. Google a publicat recent benchmark-uri pentru lansările de noi modele care prezintă măsurători de factualitate în intervalul de 60-80% — aceste teste sunt efectuate fără instrumente precum căutarea pe web. A realiza un AI cu mai multe date, precum bogăția cunoștințelor umane de pe Internet, îl face mai precis decât modelul gol în sine. Cu toate acestea, adevărul se află undeva în linkurile albastre, iar AI Overviews încurajează oamenii să accepte rezumatele sale uneori inexacte în loc să verifice manual acele surse. Deși Google susține că rezultatele Times nu se potrivesc cu ceea ce văd oamenii, trebuie să te întrebi cum ar putea compania să știe asta. Probabil ai observat greșeli în AI Overviews — cu toții am observat, deoarece așa funcționează AI-ul generativ. Așa cum Google te avertizează la sfârșitul fiecărui overview: „AI poate face greșeli, așa că verifică răspunsurile.”

Alte postari din Economie
Economie

Samsung Electronics anunță prognoza de venituri pentru primul trimestru din 2026

Samsung Electronics a anunțat astăzi prognoza sa de venituri pentru primul trimestru din 2026. Potrivit news.samsung.com, compania estimează vânzări consolidate aproximativ de 133 de trilioane de woni coreeni și un profit operațional consolidat de aproximativ 57,2 trilioane de woni coreeni.

Economie

Surse anonime detaliază neîncrederea în Sam Altman într-un nou raport

Pe 3 aprilie, The New Yorker a publicat o investigație amplă care detaliază zilele dinaintea și de după demiterea temporară a lui Sam Altman din funcția de CEO al OpenAI. Potrivit gizmodo.com, această demitere neașteptată a șocat Valea Siliciilor și a dus la revenirea lui Altman în funcție, după o campanie intensă de sprijin din partea susținătorilor săi.

Economie

Legiuitorii din SUA lucrează la un proiect de lege unificat pentru blocarea site-urilor pirat

Decizia Curții Supreme din săptămâna trecută în cazul Cox Communications a remodelat peisajul responsabilității în materie de piraterie, generând o urgență nouă pentru legislația de blocare a site-urilor în Congres. Aceasta ar putea fi abordată de senatorul Thom Tillis și reprezentanta Zoe Lofgren, care lucrează la o legislație bicamerală ce ar impune furnizorilor de servicii internet (ISP) și rezolvatorilor DNS să blocheze site-uri pirat străine la ordine judecătorești, potrivit torrentfreak.com.

Economie

Tristețe! Eforturile lui Trump în domeniul datelor AI eșuează din cauza propriilor tarife

Donald Trump se confruntă cu obstacole semnificative în urma ordonanțelor executive din anul trecut, care declarau construirea rapidă a centrelor de date AI ca o prioritate, în încercarea de a asigura victoria SUA în fața Chinei. Potrivit arstechnica.com, tarifele sale agresive la importurile din China îngreunează majoritatea proiectelor de centre de date.

Acasa Recente Radio Județe