Testele sugerează că AI Overviews de la Google spune milioane de minciuni pe oră
Astăzi, căutarea informațiilor pe Google înseamnă a te confrunta cu AI Overviews, un robot de căutare alimentat de Gemini, care apare în partea de sus a paginii de rezultate. Conform arstechnica.com, o nouă analiză realizată de The New York Times a evaluat acuratețea AI Overviews, constată că acesta are un procent de corectitudine de 90%.
👉 Analiza acurateței și modul de testare a AI Overviews
AI Overviews a avut parte de critici din cauza acurateței sale variabile, dar s-a îmbunătățit de la lansarea sa în 2024, oferind adesea răspunsuri corecte. Cu toate acestea, un răspuns din zece este greșit, ceea ce, pentru Google, înseamnă sute de mii de minciuni în fiecare minut. The Times a realizat această analiză cu ajutorul unei startups numită Oumi, care este implicată în dezvoltarea modelor AI. Aceasta a folosit instrumente AI pentru a evalua AI Overviews cu ajutorul testului SimpleQA, un test comun pentru a clasifica factualitatea modelelor generative precum Gemini.
SimpleQA, lansat de OpenAI în 2024, include o listă de peste 4.000 de întrebări cu răspunsuri verificabile care pot fi introduse într-un AI. Oumi a început testul anul trecut, când Gemini 2.5 era cel mai bun model disponibil. La acea vreme, benchmark-ul a arătat o rată de acuratețe de 85%. După actualizarea Gemini 3, AI Overviews a răspuns corect la 91% din întrebări. Extrapolând această rată de greșeală la toate căutările din Google, AI Overviews generează zeci de milioane de răspunsuri incorrecte pe zi.
👉 Controverse și limitări legate de testare și performanța AI Overviews
Raportul include câteva exemple în care AI Overviews a greșit. De exemplu, atunci când a fost întrebat despre data la care fosta locuință a lui Bob Marley a devenit muzeu, AI Overviews a citat trei pagini, dintre care două nu discutau deloc despre dată. Ultima, Wikipedia, a listat doi ani contradictorii, iar AI Overviews a ales cu încredere anul greșit. De asemenea, benchmark-ul a solicitat modelelor să producă data la care Yo Yo Ma a fost inclus în sala de faimă a muzicii clasice. Deși AI Overviews a citat site-ul organizației care lista includerea lui Ma, a declarat că nu există așa ceva ca Sala de fame a muzicii clasice.
Google nu este de acord cu acest test. Un purtător de cuvânt al Google, Ned Adriance, a declarat pentru The Times că Google crede că SimpleQA conține informații incorecte. Evaluările modelului său se bazează adesea pe un test similar numit SimpleQA Verified, care folosește un set mai mic de întrebări, care au fost verificate mai riguros. „Acest studiu are serii de slăbiciuni”, a spus Adriance. „Nu reflectă ceea ce caută oamenii pe Google.”
Evaluarea noilor modele AI se simte uneori mai mult ca o artă decât o știință, ceea ce face parte din problemă. Fiecare companie are propriul mod preferat de a demonstra ce poate face un model, iar natura non-deterministică a AI-ului generativ poate face dificilă verificarea oricărui aspect. Acești roboți pot oferi un răspuns corect la o întrebare factuală și apoi să rateze complet dacă rerun testează imediat acea întrebare. Oumi utilizează și instrumente AI pentru a-și desfășura evaluările, iar acele modele pot halucina, de asemenea.
Un alt aspect este că AI Overviews nu este un model monolitic. Google a declarat pentru Ars Technica că folosește „modelul corect” pentru fiecare interogare. Deși AI Overviews ar obține cele mai bune răspunsuri rulând întotdeauna Gemini 3.1 Pro, acest lucru este lent și costisitor. Pentru a încărca rapid informațiile pe o pagină de căutare, AI folosește, atunci când este posibil, modelele mai rapide Gemini Flash (ceea ce se pare că se întâmplă cel mai des).
Răspunsul Google la acest raport este revelator. În domeniul factualității AI, 9 din 10 nu este nici măcar atât de rău. Google a publicat recent benchmark-uri pentru lansările de noi modele care prezintă măsurători de factualitate în intervalul de 60-80% — aceste teste sunt efectuate fără instrumente precum căutarea pe web. A realiza un AI cu mai multe date, precum bogăția cunoștințelor umane de pe Internet, îl face mai precis decât modelul gol în sine. Cu toate acestea, adevărul se află undeva în linkurile albastre, iar AI Overviews încurajează oamenii să accepte rezumatele sale uneori inexacte în loc să verifice manual acele surse. Deși Google susține că rezultatele Times nu se potrivesc cu ceea ce văd oamenii, trebuie să te întrebi cum ar putea compania să știe asta. Probabil ai observat greșeli în AI Overviews — cu toții am observat, deoarece așa funcționează AI-ul generativ. Așa cum Google te avertizează la sfârșitul fiecărui overview: „AI poate face greșeli, așa că verifică răspunsurile.”