Az elektronikus gépek megjelenése után megalkottak egy tesztet, mely azt hivatott eldönteni, hogy akivel beszélünk, az gép-e vagy ember. Ez volt a Turing-teszt. Ám ezen a mesterséges intelligencia ma már gond nélkül átmegy, sőt napról napra jobban teljesít, így a pusztán MI-vel való csevegés elvesztette mérőerejét.
Ezért a szakemberek elkezdtek dolgozni egy új teszten, mellyel azt tudják felmérni, milyen messze vannak a modellek a valódi, szakértői, emberi tudástól. Más szóval milyen messze vagyunk az általános mesterséges intelligenciától (AGI), attól a ponttól, amikor egy rendszer nemcsak válaszol, hanem valóban ért is, és több területen képes szakértőként működni. Az Nvidia vezére néhány hete magabiztosan kijelentette, hogy az AGI már itt van a spájzban. Ám ha valóban közel járunk hozzá, azt nem egy sajtónyilatkozatból fogjuk megtudni, nem egy fanfárokkal kísért bevonulás lesz, hanem csendes beszivárgás. Csak utólag válik majd világossá, pontosan mikor léptük át azt a küszöböt, ahol a gép már nemcsak utánozta a tudást, hanem birtokolta is. A régi tesztek egyszerűen kifogytak a tartalomból. A modellek túl jól teljesítenek rajtuk, így már nem derül ki belőlük, hol vannak a határok. Innen az ötlet, hogy kell egy új vizsga, mely nem azt méri, hogy mit tud már az MI, hanem azt, hogy mit nem.
Ez lett a Humanity’s Last Exam, azaz az emberiség utolsó vizsgája. A név nem véletlenül hangzik drámaian. A cél az volt, hogy létrehozzanak egy olyan tesztet, amelyen még a legfejlettebb modellek is elvéreznek. Több mint 1000 szakértő állította össze 50 országból, olyan kérdésekből, amelyek még a saját szakterületükön belül is fejtörést okoznak. Nagyjából 2500 kérdést tartalmaz, több mint 100 különböző tudományterületről 8 olyan témakörben, mint a matematika, biológia és orvostudomány, informatika és az MI-vel kapcsolatos tudás, fizika, humán tárgyak, kémia, mérnöki tudományok és egyéb.
![]()
A módszer nagyon szigorú, sőt „embertelen”. Minden kérdést lefuttattak más-más AI-modelleken. Ha az egyik helyesen válaszolt, a kérdést kidobták. Csak azok maradhattak, amelyek kifogtak rajtuk. Több tízezer próbálkozás után állt össze a végső lista. Ez már nem egy klasszikus vizsga, inkább egy folyamatosan szűrt akadálypálya. A kérdések jellege is eltér a megszokottól. Nem egyszerű, „kiguglizható” tényeket kérnek vissza, nem lexikális tudást, hanem olyan problémák, többlépéses logikai láncok szerepelnek benne, amelyekhez mély megértés kell. Gyakran különböző területek találkoznak egyetlen kérdésben. Ráadásul sok esetben képeket is elemezni kell, mint például ókori görög karcolatot lefordítani, így a szöveg és a vizuális információ együtt adja ki a megoldást. Vagy itt van például egy biológiai kérdés, melyben a pluszcsavar ott van, hogy a gép hajlamos összekeverni a páros csont és a párok száma kifejezéseket: A kolibrik farokizomzatában található egy különleges, apró szezámcsont. Hány páros inat támaszt meg ez a csont? Válaszoljon egyetlen számmal! Az eredmények egyelőre nem azt mutatják, hogy már megérkeztünk volna az AGI-hoz. Amíg a korábbi modellek néhány százalékos eredményt értek el a teszten, a legújabb, célzottan a logikus gondolkodásra tanított rendszerek sem haladják meg a 40-50 százalékot. Ami igazán érdekes, hogy a modellek továbbra is gyakran teljes magabiztossággal adnak rossz válaszokat. Akár 70 százalékban nem bizonytalanok, hanem határozottan állítanak téves dolgot.
Az emberiség utolsó vizsgája a baljós hangzás ellenére nem egy végső ítélet. Inkább egy pillanatkép arról, hol tartunk most. Egyfajta mérőszalag, mely megmutatja, milyen messze van még az a pont, ahol a gépek nemcsak jól válaszolnak, hanem valóban értik is a világot. A kép tehát árnyalt. Tudjuk, hogy az MI bizonyos feladatokban már most felülmúlja az embert. Gyorsabb, következetesebb, és nem fárad. De amikor ritka tudásra, mély szakértelemre vagy összetett gondolkodásra van szükség, még mindig látszanak a korlátjai.