A napokban az OpenAI egy újabb ChatGPT-modellt jelentett be, a következő generációs o1-et, melyre „előzetesként” hivatkoznak, ezzel is jelezve, hogy még a fejlesztés korai szakaszában jár. Az o1-et egy új optimalizálási algoritmussal, valamint egy erre a célra összeállított adathalmazzal tanították, és egy olyan új megközelítést alkalmaztak, amely az emberi gondolkodáshoz hasonlóan lépésenként halad.
Megint óriásit fejlődött, de szerencsére még nem egy AGI (általános mesterséges intelligencia). Az új modell bemutatása során az OpenAI kiemelte, hogy a modell kiválóan teljesít az emberek számára tervezett különféle feladatokban, pontosabb, és kevesebbet „hallucinál”, mint az elődei, de messze nem hibátlan. Az o1-preview a Codeforces programozói versenyeken a résztvevők 89%-ánál jobb eredményt ért el, a Nemzetközi Matematikai Olimpiára készült kvalifikációs tesztkérdések 83%-ára helyesen válaszolt (míg a GPT-4o csak 14%-ára).
Elég látványosan megelőzte a társait (Gemini, Claude, Grok-2, ChatGPT-4), ezt látni a norvég Mensa-teszten elért eredményei alapján is. Míg a többi hasonló és ma is napi szinten használatban lévő modellnek az eredmények alapján a 90-et alulról súrolja az IQ-ja, az o1-nek 120 körül van. Valóban nagy fejlődés, egy kis túlzással az eddigi modellek arra valóak, hogy középiskolás diákoknak segítsenek esszét írni, az új pedig kvantumfizikusoknak segít a kutatásban és az adatok értelmezésében.
Az OpenAI nem közölt részletes információkat az új modellek tanítására használt adatkészletekről, csak annyit mondott, hogy azok nyilvánosan elérhető és partnerségek révén szerzett saját adatokat is tartalmaztak.
Általánosságban az új o1 modell jobban teljesített, mint a GPT-4o, kiemelkedik a komplex feladatok megoldásában, mint a matematikai és programozási problémák, és meg is magyarázza az érvelését. A különféle biztonsági teszteken is jobb, melyek azt mérték, hogy milyen könnyen törhetőek fel, milyen gyakran adnak helytelen válaszokat, és milyen gyakran mutatnak elfogultságot életkor, nem vagy rassz alapján. Amiben alulmarad a GPT-4o-val szemben, az az, hogy nem olyan jó a tényalapú tudásban, és nem is képes fájlok, képek feldolgozására. Ráadásul megállapították, hogy az o1-preview jóval nagyobb valószínűséggel adott választ olyan homályos kérdésekre is, ahol inkább azt kellett volna mondania, hogy nem tudja a választ. Mivel rengeteg energiát fogyaszt, egyszerű feladatokra használni olyan túlzás, mintha valaki öltönyt venne magára, és rendelne egy limuzint azért, hogy így menjen el a sarki boltba kenyérért.
Sam Altman, az OpenAI vezérigazgatója szerint az o1 modellek egy új korszak kezdetét jelzik, hiszen ezek olyan mesterséges intelligenciák, amelyek általános célú, komplex érvelésre képesek. A kérdésekre válaszolva „gondolatlánc” technikákat alkalmaznak, melyek az emberek gondolkodási folyamataihoz hasonlóak. Az o1 modelleknél ezek a folyamatok a háttérben zajlanak, anélkül, hogy további utasításokat kellene adni. A modell megtanulja felismerni és kijavítani a hibáit. Megtanulja, hogyan bontsa le a nehezebb lépéseket egyszerűbbekre, és új megközelítést próbál, ha az aktuális nem működik. Igaz, hogy ezek a technikák javítják a modellek teljesítményét a különféle teljesítményméréseken, de az OpenAI úgy találta, hogy az esetek egy kis részében az o1 modellek szándékosan tévesztik meg a felhasználókat. Egy 100 000 beszélgetést vizsgáló teszt során a vállalat felfedezte, hogy a modell által adott válaszok közül körülbelül 800 helytelen volt. A hibás válaszok nagyjából egyharmadánál pedig a modell gondolatlánc-elemzése azt mutatta, nagyon jól tudta, hogy a válasz helytelen, de mégis azt válaszolta.
Fényképezte: Apró József