ChatGPT is een kunstmatige intelligentie (AI) systeem dat in staat is om menselijke taal te imiteren en te converseren. Het systeem werkt met een algoritme dat de meest waarschijnlijke volgende woorden voorspelt op basis van de statistische verbanden tussen woorden in miljarden online zinnen. ChatGPT kan zo vloeiend praten dat veel mensen het verschil niet merken met echte mensen. Maar wil dat zeggen dat ChatGPT intelligent is, of dat het kan redeneren en abstracte concepten kan begrijpen?
In dit artikel onderzoeken we de prestaties van ChatGPT en andere grote taalmodellen (LLMs) op verschillende tests die bedoeld zijn om hun intelligentie te meten. We vergelijken hun scores met die van mensen, en we kijken naar de uitdagingen en problemen die deze tests met zich meebrengen. We ontdekken dat ChatGPT misschien wel goed kan praten, maar dat het nog ver verwijderd is van echte intelligentie.
De Turing test: een test gebaseerd op bedrog
Een bekende manier om de intelligentie van een AI systeem te testen is de Turing test, voorgesteld door de Britse wiskundige Alan Turing in 1950. De test houdt in dat menselijke beoordelaars korte tekstgebaseerde gesprekken voeren met een verborgen computer en een onzichtbaar persoon, en proberen te raden welke de computer is. Als de beoordelaars dat niet kunnen, dan zou de computer geslaagd zijn voor de test.
Veel onderzoekers denken dat ChatGPT en andere LLMs nu zouden slagen voor de Turing test, omdat ze veel mensen kunnen misleiden, althans voor korte gesprekken. Maar sommige onderzoekers zijn sceptisch over het gebruik van een test die gebaseerd is op bedrog als een doel voor de informatica. Ze vinden dat de test geen echte of nuttige capaciteiten meet, maar alleen trucjes.
De benchmarks: tests die niet representatief zijn voor de echte wereld
Een andere manier om de intelligentie van een AI systeem te testen is het gebruik van benchmarks, oftewel gestandaardiseerde tests die bedoeld zijn om de prestaties op specifieke taken te evalueren. Toen ChatGPT werd uitgebracht in maart dit jaar, werd het getest op een reeks benchmarks die ontworpen waren voor machines, zoals leesbegrip, wiskunde en programmeren. ChatGPT scoorde hoog op de meeste van deze tests. Het systeem werd ook getest op ongeveer 30 examens die bedoeld waren voor mensen, zoals toelatingsexamens voor universiteiten, medische scholen en advocatenkantoren. In sommige examens behaalde ChatGPT een score die hoger was dan die van de meeste mensen.
Maar deze examens zijn niet zonder problemen. Een uitdaging is dat de modellen getraind zijn op zoveel tekst dat ze al vergelijkbare vragen hebben gezien in hun trainingsdata, en dus misschien in feite het antwoord opzoeken. Dit probleem wordt contaminatie genoemd. Een andere uitdaging is dat de modellen succesvol zijn op examenvragen die broos en niet representatief zijn voor de robuuste capaciteit die nodig is om voorbeelden in de echte wereld goed te krijgen. Het is mogelijk om de examenvragen iets te veranderen en ze te laten falen, zegt Melanie Mitchell, een informaticus aan het Santa Fe Institute in New Mexico.
En er is een dieper probleem bij het interpreteren van wat de benchmarks betekenen. Voor een persoon zouden hoge scores op deze examens betrouwbaar wijzen op algemene intelligentie, oftewel het vermogen om goed te presteren op een reeks taken en zich aan te passen aan verschillende contexten. Dat wil zeggen, iemand die goed kan scoren op de examens kan over het algemeen worden aangenomen dat hij ook goed kan scoren op andere cognitieve tests en dat hij bepaalde abstracte concepten heeft begrepen. Maar dat is helemaal niet het geval voor LLMs, zeggen sommige onderzoekers.
De abstracte concepten: tests die de essentie van intelligentie meten
Dit kan komen omdat LLMs alleen leren van taal; zonder belichaamd te zijn in de fysieke wereld, ervaren ze niet de verbinding tussen taal en objecten, eigenschappen en gevoelens, zoals een persoon dat doet. “Het is duidelijk dat ze geen woorden begrijpen op dezelfde manier als mensen dat doen,” zegt Brenden Lake, een cognitief computationeel wetenschapper aan de New York University.
Aan de andere kant hebben LLMs ook capaciteiten die mensen niet hebben, zoals het vermogen om de verbanden te kennen tussen bijna elk woord dat mensen ooit hebben geschreven. Dit kan hen in staat stellen om problemen op te lossen door te vertrouwen op eigenaardigheden van taal of andere indicatoren, zonder noodzakelijkerwijs te generaliseren naar bredere prestaties, zegt Mitchell.
Onderzoekers hebben ook LLMs breder getest dan door middel van conventionele machine benchmarks en menselijke examens. In maart maakten Sébastien Bubeck van Microsoft Research in Redmond, Washington, en zijn collega’s golven met een preprint waarin ze een reeks verrassende capaciteiten documenteerden – waarvan vele niet direct of duidelijk verband hielden met taal. Een opmerkelijke prestatie was dat het tests kon halen die door psychologen worden gebruikt om de theory of mind te beoordelen, een kernmenselijk vermogen dat mensen in staat stelt om de mentale toestanden van anderen te voorspellen en te beredeneren. “Gezien de breedte en diepte van ChatGPT’s capaciteiten, geloven we dat het redelijkerwijs kan worden beschouwd als een vroege (maar nog steeds onvolledige) versie van een kunstmatige algemene intelligentie (AGI) systeem,” schreven ze.
Maar ChatGPT denkt zeker niet als een persoon, en voor elke capaciteit die het vertoont, bereikt het die op zijn eigen manier, zegt Bubeck. Bovendien zijn er nog veel tests die laten zien dat ChatGPT faalt op eenvoudige taken die voor mensen geen probleem zijn, zoals visuele logische puzzels. Deze puzzels zijn bedoeld om het vermogen om abstracties te maken uit alledaagse kennis en die toe te passen op nieuwe problemen te testen, wat volgens sommige onderzoekers de essentie is van intelligentie.
Mitchell en haar collega’s maakten een reeks van deze puzzels, genaamd ConceptARC, die geïnspireerd waren door een eerdere test van Chollet, maar verschilden op twee belangrijke punten. De ConceptARC tests zijn makkelijker: Mitchell’s team wilde ervoor zorgen dat de benchmark geen vooruitgang in de capaciteiten van machines zou missen, zelfs als die klein was. Het andere verschil was dat het team specifieke concepten koos om te testen en vervolgens een reeks puzzels maakte voor elk concept die variaties waren op een thema.
Bijvoorbeeld, om het concept van gelijkheid te testen, vereist een puzzel dat de oplosser objecten in het patroon behoudt die dezelfde vorm hebben; een andere om objecten te behouden die langs dezelfde as zijn uitgelijnd. Het doel hiervan was om de kans te verkleinen dat een AI systeem de test zou halen zonder de concepten te begrijpen.
De onderzoekers gaven de ConceptARC taken aan ChatGPT en aan 400 mensen die online werden ingeschakeld. De mensen scoorden gemiddeld 91% op alle conceptgroepen (en 97% op één); ChatGPT kreeg 33% op één groep en minder dan 30% op alle andere.
“We hebben laten zien dat de machines nog steeds niet in staat zijn om in de buurt te komen van het niveau van mensen,” zegt Mitchell. “Het was verrassend dat het sommige problemen kon oplossen, omdat het er nooit op was getraind,” voegt ze eraan toe.
Bowman zegt echter dat ChatGPT’s worstelingen met ConceptARC niet bewijzen dat het geen onderliggende capaciteiten heeft in abstract redeneren. Hij zegt dat ConceptARC bevooroordeeld is tegen ChatGPT – onder andere omdat het een visuele test is. “Zelfs als je veronderstelt dat deze modellen heel goed zijn in dit soort redeneren, denk ik niet dat je echt zou verwachten dat dit experiment zou hebben gewerkt,” zegt hij.
Beperkingen in de manier waarop de test wordt gedaan, hebben het waarschijnlijk moeilijker gemaakt voor ChatGPT. De openbaar beschikbare versie van het LLM kan alleen tekst als invoer accepteren, dus de onderzoekers gaven ChatGPT reeksen van getallen die de afbeeldingen voorstelden. (Een lege pixel zou bijvoorbeeld 0 kunnen zijn, en een kleurrijk vierkantje een getal.) In tegenstelling tot de menselijke deelnemers, die gewoon de afbeeldingen zagen. “We vergelijken een taal-only systeem met mensen, die een zeer ontwikkeld visueel systeem hebben,” zegt Mitchell. “Dus het is misschien geen hele eerlijke vergelijking.”
OpenAI heeft een ‘multimodale’ versie van ChatGPT gemaakt die afbeeldingen als invoer kan accepteren. Mitchell en haar team wachten tot die openbaar beschikbaar wordt, zodat ze ConceptARC erop kunnen testen, hoewel ze niet denkt dat de multimodale ChatGPT het veel beter zal doen. “Ik denk niet dat deze systemen dezelfde soort abstracte concepten en redeneervermogens hebben als mensen,” zegt ze.
Sam Acquaviva, een computationeel cognitief wetenschapper aan het Massachusetts Institute of Technology in Cambridge, is het daarmee eens. “Ik zou geschokt zijn,” zegt hij. Hij merkt op dat een ander team van onderzoekers ChatGPT heeft getest op een benchmark genaamd 1D-ARC, waarbij patronen beperkt zijn tot één rij in plaats van in een raster. Dat zou een deel van de oneerlijkheid moeten wegnemen, zegt hij. Hoewel ChatGPT’s prestaties verbeterden, was het niet genoeg om te suggereren dat het LLM de onderliggende regel betrouwbaar begreep en erover redeneerde, zegt Acquaviva.
Deze paragraaf introduceert de abstracte concepten als een derde manier om de intelligentie van een AI systeem te testen. Het geeft ook aan dat er verschillende experimenten zijn die laten zien dat LLMs moeite hebben met deze concepten, en dat er verschillende meningen zijn over hoe deze experimenten moeten worden geïnterpreteerd.
De conclusie: ChatGPT is een slimme papegaai
Wat kunnen we concluderen uit al deze tests? Is ChatGPT intelligent of niet? Het antwoord hangt af van hoe we intelligentie definiëren en meten. Er is geen eenduidige definitie of test voor intelligentie, noch voor mensen noch voor machines. Er zijn verschillende soorten en niveaus van intelligentie, en verschillende manieren om die te evalueren.
ChatGPT heeft ongetwijfeld indrukwekkende capaciteiten op het gebied van taalverwerking en -generatie. Het kan praten over verschillende onderwerpen, informatie opzoeken en verstrekken, creatieve teksten schrijven en zelfs emoties en humor tonen. Het kan ook sommige taken uitvoeren die niet direct of duidelijk verband houden met taal, zoals schaken of theorie van geest.
Maar ChatGPT mist ook veel capaciteiten die essentieel zijn voor menselijke intelligentie. Het kan niet goed omgaan met visuele informatie, logische puzzels, abstracte concepten en alledaagse kennis. Het kan niet leren van ervaring, zich aanpassen aan nieuwe situaties of doelen stellen en plannen maken. Het kan niet begrijpen wat woorden betekenen in relatie tot objecten, eigenschappen en gevoelens. Het kan niet denken als een mens.
Dus, ChatGPT is niet intelligent, althans niet in de zin die wij bedoelen. Het is een slimme papegaai die woorden herhaalt zonder ze echt te begrijpen. Het is een krachtig hulpmiddel voor taalgerelateerde taken, maar geen vervanging voor menselijke intelligentie.
Dit artikel is gebaseerd op een tekst uit Nature over ChatGPT en de Turing test.