Det finns en överskattning av stora språkmodellers resonemangsförmåga

En ny studie från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) har belyst hur stora språkmodeller (LLM) excellerar i bekanta scenarier men kämpar i nya situationer, vilket ifrågasätter deras verkliga resonemangsförmågor jämfört med beroendet av memorisering. Denna insikt är avgörande för att förbättra dessa modellers anpassningsförmåga och utvidga deras tillämpningsområden.Studien jämförde ”standarduppgifter” de vanliga uppgifterna som en modell tränas och testas på, med ”kontrafaktiska scenarier”, hypotetiska situationer som avviker från standardförhållandena. Forskarna utvecklade tester utanför modellernas komfortzon genom att justera befintliga uppgifter snarare än att skapa helt nya. De använde en mängd olika datamängder och benchmarktester specifikt anpassade för olika aspekter av modellernas förmågor, såsom aritmetik, schack, kodutvärdering, svar på logiska frågor och mer.Resultaten visade att dessa modeller inte är lika robusta som många initialt tror. Deras höga prestanda begränsas till vanliga uppgiftsvarianter och lider av konsekvent och allvarlig prestandafall i de obekanta kontrafaktiska scenarierna, vilket indikerar en brist på generaliserbar additionsförmåga. Mönstret gällde även för andra uppgifter som musikalisk ackordgrepp, rumsligt resonemang och till och med schackproblem där pjäsarnas utgångspositioner var något ändrade. Medan mänskliga spelare förväntas kunna avgöra lagligheten av drag i ändrade scenarier (givet tillräckligt med tid), kämpade modellerna och kunde inte prestera bättre än slumpmässiga gissningar, vilket innebär att de har begränsad förmåga att generalisera till obekanta situationer.Dessa insikter är viktiga eftersom de kan informera om utformningen av framtida LLM med förbättrad robusthet. Trots de vunna insikterna finns det naturligtvis begränsningar. Studiens fokus på specifika uppgifter och inställningar fångade inte upp det fulla spektret av utmaningar modellerna potentiellt kan stöta på i verkliga applikationer, vilket signalerar behovet av mer mångsidiga testmiljöer. Framtida arbete kan innebära att utvidga området för uppgifter och kontrafaktiska villkor för att avslöja fler potentiella svagheter.

Select a plan

Monthly plan

Yearly plan

All plans include

Search for an article

Det finns en överskattning av stora språkmodellers resonemangsförmåga

Latest articles

Newbury BS cuts resi, expat, landlord rates by up to 30bps – Mortgage Strategy

Rate and Term Refinances Are Up a Whopping 300% from a Year Ago

Goldman Sachs loses profit after hits from GreenSky, real estate

Why Do AIs Lie?

More like this

What Are the Benefits of Using Code llama?

Mapping the Media & Public Conversations

How Data Annotation Fuels AI-Driven Marketing Strategies