Search for an article

Select a plan

Choose a plan from below, subscribe, and get access to our exclusive articles!

Monthly plan

billed monthly

Yearly plan

billed yearly

All plans include

  • Donec sagittis elementum
  • Cras tempor massa
  • Mauris eget nulla ut
  • Maecenas nec mollis
  • Donec feugiat rhoncus
  • Sed tristique laoreet
  • Fusce luctus quis urna
  • In eu nulla vehicula
  • Duis eu luctus metus
  • Maecenas consectetur
  • Vivamus mauris purus
  • Aenean neque ipsum
HomeSOLUTIONSDet finns en överskattning av stora språkmodellers resonemangsförmåga

Det finns en överskattning av stora språkmodellers resonemangsförmåga

En ny studie från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) har belyst hur stora språkmodeller (LLM) excellerar i bekanta scenarier men kämpar i nya situationer, vilket ifrågasätter deras verkliga resonemangsförmågor jämfört med beroendet av memorisering. Denna insikt är avgörande för att förbättra dessa modellers anpassningsförmåga och utvidga deras tillämpningsområden.Studien jämförde ”standarduppgifter” de vanliga uppgifterna som en modell tränas och testas på, med ”kontrafaktiska scenarier”, hypotetiska situationer som avviker från standardförhållandena. Forskarna utvecklade tester utanför modellernas komfortzon genom att justera befintliga uppgifter snarare än att skapa helt nya. De använde en mängd olika datamängder och benchmarktester specifikt anpassade för olika aspekter av modellernas förmågor, såsom aritmetik, schack, kodutvärdering, svar på logiska frågor och mer.Resultaten visade att dessa modeller inte är lika robusta som många initialt tror. Deras höga prestanda begränsas till vanliga uppgiftsvarianter och lider av konsekvent och allvarlig prestandafall i de obekanta kontrafaktiska scenarierna, vilket indikerar en brist på generaliserbar additionsförmåga. Mönstret gällde även för andra uppgifter som musikalisk ackordgrepp, rumsligt resonemang och till och med schackproblem där pjäsarnas utgångspositioner var något ändrade. Medan mänskliga spelare förväntas kunna avgöra lagligheten av drag i ändrade scenarier (givet tillräckligt med tid), kämpade modellerna och kunde inte prestera bättre än slumpmässiga gissningar, vilket innebär att de har begränsad förmåga att generalisera till obekanta situationer.Dessa insikter är viktiga eftersom de kan informera om utformningen av framtida LLM med förbättrad robusthet. Trots de vunna insikterna finns det naturligtvis begränsningar. Studiens fokus på specifika uppgifter och inställningar fångade inte upp det fulla spektret av utmaningar modellerna potentiellt kan stöta på i verkliga applikationer, vilket signalerar behovet av mer mångsidiga testmiljöer. Framtida arbete kan innebära att utvidga området för uppgifter och kontrafaktiska villkor för att avslöja fler potentiella svagheter.

Latest articles

Newbury BS cuts resi, expat, landlord rates by up to 30bps  – Mortgage Strategy

Newbury Building Society has cut fixed-rate offers by up to 30 basis points...

Rate and Term Refinances Are Up a Whopping 300% from a Year Ago

What a difference a year makes.While the mortgage industry has been purchase loan-heavy for...

Goldman Sachs loses profit after hits from GreenSky, real estate

Second-quarter profit fell 58% to $1.22 billion, or $3.08 a share, due to steep...

Why Do AIs Lie?

Zeroth Principles can clarify many issues in the ML/AI domain. As discussed in a...

More like this

The 19 Year Old Making $1.5M a Year With AI SaaS

Arib strongly believes there is still lots of opportunity to create successful AI software...

Shaip Unveils Cutting-Edge Data Platform for Ethical and Quality AI Training

LOUISVILLE, KENTUCKY, UNITED STATES, July 09, 2024: In an era where artificial intelligence is transforming...