I huvudet på Claude 3

Att förstå hur AI-modeller kommer fram till olika beslut är en viktig del i att skapa AI som vi kan lita på – och därmed dra nytta av på riktigt. I slutet av maj presenterade Anthropic, ett av de ledande AI-bolagen, forskning som visar delar av hur en stor språkmodell fungerar inuti.

Ingen kan förutsäga hur språkmodeller svarar

Principerna för hur stora språkmodeller fungerar är förhållandevis enkla, men de är så stora att ingen människa kan överblicka dem eller förutsäga hur de beter sig i nya situationer. Det är anledningen att det sitter massor med människor och utforskar vad man kan göra med chattbottar och språkmodeller, och publicerar rapporter över resultaten – ett beteende som vi knappast ser när det gäller mer traditionella programvaror som ordbehandlare, bildredigeringsprogram och musikspelare.

Att vi inte kan förutsäga hur språkmodeller beter sig i nya sammanhang har lett till en rad spännande upptäckter, där man till exempel upptäckte att GPT-4 kan en del kemi på forskarnivå en bra bit efter att modellen publicerades. Men det leder också till problem, eftersom det är omöjligt att veta varför en del oönskat beteende dyker upp, eller hur vi kan hindra det.

Det finns mänskliga begrepp inuti modellerna

Ett sätt att bli klokare på hur språkmodellerna fungerar är att försöka förstå vad de artificiella neuronerna inuti modellen står för – man har nämligen upptäckt att de neuroner som ligger i de mittersta lagren av språkmodellernas nätverk ofta symboliserar begrepp som vi människor kan förstå. Vissa begrepp, ord eller sammanhang får enskilda neuroner, eller grupper av neuroner, att lysa upp.

Ett fascinerande exempel, där Eiffeltornet flyttades till Rom, kan göra det tydligare. I en studie (redan från 2021) analyserade några AI-forskare GPT-2, och lyckades hitta neuroner som motsvarade Paris, Rom och Eiffeltornet. Inte oväntat fanns det starka kopplingar mellan Eiffeltornet och Paris, men inte starka kopplingar från Eiffeltornet till Rom. Forskarna testade att ändra på det, och stärkte kopplingen till Rom samtidigt som kopplingen till Paris försvagades, och ställde sedan frågor till GPT-2.

Vad hände? GPT-2 började säga saker som att Eiffeltornet är en symbol för Rom, att den ligger mitt emot Peterskyrkan. Förstås helt felaktigt, men med en förhållandevis konsekvent felaktig världsbild.

Från GPT-2 till Claude 3 Sonnet

Att hitta vilka neuroner som motsvarar givna begrepp (eller omvänt) kräver en del jobb. Därför fick OpenAI en del uppmärksamhet i maj 2023 när de publicerade en kartläggning av alla neuroner för GPT-2. (Du kan testa själv! Men var beredd på att de flesta neuroner inte är tydligt associerade med begrepp.)

Och nu i maj, ungefär ett år senare, presenterar Anthropic resultat som berättar hur miljontals begrepp är associerade med neuroner i deras språkmodell Claude 3 Sonnet. Det är inte en total kartläggning, men en viktig bedrift eftersom Claude 3 till skillnad från GPT-2 är en språkmodell som används flitigt av många människor. Den är också mycket större, med uppskattningsvis 20 gånger fler neuroner än GPT-2 (men tillhör inte de allra största av dagens språkmodeller).

Resultatet är intressant på många sätt, inte minst för att det går att studera hur Claude 3 anser att olika begrepp är besläktade. Nedan syns begrepp som enligt Claude 3 ligger nära ”immunologi”.

Vilka begrepp ligger nära ”immunologi” enligt Claude 3 Sonnet? Bild från https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

Det går att påverka Claudes beteende

Med kunskap om hur olika begrepp ligger utspridda i Claudes neurala nätverk kunde forskare på Anthropic också testa vad som händer om de aktiverar valda neuroner. Det kan jämföras med att på konstgjord väg stimulera valda nervceller i en människas hjärna, vilket kan leda till att patienten ser färger, känner oro, eller börjar röra fingrarna på vänster hand.

I ett försök aktiverade AI-forskarna neuroner som motsvarar ”Golden Gate Bridge” och frågade sedan Claude om dess fysiska form. Vanligtvis svarar Claude att den inte har någon fysisk form, men nu svarade den i stället ”Jag är Golden Gate Bridge”. I ett annat försök aktiverades neuronerna som motsvarar ”bedrägeri-mail”, varpå Claude tappade sina spärrar för att hjälpa till att skriva mail för att lura mottagare på pengar.

Vad är nyttan?

Att förstå delar av de labyrinter som stora språkmodeller är viktiga steg för att bättre kunna lita på de resultat de ger. När EU:s AI-förordning börjar gälla kommer det att finnas höga krav på AI som exempelvis används som stöd vid rekryteringar. Det räcker inte att förklara bakgrunden till ett beslut med att AI:n gav kandidat A 9,7 poäng och kandidat B 9,5 poäng. Om AI:n blir lite mindre av en svart låda kan det bli möjligt för oss att se att det egentligen var egenskaperna ”vit”, ”medelålders” och ”man” som gav kandidat A ett försprång – eller för den delen ”stresstålig”.

En annan möjlighet är att läsa av när särskilda begrepp är aktiverade hos AI:n, för att varna för eller spärra beskrivningar av våld, bedrägerier eller manipulativt beteende.

Kartläggning av begrepp gör det tyvärr också möjligt att gå förbi spärrar som AI:n normalt har – vilket syntes i försöken med mail för att lura av folk pengar. I fallet med Claude 3 är det bara Anthropic som kan redigera modellen: Användare kan skicka anrop till den, men själva modellen hålls bakom lås och bom hos Anthropic. En del andra modeller (inte minst Llama 3 från Meta) går däremot att ladda hem, vilket gör det möjligt att genomföra den digitala motsvarigheten till hjärnkirurgi.

Ett annat viktigt resultat från Anthropics studie är att de visat att det går att använda kända metoder (”dictionary learning”) för att kartlägga betydligt större språkmodeller än tidigare.

Kanske kan förståelse av begrepp inuti språkmodeller leda till metoder för att fullständigt kapa bort skadligt eller önskat beteende hos modellerna, utan enkla möjligheter att gå runt spärrarna. Framtiden får utvisa.

Uppdatering: Några dagar efter att Anthropic släppte sin forskningsrapport kom OpenAI med en forskningsartikel i samma genre.


Kommentarer

Lämna en kommentar