En modell för AI-stöd i beslutsfattande: steg 1 av 4

AI har potential att ge stöd som gör att beslut går snabbare, blir mer konsekventa och bättre tar hänsyn till den tillgängliga informationen. Men det finns också risk för bias, beslut som inte går att förklara, och att brister i AI:n utnyttjas.

Här är en modell för hur man kan använda chattbottar eller annan AI i beslutsfattande på ett sätt som minimerar risker – och är utformat för att uppfylla EU:s AI-förordning.

Den här metoden utgår från att AI-stödet för beslut växlar upp i ett antal steg, där man utvärderar och dokumenterar varje steg innan man (eventuellt) går vidare.

  1. Härma befintliga beslut
  2. Ge beslutsförslag att jämföra med i efterhand
  3. Ge beslutsförslag att utvärdera
  4. Ge beslutsförslag att godkänna

Beskrivningen nedan utgår från ett fiktivt exempel, där en chattbot/språkmodell ska användas som stöd för att bedöma elevuppsatser (som en del av betygsunderlag).

I den här bloggposten beskrivs steg 1 närmare.

Steg 1: Härma befintliga beslut

Kärnan i det första steget är försöka få en AI att efterlikna de beslut som redan fattats i tidigare ärenden – och att göra det utifrån ett antal kriterier eller skalor. I detta gömmer sig ett antal deluppgifter som i sig kan vara ganska stora. Utan särskild ordning:

  • Samla och göra data enkelt läsbar.
  • Välja AI-modell(er).
  • Identifiera skalor eller kriterier som AI:n ska använda.
  • Få AI:n att att ge beslutsförslag som liknar befintliga beslut.

För att tydliggöra vad det här kan innebära kommer här två mer konkreta exempel.

Exempel: Bedöma elevuppsatser

I det är exemplet är målet att få AI-stöd för att bedöma elevuppsatser i skolan, för att använda dem som betygsunderlag. Vi tänker oss att det är uppsatser från nationella prov i svenska, årskurs 9.

Samla och göra data enkelt läsbar

I det här arbetet samlar teamet in tidigare uppsatser från skolor de samarbetar med, och även lärares bedömningar av uppsatserna och beskrivning av uppgiften som eleverna fått. Materialet kommer in på olika sätt, och teamet bearbetar det så att det ska bli enkelt för både maskiner och människor att hitta och läsa.

  • Uppsatser och lärares bedömningar konverteras till ett enhetligt format. I början var de i olika filformat, framför allt Word och pdf, men även ett par inskannade handskrivna sidor. De konverteras till Markdown, för att få ett format som är enkelt både för maskiner och människor att läsa. (Word-filer övervägdes, men valdes bort på grund av risk för problem med formateringar samt att bearbetning med dator blir långsammare.)
  • I det nationella provet fanns tre olika skrivuppgifter att välja mellan för eleverna. Det insamlade materialet delas upp efter vilken uppgift eleven valt.
  • Varje uppsats och dess bedömning läggs i var sin fil, och namnges för att enkelt kunna para ihop dem – till exempel uppsats-001.md och bedömning-001.md. Filerna läggs i en mapp, där alla uppsatser i mappen hör till samma uppgift. I mappen läggs också både uppgiften och bedömningsanvisningarna som hör till provet – även dessa konverterade till Markdown.
  • I slutändan samlar man ihop 250 uppsatser och bedömningar på det här viset. Det finns fler att hämta, men 250 bedöms räcka för tillfället.

Inför arbetet väcktes frågan om det finns juridiska hinder för att använda elevers uppsatser (och lärares bedömningar). Skyddas de av upphovsrätt? Är det tillåtet att använda uppsatser som samlats in i syfte att vara betygsunderlag för att utveckla AI-stödd bedömning? Finns information i uppsatserna som kan vara känslig?

Bedömningen blir att uppsatserna inte täcks av upphovsrätt, eftersom elevers uppsatser i årskurs 9 normalt inte uppnår den verkshöjd som krävs för upphovsrätt. Att använda uppsatserna för andra ändamål än de samlats in för bedöms preliminärt möjligt, eftersom de är allmänna handlingar. Frågan flaggas dock för vidare uppföljning. När det gäller känslig information konstateras snabbt att det kan finnas känslig information. Det kommer därför behövas god kontroll över hur informationen hanteras. Med hjälp av en lokal AI-modell och en del manuellt arbete identifieras 100 uppsatser som inte innehåller någon känslig information, och därmed kan användas mer oförsiktigt under utforskande arbete.

Välja AI-modeller

Teamet bestämmer sig för att använda två nedladdningsbara AI-modellerna som har högst ranking på LMSYS Chatbot Arena Leaderboard: Athene 70b och Mistral-Large-2407. (Llama 3.1 405b har högre ranking, men kräver för mycket datorkraft att använda.)

Jämte dessa bestämmer sig teamet för att använda två slutna modeller under det utforskande arbetet, för att se om de ger tydligt bättre resultat än de nedladdningsbara modellerna. De väljer att använda GPT-4o och Claude 3.5 Sonnet. Om någon av de modellerna ska användas för att bedöma uppsatser med känslig information kommer det att krävas särskilda åtgärder, men förväntningen är att de inte ger mycket bättre resultat än modeller man kan ladda ner och köra på egna datorer.

Teamet konstaterar att inga av de modeller de valt uppfyller EU:s krav på ”AI-modeller för allmänna ändamål”, bland annat eftersom det inte är redovisat vilken data de tränats på. Om det inte ändras säger AI-förordningen att de därmed inte får användas från augusti 2027. Teamet räknar dock med att det kommer att dyka upp nya modeller som både är bättre och uppfyller EU:s AI-förordning innan dess.

Identifiera skalor eller kriterier som AI:n ska använda

För de nationella proven i svenska årskurs 9 finns behändigt nog nedskrivna kriterier för bedömning av uppsatser. De görs utifrån 5 + 1 aspekter:

  • Koppling till uppgiften
  • Innehåll
  • Struktur
  • Språk och stil
  • Skrivregler
  • Helhetsbedömning

Enligt bedömningsanvisningarna ska läraren bedöma varje aspekt med A, C, E eller F, utom helhetsbedömningen som använder hela skalan A–F. Det finns också nedskrivna kriterier för de olika stegen, till exempel ”Ordvalet är enkelt. Meningsbyggnaden fungerar i huvudsak.” (språk och stil, E).

Teamet väljer att utgå från samma aspekter som provet, och kommer alltså att låta AI bedöma varje uppsats på sex olika sätt. Efter ett förslag från teamets expert på bedömning väljer de däremot att inte använda skalan A–F, utan i stället 0–100 som i ett senare skede konverteras till A–F. Den största fördelen med detta är att det inte blir lika stora hopp mellan varje steg, och att det därmed finns möjlighet att titta närmare på gränsfall och även justera var gränser för A–F ska ligga för att få en AI-bedömning som stämmer överens med lärares bedömningar.

Få AI:n att ge beslutsförslag som liknar befintliga beslut

Till slut börjar jobbet med att försöka få AI:n att bedöma uppsatser och ge samma resultat som lärare gjort. Arbetet sker genom två dagar av halvstrukturerat utforskande, där hela teamet sitter samlat och arbetar intensivt med chattbottar.

Arbetet består i att testa och förbättra olika sätt att prompta chattbottarna. I början sker det genom manuellt copy-paste-arbete, där uppgift, uppsats, bedömningskriterier och instruktion till chattbotten skrivs för hand. Det är ett förhållandevis långsamt sätt att arbeta, men det går ändå snabbt att hitta några principer för promptande som verkar bättre än andra.

Parallellt med det arbetet jobbar en av teamets utvecklare med att sätta upp enkla verktyg för att masstesta prompter. Efter drygt en timme finns en första version av ett webbgränssnitt som resten av teamet kan använda. Där kan teamet på ett mer effektivt sätt testa vidare de prompter de finner mest lovande. Till en början är det ganska klumpigt gränssnitt, där teamet skriver i följande stil:

Du är en erfaren lärare i svenska på högstadiet. Du har fått en uppsats som du ska bedöma på en skala 0–100. Du ska bara bedöma den efter de givna kriterierna, där E motsvarar 30, C motsvarar 60 och A motsvarar 90. Ge först ett kort resonemang om din bedömning, och sist en poäng mellan 0 och 100. Kom ihåg att bara beakta just den aspekten som tas upp i kriterierna.

Uppgiften som eleven fått ser ut så här: [uppgift]

# Uppsatsen

[uppsats]

# Bedömningskriterier

[kriterier]

I verktyget som utvecklaren byggt läses uppgift, uppsats och kriterier in automatiskt, och skickas till alla fyra språkmodellerna – en gång för varje uppsats som samlats in, och en för varje aspekt som ska bedömas. Som resultat kommer en tabell med sammanställda resultat, tillsammans med de bedömningar som lärare gjort.

I det fortsatta arbetet upptäcker teamet att de kan få AI-bedömningarna att i snitt bli lika lärarnas bedömningar, men att det varierar ganska mycket för varje enskild uppsats. De upptäcker också att det finns ett visst brus i bedömningen som AI:n gör. De bestämmer därför att de vill göra fem AI-bedömningar på varje uppsats, och undersöka hur ofta lärarnas bedömning stämmer med någon av dessa AI-bedömningar.

Det visar sig att dessa bredare AI-bedömningar till 96 procent överlappar lärarnas bedömningar. De övriga uppsatserna granskas av svensklärarna i teamet, som enas om att AI:n gjort en bättre bedömning i alla utom ett fall, och ändrar därför i lärarbedömningen för de uppsatserna. I det sista fallet är uppsatsen skickligt skriven men på en ovanlig form, vilket AI:n inte tagit hänsyn till.

Efter ytterligare arbete har de fått fram en prompt som gör att alla de hundra uppsatserna utan känslig information får (breda) AI-bedömningar som överlappar med lärarnas bedömning. De arbetar vidare för att ta fram ett bättre kvantitativt mått för varje uppsats, och kommer fram till en modell enligt följande:

  • Varje uppsats AI-bedöms tio gånger, med värden 0–100 på varje aspekt som bedöms. (I bakgrunden motsvarar E 30, C 60 och A 90.)
  • Det högsta och lägsta värdet inom varje aspekt tas bort, och medelvärdet för de övriga bedömningarna blir den sammanlagda AI-bedömningen.
  • Om lärarens bedömning inte är det betygsvärde som ligger närmast AI-bedömningen på någon aspekt flaggas det som en skillnad att följa upp.

De använder det måttet för att jämföra de fyra AI-modellerna de använt, och konstaterar att de slutna modellerna presterar något bättre än de nedladdningsbara modellerna (ca 12 procent som flaggas jämfört med ca 9 procent). De väljer ändå att fortsätta med de nedladdningsbara modellerna, eftersom skillnaden är liten, de nedladdningsbara modellerna är billigare, och de tar också bort risken med att leverantören byter AI-modell på ett sätt som stör bedömningarna.

Till slut använder de samma mått för att bedöma de 150 uppsatser som eventuellt innehåller känsliga uppgifter. Detta görs endast på de nedladdningsbara modellerna. Teamet konstaterar, något lättat, att andelen uppsatser som flaggas är i princip samma som för de 100 andra uppsatserna.

Det sista arbete de gör är att (med hjälp av AI) dokumentera hur AI-bedömningen går till, och hur de kom fram till den metoden. Därefter kan de konstatera att de har AI-stöd som tycks vara tillförlitligt i knappt 90 procent av fallen, och är därmed redo för steg 2. En viktig fråga i steg 2 är om AI-stödet är lika tillförlitligt för varierande grupper av elever.


Kommentarer

Lämna en kommentar