6. Att skapa en språkmodell

**Data** är grunden för alla AI-system. AI-system är beroende av data för att lära sig, utvecklas och fatta beslut. Det är därför viktigt att förstå hur data samlas in, bearbetas och används i AI. I detta avsnitt kommer vi att utforska dessa aspekter och deras betydelse för AI. Vi kommer att fokusera på en särskild typ av AI-system som vi kallar språkmodell, Large Language Model ([[Stora språkmodeller]]). Data kan komma från många olika källor, som sensorer, onlineinteraktioner, affärstransaktioner eller sociala medier. På senare tid har det uppstått konflikter mellan företag som tränar data och företag som äger mycket data. Data har blivit en värdefull tillgång och företag som äger mycket data kanske inte vill att deras data ska användas för att träna AI-system. Det också vara så att företagen vill ha betalt för att lämna ut data. Efter insamling måste data ofta bearbetas och rengöras. Detta innebär att ta bort irrelevant eller felaktig information och omvandla data till ett format som AI-systemet kan använda. Är det god kvalitet på datan från början så behövs den inte bearbetas så mycket. Därför är det viktigt att företagen inte samlar in vilken data som helst utan data av god kvalitet. När datan är insamlad och bearbetad så används sedan för att 'träna' AI-systemen. Träningen kan ta lång tid beroende på hur mycket data som samlats in. Träningen kräver också mycket datorkraft. Normalt sett så tränas datan på grafikkort. Ett företag kan använda tusentals grafikkort i upp till ett halvår när de tränar AI-modellerna. När datorerna beräknat färdigt så har en språkmodell (LLM) skapats. Språkmodellen behöver nu tränas av människor för att den ska bete sig som vi förväntar. Det kan handla om att den ska uppträda säkert och inte ge farliga råd. Det kan handla om att den ska kunna samtala och uppträda som en person i en diskussion. Den här alignment-träningen kräver ofta mycket tid och den görs normalt sett av människor som ger instruktioner och sedan betygsätter hur bra eller dåligt ett svar är. --- > [!Info] Källor > Text: Något redigerad, ChatGGPT GPT 4.0, [Läromedelsverkstan](https://chat.openai.com/g/g-gi7Vb6kU0-laromedelsverkstan), 2024-01-03