Spindel på ett spindelnät

Just nu råder AI-feber och särskilt när det gäller generativ artificiell intelligens med stora språkmodeller (LLM), där GPT och tjänsten ChatGPT är de mest kända exemplen. Vad inte många tänker på är hur dessa språkmodeller fungerar under huven och hur de som skapat dessa botar använder sig av innehåll från din webbplats, både för att träna sina modeller och för att ge svar likt en sökmotor.

Hot mot din webbplats

För det första handlar det om en upphovsmässig gråzon, vilket inte minst medieföretag reagerat kraftfullt på. New York Times har stämt OpenAI och Microsoft för hur AI-modeller tränats på innehåll från artiklar på nytimes.com. Hotet består i att AI-företagen använder det material som du har på din webbplats för att generera nytt liknande innehåll för sina användare. Detta blir speciellt utmanande om din affärsidé är att ta betalt för ditt innehåll, som för de traditionella mediehusen.

För det andra kan det i framtiden handla om att själva upplevelsen av webben förändras i grunden. Sedan Google lanserades och vi lämnade internetportaler som Torget och Passagen på historiens skräphög så har sökmotorn varit det naturliga sättet för alla internetanvändare att hitta information på nätet. Just nu pågår flera försök att förändra detta med hjälp av stora språkmodeller, så att sökmotorn ger svar i konversationsform istället för som sökträffar. Det snackas om att OpenAI ska lansera en Googledödare. Google annonserade nyligen att deras sökmotor ska uppdateras med AI. Kan det bli så att trenden med sökningar som ger noll klick ökar nu? Med AI-pumpade sökmotorer kommer ju svaret direkt i sökträfflistan. Då kanske webbplatsens tid är förbi…

AI-spindlarna anfaller!

Säg att du nu verkligen inte gillar att ChatGPT och andra AI-botar hämtar innehåll från din webbplats. Då finns det faktiskt sätt att stoppa botarna från att använda ditt innehåll. Rent tekniskt handlar det om att du instruerar deras spindlar som regelbundet söker av alla webbplatser att hoppa över just din webbplats. Spindel är alltså inte insekten, utan ett program som på engelska kallas web crawlers.

För att göra detta behöver du ha koll på en fil som heter robots.txt och ska ligga i roten på webbservern. Sökvägen är exempelvis https://www.webbstrateg.nu/robots.txt. I denna fil finns troligen sedan tidigare instruktioner till sökmotorernas spindlar om vad de får hämta på din webbplats. Sedan drygt ett halvår finns möjlighet att lägga till blockering av även AI-botarnas spindlar.

Om vi tar den mest kända, ChatGPT, så blev det möjligt i augusti 2023 att skriva en sådan instruktion. Den spindel ChatGPT använder kallas GPTBot. För att blockera den från din webbplats behöver du lägga in denna kod i din robots.txt:

User-agent: GPTBot
Disallow: /

Det är viktigt att du först definierar User-agent, alltså vilken bot du vill ge instruktioner till. Kommandot Disallow betyder att boten inte ska få söka igenom något. Om du skriver / betyder det hela din webbplats. Du kan även lägga till specifika kataloger, exempelvis /nyheter/.

Många olika AI-spindlar

Nu råkar det vara så att vi är lite av i en guldrusch när det gäller just AI-botar. Så OpenAI är inte direkt ensamma på marknaden. Det finns många olika AI-spindlar som du behöver hålla koll på. Här nedan följer en sammanställning över hur det ser ut just nu, enligt min research. Denna lista är väldigt föränderlig, så det inte som ett facit. Jag vill bara visa på bredden när det gäller AI-spindlar genom att visa de största just nu.

Common Crawl

Common Crawl är en ideell organisation som samlar in massor av data från webben och gör det tillgängligt för alla. Forskare och företag använder deras data för att träna AI, inklusive de som kan skapa text och bilder.

Kända user-agents:

  • CCBot.

OpenAI

OpenAI ligger bakom GPT-4, alltså den språkmodell som ChatGPT använder. Som även används i Microsofts produkter som CoPilot och sökmotorn Bing.

Kända user-agents:

  • GPTBot.
  • ChatGPT-User.

Google

Google satsar mycket på AI. Deras GPT-tjänster byter hela tiden namn och har bland annat kallats för Bard och Gemini.

Kända user-agents:

  • Google-Extended.

Anthropic

Anthropic är ett företag startat av folk som tidigare jobbade på OpenAI. Deras GPT-tjänst heter Claude.

Kända user-agents:

  • anthropic-ai.
  • ClaudeBot.

Bör jag gå på spindeljakt?

Detta är en fråga där svaret främst beror på er situation. Som mediehus kan jag förstå argument som upphovsrätt (journalister behöver ha en lön) och kontroll (vill visa innehållet på sitt sätt). Samtidigt så är det digitala och internet till sin natur gränslöst. Det brukar sällan gå att låsa in saker för användare. Oftast kommer den breda massans användning styra hur vi sedan väljer att organisera innehållet. Att exempelvis blockera sin sajt från Google känns inte speciellt smart, även om Google tjänar annonspengar på ditt varumärke.

Men med det sagt så är det enligt mig just nu svårt att överblicka konsekvenserna av AI, exempelvis AI-baserad sök. Det vore olyckligt om en handfull aktörer på den globala scenen skulle äga presentationen av all information och därmed göra alla webbplatser obsoleta. Så det är en knivig fråga. Framtiden får utvisa vad som är rätt val – att mata spindlarna eller att döda dem.

Vill du läsa mer inlägg som detta?
Få gratis nyhetsbrev med tips om webbkommunikation och onlinemarknadsföring.
Prenumerera på tips
Kategorier: Generativ AI

Pontus Vinderos

Digital strateg och specialist inom webbkommunikation och onlinemarknadsföring.