AI-rekommendationer ändras med nästan varje fråga

SparkToros forskning visar att AI-verktyg producerar olika varumärkesrekommendationslistor mer än 99 % av gångerna när de får samma uppmaning.

AI-verktyg producerar olika varumärkesrekommendationslistor nästan varje gång de besvarar samma fråga, enligt en ny rapport från SparkToro.

Data visade en chans på <1 på 100 att ChatGPT eller Googles AI i sökning (AI-översikter/AI-läge) skulle returnera samma lista med varumärken vid upprepade körningar av samma prompt.

Rand Fishkin, medgrundare av SparkToro, genomförde forskningen tillsammans med Patrick O’Donnell från Gumshoe.ai, en startup för AI-spårning. Teamet körde 2 961 prompter över ChatGPT, Claude och Google Search AI-översikter (med AI-läge använt när översikter inte visades) med hjälp av hundratals volontärer under november och december.

Vad data fann

Författarna testade 12 prompter som begärde varumärkesrekommendationer inom olika kategorier, inklusive kockknivar, hörlurar, cancervårdssjukhus, digitala marknadsföringskonsulter och science fiction-romaner.

Varje prompt kördes 60–100 gånger per plattform. Nästan varje svar var unikt på tre sätt: listan över presenterade varumärken, ordningen på rekommendationerna och antalet returnerade artiklar.

Fishkin sammanfattade det viktigaste resultatet:

”Om du frågar ett AI-verktyg om varumärkes-/produktrekommendationer hundra gånger kommer nästan varje svar att vara unikt.”

Claude visade något högre konsekvens i att producera samma lista två gånger, men var mindre benägen att producera samma ordning. Ingen av plattformarna kom i närheten av författarnas definition av tillförlitlig repeterbarhet.

Problemet med variationen i uppmaningar

Författarna undersökte också hur riktiga användare skriver uppmaningar. När 142 deltagare ombads att skriva sina egna uppmaningar om hörlurar till en resande familjemedlem, såg nästan inga uppmaningar lika ut.

Den semantiska likhetspoängen för dessa människoskrivna uppmaningar var 0,081. Fishkin jämförde förhållandet med:

”Kung Pao-kyckling och jordnötssmör.”

Uppmaningarna delade en kärnavsikt men lite annat.

Trots mångfalden i uppmaningarna returnerade AI-verktygen varumärken från en relativt konsekvent uppsättning överväganden. Bose, Sony, Sennheiser och Apple förekom i 55–77 % av de 994 svaren på dessa varierande hörlursuppmaningar.

Vad detta betyder för spårning av AI-synlighet

Resultaten ifrågasätter värdet av ”AI-rankningsposition” som ett mått. Fishkin skrev: ”alla verktyg som ger en ’rankningsposition inom AI’ är fulla av struntprat.”

Uppgifterna tyder dock på att hur ofta ett varumärke förekommer i många omgångar av liknande frågor är mer konsekvent. I snäva kategorier som molntjänstleverantörer förekom toppvarumärken i de flesta svar. I bredare kategorier som science fiction-romaner var resultaten mer spridda.

Detta överensstämmer med andra rapporter vi har behandlat. I december publicerade Ahrefs data som visar att Googles AI-läge och AI-översikter citerar olika källor 87 % av tiden för samma fråga. Den rapporten fokuserade på en annan fråga: samma plattform men med olika funktioner. Denna SparkToro-data undersöker samma plattform och fråga, men med olika omgångar.

Mönstret i dessa studier pekar i samma riktning. AI-rekommendationer verkar variera på varje nivå, oavsett om man jämför mellan plattformar, mellan funktioner inom en plattform eller mellan upprepade frågor till samma funktion.

Metodologiska anteckningar

Forskningen genomfördes i samarbete med Gumshoe.ai, som säljer AI-spårningsverktyg. Fishkin avslöjade detta och noterade att hans utgångshypotes var att AI-spårning skulle visa sig vara ”meningslös”.

Teamet publicerade den fullständiga metoden och rådata på en offentlig minisajt. Respondenterna i undersökningen använde sina vanliga AI-verktygsinställningar utan standardisering, vilket författarna sa var avsiktligt för att fånga variationer i verkligheten.

Rapporten är inte expertgranskad akademisk forskning. Fishkin erkände metodologiska begränsningar och efterlyste uppföljningsarbete i större skala.

Framtidsutsikter

Författarna lämnade öppna frågor om hur många promptkörningar som behövs för att få tillförlitliga synlighetsdata och om API-anrop ger samma variation som manuella prompter.

När du utvärderar AI-spårningsverktyg tyder resultaten på att du bör be leverantörer att demonstrera sin metod. Fishkin skrev:

”Innan du spenderar en krona på att spåra AI-synlighet, se till att din leverantör svarar på de frågor vi har tagit upp här och visar sin matematik.”

Kontakta oss!

Bild av Mishel Grujicic

Mishel Grujicic

Expert inom SEO (sökmotoroptimering), samt Google Ads och Meta Ads (Facebook och IG). Arbetar även med webbutveckling, content marketing och strategisk marknadsföring.

Dela den här artikel på: