Notis 139, 13-04-2011, Debatten kring Daryl Bems rapport Feeling the future – vad handlar den om? (Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect, är publicerad i Journal of Personality and Social Psychology)
/ GB
Denna notis är ett försök att mycket kort sammanfatta vad debatten handlar om.
Redan i samma nummer som Bems rapport publiceras, finns också ett kritiskt inlägg från några holländska forskare, Wagenmakers, Wetzels, Borsboom & van der Maas, som framför allt har invändningar mot att den statistiska metod Bem använt. De menar att ett s.k. Bayesian t-test skulle ha använt. De menar också att ”för att övertyga de skeptiska när det gäller kontroversiella påståenden måste man genomföra strikta bekräftande replikationsstudier och analysera resultaten med statistiska test som är konservativa snarare än liberala. De anser att Bems p-värden inte antyder bevis till förmån för prekognition utan menar i stället att experimentella psykologer behöver förändra sitt sätt att genomföra experiment och analysera sina data. De menar att man ska skilja på de första explorativa och de senare replikationsstudierna.
Bems svar, tillsammans med Jessica Utts och Wesley Johnson: De håller med om det finns fördelar med Bayesian statistiska proceduren, men att kritikerna i detta fall på ett felaktigt sätt har karakteriserat flera viktiga egenskaper i Bems experiment och har valt en orealistisk Bayesian ”prior”-fördelning för sin analys, som leder dem till att allvarligt underskatta experimentella stödet för psi-hypotesen. De erbjuder en utvidgad Bayesian analys som visar på effekterna av andra ”prior”-fördelningar på Bayes-faktorer och finner att bevisen starkt stödjer psi-hypotesen före noll-hypotesen.
Bem bemöter också påståendet att framför allt det första experimentet skulle vara explorativt. Han påpekar att flera sådana experiment har gjorts förut (se Radin, 1997). Påståendet att man inte gjort korrektion för s.k. multipla analyser, bemöts också.
En annan mycket viktig dust var med James Alcock, en debatt som Jan Dalkvist bedömer mer intressant än den med de holländska forskarna.
Jag sammanfattar först Alcocks kritik, sedan följer några kommentarer från Dalkvist, sedan följer något av hur Bem bemöter detta.
Alcock börjar med att skriva om (med betoning på om) parapsykologins historia som en skeptiker ser den, och avfärdar flera tidigare insatser såsom den av Rhine, Schmidt, remote viewing med Targ & Puthoff, Jahn samt Honorton och ganzfeld. Om man som han gör här, i förbigående avfärdar alla dessa stora forskningsprojekt, så undrar man hur man ska beakta Alcocks argument. Vart och ett av dessa områden är väl värda att diskuteras och kan inte avfärdas på några rader som han gör – det gör mig misstänksam. Och han granskar Bems sensationella rapport, väl medveten om alla dessa tidigare påståenden om stöd för psi, fast han menar att samtliga tidigare misslyckats. Finns det då inte risk för skygglappar?
Alcocks kritik av Bem går kortfattat ut på att 1) män och kvinnor får välja olika slag av bilder (något granskarna inte upplevde som ett problem), 2) att nya bilder infördes (kanske är Bem inte tydlig om varför de införs eller hur de väljs), 3) att flera s.k. multipla analyser utförs utan att korrigera för detta.
Jan Dalkvists kommentarer (vi avser återkomma senare med mer utförliga kommentarer): ” jag anser att Alcocks argument är värda att begrundas. Vi ska inte försvara dålig parapsykologisk forskning bara för att vara oense med kritikerna. Jag vidhåller att Bem har gjort parapsykologin en riktig björntjänst, som det kommer att ta år att reparera.”
Hur det kan komma sig att granskarna inte har upptäckt dessa brister, besvarar Dalkvist med ” Håller med. Det är ytterst märkligt. Kanske tidskriften ville ha lite reklam. Nu känner hela världen till den. Men förmodligen var det Bems goda rykte som socialpsykolog som var avgörande. Man får också tänka på att referees ibland är okunniga och/eller slarviga.”
Med tanke på kommentarerna från redaktionen om hur rapporterna granskas så bör inte granskarna ha känt till att det var Bem som låg bakom rapporten? Om de var okunniga och/eller slarviga är en bedömningsfråga, men det framgår av debattinläggen att två av de tre granskarna specialister på just priming. Kan de ändå ha varit slarviga?
Bems forskning kan förstås ha varit så välkänd, och unik, att granskarna förstod vem som författat artikeln.
Svaret från Daryl Bem: Bem menar att det är en stor kontrast mellan Alcocks hårda bedömning av Bems arbete och den kollektiva bedömningen av de två redaktörerna och de fyra granskarna. Att de skulle godkänna artikeln bara för att Bem är så etablerad och känd tillbakavisas eftersom artikeln, när den skickas för granskning, inte har några uppgifter som kan säga vem som skrivit. Kontrasten är inte bara en repris av den välkända oenigheten mellan skeptiker och företrädare för psi. Liksom Alcock uttryckte flera granskare olika grad av skepticism vad det gäller psi’s verklighet. Till skillnad från Alcock är de fortfarande aktiva forskare som regelbundet bidrar med rapporter till de stora tidskrifterna i psykologi och de kognitiva vetenskaperna. Deras uppgift var att utvärdera och bedöma logiken och klarheten i artikelns exposition, riktigheten i dess experimentella metoder och giltigheten i dess vetenskapliga analyser. Dom behövde inte hålla med om slutsatserna i om psi finns eller inte. Man kan här jämföra med vad den experimentella psykologen Joachim Krueger vid Brown University sa till New scientist, 11/11 2010: Min åsikt är att detta är absurt och inte kan vara sant. Att kontrollera metodologi och den experimentella designen är det första man ska göra. Men ärligt talat, jag hittar inget att angripa. Allt tycks vara i sin ordning.”
Bem om kritiken: Alcock ifrågasätter både mina experimentella procedurer och min statistiska analys. Kritiken av proceduren gäller främst valet och gruppering av bild-stimuli i sex av de nio experimenten. Eftersom män och kvinnor reagerar olika på vålds- resp. erotiska bilder, så visade kvinnliga deltagare signifikanta psi-effekter med negativa och erotiska stimuli i mina tidiga experiment, medan männen inte gjorde det. Utifrån detta beslöt jag att introducera olika uppsättningar bilder för män och kvinnor i mina senare försök och valde mer extrema och mera arousing-bilder för män. Dataprogrammet av deltagarna möjlighet att välja erotiska bilder med samma eller motsatt kön, detta utan att detta avslöjades för försöksledaren.
Detta hade inte recensenterna för JSPS några problem med. Men det hade Alcock: ”Nu upptäcker vi att deltagarna fick välja sina bilduppsättningar att gissa på. Detta är den mest gäckande beskrivning av forskningsmaterial och – procedur jag någonsin stött på.” Jag är, skriver Bem förvånad över Alcocks reaktion. Eftersom han har post-doctoral utbildning i klinisk psykologi och varit medlem i styrelsen för Scientific Clinical Psychology and Psychiatry hade jag förväntat mig att han kände till flera välkända kliniskt orienterade experiment om reaktioner på hot där man hade olika uppsättningar av hotande stimuli för grupper av deltagare med olika psykiatrisk diagnos. De konceptuella hypoteserna i dessa experiment gällde hur deltagarna svarar på stimuli som hotar dem. På liknande sätt gäller hypoteserna i mina experiment hur vilka deltagarna svarar på stimuli som ger erotisk arousal för dem.
Om Alcock anser att det är en felaktighet i proceduren att ha olika uppsättningar av erotisk stimuli för män och kvinnor eller för homosexuella och heterosexuella deltagare, så bör han vara tydlig med hur och varför han tror att detta skulle kunna leda till ett falsk positivt resultat. Detta exempel illustrerar ett annat generellt problem med Alcocks kritik: Att misslyckas med att skilja på möjliga fel i ett experiment som skulle kunna ge falska positiva resultat och möjliga fel som faktiskt skulle vara mot de experimentella hypoteserna genom att introducera noise i data.
Problem med multipla analyser
Denna kritik av statistiken upprepar Alcock genom hela sin kritik. Som han korrekt påpekar är det illegitimt och missvisande att göra multipla tester på en datauppsättning utan att justera signifikansnivåerna för det antal separata analyser man gör. Detta är välkänt för experimentella psykologer, men gäller faktiskt inte för några av de experiment jag gjort, menar Bem. Alcock har lärt sig detta rätt om multipla tester, men tycks inte förstå logiken bakom orden, menar han.
De multipla tester jag gjorde, gjorde jag, påpekar Bem, för att visa att jag skulle få samma resultat och slutsats med olika statistisk bearbetning av samma data. Detta är något helt annat än att genomföra flera s.k. explorativa tester på olika delar av samma data och sedan dra slutsatsen post hoc att ett av dem visade en signifikant effekt.
Bem konstaterar att just för att analyserna i priming-experimenten är komplexa, att reaktionstids-data kräver speciell behandling, så jag använde mig av de analytiska procedurerna som nu anses standard för priming-studier. Redaktören och två av recensenterna till artikeln är experter på priming och bidrar mycket till litteraturen om denna forskning. Om jag inte hade genomfört standardanalyserna av data, kommenterar Bem, skulle recensenterna ha krävt av mig att använda dessa metoder innan de accepterade artikeln. Åtminstone en expert på priming-experiment har föreslagit att man alltid borde genomföra flera analyser med olika transformationer och olika s.k. cut-off-kriterier för att säkerställa att priming-effekterna kvarstår i alla variationer. Det är precis vad jag gjorde. Till skillnad från Alcock, så förstår recensenterna både den statistiska behandlingen av priming-data och varför de multipla testerna förstärker styrkan i de dragna slutsatserna.
Ett av skälen till att jag gjorde och rapporterade multipla analyser genom hela artikeln, var ironiskt, påpekar Bem att möta en anklagelse som ofta kommer från skeptiker, påståendet att en försöksledare har använt flera statistiska test och sedan endast rapporterar de som gav signifikanta resultat. Tyvärr, när man har att göra med Alcock, går ingen bra tanke ostraffad – han missförstår och vänder till kritik, menar Bem.
Adrian Parkers allmänna kommentar: Problemet är närmast psykologisk snarare än vetenskaplig: om en kollega utför ett experiment är vederbörande mer benägen att tro på detta
resultat än på tio andra till synes välgjorda experiment.
Det verkar för mig, GB, vara i ganska elementära metodfrågor som Alcock menar att Bem har gjort fel. Debatten blir blandad då Bem är driven, van och får stöd av andra kunniga statistiker, bl a Jessica Utts, samtidigt som sakliga påpekanden blandas med olika slag av förolämpningar. Det kan vara så att Bem är lite väl kortfattad i detaljer i sin redovisning av försöken, men jag lutar åt att kritikerna än en gång till varje pris vill hitta bortförklaringar, så att de slipper konfronteras med ett ev. stöd för prekognition. Bem bemöter, tycker jag, kritiken på ett adekvat sätt. Men helt klart är åsikterna delade, även bland svenska parapsykologer.
Utförligare kommentarer, se notis 128.
Referenser: Radin, R. (1997). The Noetic Universe (tidigare The conscious universe).