Упс! Ипак, у психолошкој науци нема „кризе поновљивости“

Када имате истраживачки пројекат - Опен Сциенце Цоллаборатион (ОСЦ) - који укључује 270 научника који раде на револуционарној науци, надали бисте се да ће неке од основа исправити. Попут дизајнирања рандомизиране студије која је методолошки била исправна и могла би да поднесе надзор над вршњацима.

Али, чини се да је револуционарни чланак који су у августу 2015. године објавила 44 истраживача „Процена поновљивости психолошке науке“ (Носек и сар., 2015) имао неколико значајних недостатака. Нови чланак сугерише да заправо у психологији заправо нема „кризе поновљивости“.

Четири истраживача са Универзитета Харвард и Универзитета Виргиниа (Гилберт ет ал., 2016) објавили су своја открића у Наука (на њиховој веб локацији за репродукцију психологије налазе се сви подаци и материјали). Они верују да су у оригиналној студији пронашли три велике статистичке грешке које доводе у питање његове налазе. Нови истраживачи тврде, „Заправо, докази се подударају са супротним закључком - да је поновљивост психолошке науке прилично висока и да се, у ствари, статистички не може разликовати од 100%.“

Упс.

Оригинална студија (Носек и сар., 2015) покушала је да репродукује налазе из 100 експеримената забележених у радовима објављеним 2008. године у три високо рангирана часописа о психологији. Прва критика студије је што ово није био случајни избор студија психологије. Уместо тога, група Носек ограничила је свој избор студија на само три часописа који представљају бедне две дисциплине психологије, изостављајући главна подручја попут развојне и клиничке психологије. Тада су Носек и сар. користили сложени сет произвољних правила и критеријума који су заправо дисквалификовали више од 77 процената студија из три часописа која су прегледали.

Истраживање које започиње пристрасним узорком сигурно ће имати проблема. Не започињући са рандомизованим узорком, истраживачи су већ помогли да се поставе темеље за њихова разочаравајућа открића.

Променимо (значајно) студије које реплицирамо

Још горе од започињања пристрасног, нерандомизираног узорка било је како су истраживачи заправо спроводили репликације. Прво, истраживачи су позвали „одређене тимове да реплицирају одређене студије или су им дозволили да одаберу студије које желе да реплицирају“. Уместо да насумично додељују истраживаче студијама које ће се реплицирати, они омогућавају истраживачима да бирају - уносећи пристрасност сваког истраживача, да би можда изабрали студије за које су мислили да ће најмање бити поновљене.

Нове студије су се понекад значајно разликовале од старих студија које су покушавали да пресликају. Ево само једног (од најмање десетак) примера како је поновљена студија довела до значајних компликација:

У другој студији, бели студенти са Универзитета Станфорд гледали су видео снимак четворице других студената са Станфорда који расправљају о политикама пријема на свом универзитету (Цросби, Монин и Рицхардсон, 2008). Три дискутанта били су бели, а један црнац. Током дискусије, један од белих ученика дао је увредљиве коментаре о афирмативној акцији, а истраживачи су открили да су посматрачи знатно дуже гледали црног ученика када су веровали да може да чује коментаре осталих него кад није могао. Иако су учесници у студији репликације били студенти на Универзитету у Амстердаму, гледали су исти видео снимак студената Станфорда који су разговарали (на енглеском!) О пријемним политикама Станфорда.

Да ли би студенти на амстердамском универзитету заиста могли да схвате која је афирмативна акција у Америци уопште била, с обзиром на значајне културне разлике између америчког и амстердамског друштва? Зачудо, истраживачи који су спровели репликацију рекли су да су студије „практично идентичне“ (и, наравно, пристрасне су да то кажу, јер је њихов студија). Ипак, првобитни истраживачи, препознајући значајне културне разлике у две популације, нису подржали нову студију репликације.

Гилберт и његове колеге пронашли су овакав проблем не само у једном, већ у многим студијама репликације. Чини се чудним да су Носек и сар. сматрали су да овакве недоследности неће утицати на квалитет студије (или „верност“, како то истраживачи називају). Ипак, ово су значајне квалитативне разлике које би сигурно утицале на поновљивост студије.

Треба нам више снаге!

Студија може стајати или пасти на свом дизајну. И кључни део дизајна истраживачке студије је његов снага. Студија репликације користила је дизајн који је вероватно од почетка био осуђен на пропаст. Дизајни мале снаге не могу да прикупе величине ефеката које могу да имају студије веће снаге. Одабиром дизајна мале снаге, Носек и колеге су практично осигурали своја негативна открића пре него што су сакупили једну тачку података.

Носек и колеге изнели су неколико аргумената за избор дизајна, које су Гилберт и сарадници. оборени један по један у њиховом одговору. Закључак Гилберта и његових колега?

Укратко, ниједан од аргумената [које су дали истраживачи репликације] не оспорава чињеницу да су аутори [нове студије] користили дизајн са малим погоном и да је (као што показују наше анализе података МЛ2014) ово вероватно довело до бруто потцењивање стварне стопе репликације у њиховим подацима.

Други истраживачи психологије спровели су сличан експеримент репликације још 2014. године (Клеин ет ал., 2014). Користећи снажни дизајн, открили су да се већина студија психологије које су испитивали понови - 11 од 13 експеримената је поновљено. Да би тестирали утицај дизајна слабије снаге Носек и сар., Гилберт и сар. проценио је да је стопа репликације студије из 2014. пала са 85 на 34 процента. Значајна и знаковита разлика.

Па шта заиста знамо о поновљивости психолошке науке?

Више него што смо мислили. С обзиром на критике Гилберта и других и невероватне реакције оригиналних истраживача, изгледа вероватније да су Носек и др. студија је била критички мањкава.

Чини се да је психолошка наука поновљивија него што смо мислили - добре вести и за науку и за психологију.

Референце

Гилберт, Д., Кинг, Г., Петтигрев, С. и Вилсон, Т. (2016). Коментар на „Процена поновљивости психолошке науке“. Наука, 351, 1037а-1037б.

Гилберт и др. (2016). Одговор на одговор нашег техничког коментара на тему „Процена поновљивости психолошке науке“.

Клеин, РА, Ратлифф, М Вианелло, РБ Адамс Јр, Ш Бахник, МЈ Бернстеин, ет ал. (2014). Истраживање варијација у репликацији: Пројекат репликације „Много лабораторија“. Социјална психологија, 45, 142-152

Носек и сар. & Отворена научна сарадња. (2015). Процена поновљивости психолошке науке. Наука, 349. ДОИ: 10.1126 / сциенце.аац4716

Носек и сар. (2016). Одговор на коментар о „Процењивању поновљивости психолошке науке“. Наука, 351, 1037. ДОИ: 10.1126 / сциенце.аад9163

!-- GDPR -->