Çoğaltma krizi - Replication crisis

Çoğaltma krizi (diğer adıyla Tekrarlanabilirlik krizi ve tekrarlanabilirlik kriz ) devam eden bir olan metodolojik birçok bilimsel çalışmaların sonuçları çok zor veya imkansız olduğu tespit edildiği kriz yeniden . Ampirik sonuçların tekrarlanabilirliği bilimsel yöntemin önemli bir parçası olduğu için , bu tür başarısızlıklar, onlara dayanan teorilerin ve potansiyel olarak bilimsel bilginin önemli bölümlerinin güvenilirliğini baltalar.

Çoğaltma krizi , klasik sonuçları yeniden araştırmak, hem güvenilirliklerini hem de güvenilmez bulunursa başarısızlığın nedenlerini belirlemek için büyük çaba sarf edilen sosyal ve tıp bilimlerini en ciddi şekilde etkiler . Anket verileri, tüm doğa bilimlerinin de etkilendiğini güçlü bir şekilde göstermektedir .

"Çoğaltma krizi" ifadesi, sorunla ilgili artan farkındalığın bir parçası olarak 2010'ların başında ortaya çıktı. Sebepler ve çözümlerle ilgili düşünceler , ampirik araştırma uygulamasını incelemek için ampirik araştırma yöntemlerini kullanan metabilim adı verilen yeni bir bilimsel disiplinin doğmasına yol açmıştır .

Ampirik araştırma hem veri elde etmeyi hem de analiz etmeyi içerdiğinden, tekrarlanabilirliği ile ilgili düşünceler iki kategoriye ayrılır. Bir çalışmada elde edilen verilerin analizinin ve yorumunun geçerliliği, dar anlamda tekrarlanabilirlik terimi altında çalışır ve hesaplamalı bilimlerde derinlemesine tartışılır . Orijinal bir çalışma ile aynı veya benzer sonuçlara ulaşmak amacıyla yeni, bağımsız veriler elde etmek için deney veya gözlemsel çalışmayı tekrarlama görevine replikasyon denir .

Kapsam

Etraflı

Nature tarafından yürütülen 1.500 bilim insanının 2016'da yaptığı bir anket, bunların %70'inin en az bir başka bilim insanının deneyini yeniden üretemediğini bildirdi ( kimyacıların %87'si , biyologların %77'si , fizikçilerin ve mühendislerin %69'u , tıp araştırmacılarının %67'si , Dünya ve çevre bilimcilerinin %64'ü ve diğerlerinin %62'si), %50'si kendi deneylerinden birini yeniden oluşturmayı başaramadı ve çalışmalarını yeniden üretemeyen başka bir araştırmacı %20'den daha azıyla temasa geçti. Yalnızca bir azınlık bir çoğaltma yayınlama girişiminde bulunmuş ve %24'ü başarılı bir çoğaltma yayınlayabilmişken, yalnızca %13'ü başarısız bir çoğaltma yayınlamıştı ve başarısız çoğaltmalar yayınlayan birkaç katılımcı, editörlerin ve gözden geçirenlerin oynamalarını talep ettiğini belirtti. orijinal çalışmalarla aşağı karşılaştırmalar. 2009 yılında, bilim insanlarının %2'si en az bir kez araştırmaları tahrif ettiğini, %14'ü ise bunu yapan birini şahsen tanıdığını kabul etti. Bir araştırmaya göre, bu tür suistimaller tıp araştırmacıları tarafından diğerlerinden daha sık rapor edildi. 2021'de yapılan bir araştırma, önde gelen dergilerdeki tekrarlanamayan bulgulara sahip makalelerin , tekrarlanabilir bilimden daha fazla alıntı yapma eğiliminde olduğunu buldu . Yeniden üretilemez şekilde yayınlanan veya yeterince şeffaf olmayan bir şekilde yayınlanan sonuçların yanlış olma olasılığı daha yüksektir ve ilerlemeyi yavaşlatabilir. Yazarlar da bu duruma olası açıklamalar getirmişlerdir.

psikolojide

Psikolojiyi tartışmanın merkezine koymak için çeşitli faktörler bir araya geldi. 2018'de 200 meta-analizden oluşan bir ankete göre, "psikolojik araştırmalar ortalama olarak düşük istatistiksel güçten etkileniyor". Klinik psikoloji , gelişim psikolojisi ve eğitim araştırmaları gibi diğer psikoloji alanları da dahil edilmiş olsa da , odağın çoğu sosyal psikoloji alanında olmuştur.

İlk olarak, şüpheli araştırma uygulamaları (QRP'ler) alanda yaygın olarak tanımlanmıştır. Bu tür uygulamalar, kasıtlı olarak hileli olmamakla birlikte, kabul edilebilir bilimsel uygulamaların gri alanından yararlanmayı veya genellikle istenen bir sonucu elde etme çabasıyla veri toplama, analiz ve raporlamadaki esneklikten yararlanmayı içerir. QRP'lerin örnekleri arasında , verilerin seçici raporlaması veya kısmi yayınlanması (bir yayında yalnızca bazı çalışma koşullarının veya toplanan bağımlı ölçümlerin rapor edilmesi), isteğe bağlı durdurma ( genellikle testlerin istatistiksel önemine dayalı olarak veri toplamanın ne zaman durdurulacağının seçilmesi ), post-hoc yer alır. hikaye anlatımı (keşif analizlerini doğrulayıcı analizler olarak çerçeveleme) ve aykırı değerlerin manipülasyonu ( bir istatistiksel testin anlamlı olmasına neden olmak için aykırı değerlerin kaldırılması veya bir veri kümesinde aykırı değerlerin bırakılması). 2.000'den fazla psikologla yapılan bir anket, katılımcıların çoğunluğunun en az bir QRP kullanmayı kabul ettiğini göstermiştir. Yayın yanlılığı yükseltilmiş bir sayıya yol (Bölüm aşağıdaki "nedenler") yalancı pozitif sonuçların. Yazarın kendi doğrulama yanlılığının yanı sıra yayınlama baskısı da artar ve okuyucular tarafında belirli bir derecede şüphecilik gerektiren, alanın doğasında bulunan bir tehlikedir .

İkincisi, özellikle psikoloji ve sosyal psikoloji, kendisini düpedüz dolandırıcılık araştırmalarını içeren çeşitli skandalların , özellikle de Diederik Stapel tarafından kabul edilen veri fabrikasyonunun yanı sıra diğerlerine karşı iddiaların merkezinde bulmuştur . Bununla birlikte, çoğu bilim adamı, sahtekarlığın, belki de, tekrarlama krizlerine daha az katkı sağladığını kabul ediyor.

Üçüncüsü, psikoloji bilimindeki bazı etkilerin, mevcut kopyalama krizinden önce bile tekrarlanmasının zor olduğu bulunmuştur. Örneğin, Judgment and Decision Making adlı bilimsel dergi , yıllar içinde bilinçsiz düşünce teorisine destek sağlamayan birçok çalışma yayınladı . Araştırma denemeleri önceden kayıt edildiğinde ve sorgulanan teoriye yüksek oranda yatırım yapmayan araştırma grupları tarafından yürütüldüğünde, tekrarlamalar özellikle zor görünmektedir.

Bu üç unsur birlikte, psikolog Daniel Kahneman tarafından desteklenen tekrarlama için yeniden ilgiyle sonuçlandı . Birçok etkinin incelenmesi, birkaç temel inancın tekrarlanmasının zor olduğunu göstermiştir. Sosyal Psikoloji dergisinin 2014'teki özel baskısı , çoğaltma çalışmalarına odaklandı ve daha önce sahip olunan bir dizi inancın çoğaltılmasının zor olduğu bulundu. Perspectives on Psychological Science dergisinin 2012'deki özel bir baskısı, aynı zamanda, psikolojideki tekrarlama krizlerine katkıda bulunan yayın yanlılığından sıfırdan kaçınmaya kadar değişen konulara odaklandı. 2015 yılında, psikolojide tekrarlanabilirliğe ilişkin ilk açık ampirik çalışma , Yeniden Üretilebilirlik Projesi adı altında yayınlandı . Dünyanın dört bir yanından araştırmacılar, en iyi üç psikoloji dergisinden 100 ampirik çalışmayı çoğaltmak için işbirliği yaptı. Denenen yinelemelerin yarısından azı, beklenen yönlerde istatistiksel olarak anlamlı sonuçlar üretmede başarılı oldu, ancak denenen yinelemelerin çoğu beklenen yönlerde eğilimler üretti.

Birçok araştırma denemesi ve meta-analiz, hem yazarları hem de profesyonel savunuculuk örgütlerini içeren düşük kalite ve çıkar çatışmaları nedeniyle tehlikeye girer ve belirli psikoterapi türlerinin etkinliğine ilişkin birçok yanlış pozitif sonuç verir .

İngiliz gazetesi The Independent , yeniden üretilebilirlik projesinin sonuçlarının, yayınlanan araştırmaların çoğunun sadece " psiko-gevezelik " olduğunu gösterdiğini yazsa da , çoğaltma krizi mutlaka psikolojinin bilimsel olmadığı anlamına gelmez. Daha ziyade bu süreç, eski fikirlerin veya dikkatli bir incelemeye dayanamayanların budandığı bilimsel sürecin bir parçasıdır, ancak bu budama süreci her zaman etkili değildir. Sonuç olarak, sosyal hazırlama gibi bir zamanlar sağlam olarak kabul edilen psikolojinin bazı alanları, başarısız tekrarlar nedeniyle artan bir incelemeye tabi tutulmuştur.

Nobel ödüllü ve emekli psikoloji profesörü Daniel Kahneman , orijinal yazarların çoğaltma çabasına dahil edilmesi gerektiğini çünkü yayınlanan yöntemlerin genellikle çok belirsiz olduğunu savundu. Andrew Wilson gibi diğerleri, yöntemlerin ayrıntılı olarak yazılması gerektiğini savunarak aynı fikirde değiller. 2012 yılında psikolojide tekrarlama oranlarının araştırılması, bir çalışmanın orijinal yazarları ile yazar örtüşmesi olduğunda tekrarlama çalışmalarında daha yüksek başarı oranları olduğunu göstermiştir (yazar çakışması olan çalışmalarda %91.7 başarılı tekrarlama oranları, yazarsız başarılı tekrarlama oranlarına kıyasla %64,6'dır). üst üste gelmek).

Tekrarlama krizine odaklanmak, disiplinde önemli bulguları yeniden test etmek için yenilenen diğer çabalara yol açmıştır. Yayın yanlılığı ve p- hack ile ilgili endişelere yanıt olarak , 140'tan fazla psikoloji dergisi, çalışmaların bulgularına dayanarak ve çalışmalar tamamlandıktan sonra değil, çalışmalar yapılmadan önce ve sonrasında kabul edildiği sonuç körü akran değerlendirmesini benimsemiştir . Deneysel tasarımlarının metodolojik titizliğinin temeli ve veri toplama veya analiz yapılmadan önce istatistiksel analiz teknikleri için teorik gerekçeler. Bu prosedürün erken analizi, sonuç-kör çalışmaların yüzde 61'inin , daha önceki araştırmalardaki tahmini yüzde 5 ila 20'nin aksine, sıfır sonuçlara yol açtığını tahmin etmiştir. Ayrıca, farklı ülkelerdeki birden fazla laboratuvarda çalışan ve verilerini düzenli olarak farklı araştırmacıların değerlendirmesine açık hale getiren araştırmacılar arasındaki büyük ölçekli işbirlikleri, bu alanda çok daha yaygın hale geldi.

Psikoloji tekrarlama oranları

Brian Nosek tarafından koordine edilen Ağustos 2015'te Open Science Collaboration tarafından hazırlanan bir rapor , psikoloji bilimlerinde üç yüksek dereceli psikoloji dergisinden 100 çalışmanın tekrarlanabilirliğini tahmin etti. Genel olarak, önemli etkileri olan orijinal çalışmaların %97'sine kıyasla , tekrarların %36'sı önemli bulgular vermiştir ( p değeri 0.05'in altında). Tekrarlardaki ortalama etki büyüklüğü , orijinal çalışmalarda bildirilen etkilerin büyüklüğünün yaklaşık yarısı kadardı.

Aynı makale tekrarlanabilirlik oranlarını ve etki büyüklüklerini dergi ( Journal of Personality and Social Psychology [JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition [JEP:LMC], Psychological Science [PSCI]) ve disipline ( sosyal psikoloji , gelişim psikolojisi ). Çalışma tekrarlama oranları JPSP için %23, JEP:LMC için %48 ve PSCI için %38 idi. Bilişsel psikoloji alanındaki çalışmaların tekrarlama oranı (%50), sosyal psikoloji alanındaki çalışmalara (%25) göre daha yüksektir.

1900 ile 2012 yılları arasındaki ilk 100 psikoloji dergisindeki yayın geçmişinin bir analizi, tüm psikoloji yayınlarının yaklaşık %1.6'sının tekrarlama girişimleri olduğunu göstermiştir. Metinde "çoğaltma" terimi varsa, makaleler bir çoğaltma girişimi olarak kabul edildi. Bu çalışmaların bir alt kümesi (500 çalışma) daha ileri inceleme için rastgele seçildi ve %1,07'lik daha düşük bir tekrarlama oranı verdi (500 çalışmanın 342'si [%68,4] aslında tekrarlardı). 500 çalışmanın alt kümesinde, analiz, yayınlanan çoğaltma girişimlerinin %78,9'unun başarılı olduğunu gösterdi.

2018 yılında yayınlanan bir çalışmada Doğa İnsan Davranışının 21 sosyal bilimler ve davranış bilimleri kağıtları çoğaltmak için aranan Doğa ve Bilim , sadece 13 başarılı çoğaltılmış olabileceğini bulma. Benzer şekilde, Açık Bilim Merkezi himayesinde yürütülen bir çalışmada , 60 farklı laboratuvardan (6 farklı kıtadan 36 farklı milleti temsil eden) 186 araştırmacıdan oluşan bir ekip, psikolojideki 28 klasik ve çağdaş bulgunun replikalarını gerçekleştirdi. Çalışmanın odak noktası yalnızca orijinal makalelerdeki bulguların tekrarlanıp tekrarlanmadığı değil, aynı zamanda örneklerin ve bağlamlardaki varyasyonların bir fonksiyonu olarak bulguların ne ölçüde değiştiği üzerineydi. Genel olarak, 28 bulgunun 14'ü, büyük örneklem boyutlarına rağmen tekrarlanamadı. Bununla birlikte, bir bulgu çoğaltılırsa, çoğu örnekte kopyalanırken, bir bulgu kopyalanmadıysa örnekler ve bağlamlar arasında çok az değişiklikle kopyalanamadı. Bu kanıt, psikolojide tekrarlamadaki başarısızlıkların muhtemelen orijinal ve tekrarlama çalışması arasındaki örneklemdeki değişikliklerden kaynaklandığına dair popüler bir açıklama ile tutarsızdır.

Disiplinli bir sosyal ikilem

Brian D. Earp ve Jim AC Everett, psikolojide kopyalamayı engelleyen sosyal yapıyı vurgulayarak, çoğaltma girişimlerinin neden yaygın olmadığı konusunda beş noktayı sıraladı:

  1. "Başkalarının bulgularının bağımsız, doğrudan kopyalanması, kopyalayan araştırmacı için zaman alıcı olabilir"
  2. "[Çoğaltmalar], kişinin kendi özgün düşüncesini yansıtan diğer projelerden doğrudan enerji ve kaynakları alması muhtemeldir"
  3. "[Çoğaltmaların] yayımlanması genellikle daha zordur (büyük ölçüde orijinal olmadıkları düşünüldüğünden)"
  4. "[Çoğaltmalar] yayınlansa bile, alana büyük katkılardan ziyade 'duvar örme' alıştırmaları olarak görülmeleri muhtemeldir"
  5. "[Çoğaltmalar] yazarlarına daha az tanınma ve ödül ve hatta temel kariyer güvenliği getiriyor"

Bu nedenlerle yazarlar, psikolojinin disiplinin çıkarlarının bireysel araştırmacının çıkarlarıyla çatıştığı bir disiplin sosyal ikilemiyle karşı karşıya olduğunu savundular.

"Metodolojik terörizm" tartışması

Psikolojinin tekrarlama krizinin dikkat çekmesiyle , Princeton Üniversitesi psikoloğu Susan Fiske , psikoloji eleştirmenlerini çağırdığı için tartışmalara yol açtı. Kimliği belirsiz bu "düşmanları" "metodolojik terörist" ve "kendi kendini tayin etmiş veri polisi" gibi isimlerle etiketleyerek, psikolojiye yönelik eleştirilerin ancak özel olarak veya dergilerle iletişime geçilerek ifade edilmesi gerektiğini söyledi. Columbia Üniversitesi istatistikçisi ve siyaset bilimci Andrew Gelman , Fiske'ye, hatalı istatistiklerin "ölü paradigmasına" tahammül etmeye istekli olduğunu ve hatalara işaret edildiğinde bile yayınları geri çekmeyi reddettiğini söyleyerek yanıt verdi. Editör olarak görev süresinin berbat olduğunu ve editörlüğünü yaptığı bir dizi yayınlanmış makalenin son derece zayıf istatistiklere dayandığını ekledi; Fiske'nin kendi yayınlanmış makalelerinden birinde büyük bir istatistiksel hata ve "imkansız" sonuçlar vardı.

Eczanede

1990-2003 yılları arasında 1000'den fazla alıntı yapılan 49 tıbbi araştırmadan 45'i çalışılan tedavinin etkili olduğunu iddia etti. Bu çalışmaların %16'sı sonraki çalışmalarla çelişti, %16'sı sonraki çalışmalardan daha güçlü etkiler buldu, %44'ü tekrarlandı ve %24'ü büyük ölçüde tartışmasız kaldı. ABD Gıda ve İlaç İdaresi , 1977-1990 yıllarında tıbbi çalışmaların %10-20'sinde kusurlar buldu. 2012 yılında yayınlanan bir makalede , Amgen'de çalışan bir biyoteknoloji danışmanı olan C. Glenn Begley ve Texas Üniversitesi'nden Lee Ellis, 53 klinik öncesi kanser çalışmasının sadece %11'inin tekrarlanabileceğini buldu. Tekrarlanamayan çalışmaların bir dizi ortak özelliği vardı; çalışmaların deneye karşı kontrol kollarına karşı kör olan araştırmacılar tarafından yapılmaması, deneylerin tekrarlanmaması, pozitif ve negatif kontrollerin olmaması, tüm verilerin gösterilememesi gibi. , istatistiksel testlerin uygunsuz kullanımı ve uygun şekilde valide edilmemiş reaktiflerin kullanımı.

Kanser araştırmacıları üzerine yapılan bir anket, bunların yarısının yayınlanmış bir sonucu yeniden üretemediğini buldu. Nature tarafından yeniden üretilebilirlik hakkında kısa bir çevrimiçi ankete katılan 1.576 araştırmacı üzerinde yapılan benzer bir anket , araştırmacıların %70'inden fazlasının başka bir bilim insanının deneylerini yeniden üretmeye çalıştığını ve başarısız olduğunu ve yarısından fazlasının kendi deneylerini yeniden üretemediğini gösterdi. "Ankete katılanların %52'si yeniden üretilebilirlikte önemli bir "kriz" olduğu konusunda hemfikir olsa da, %31'den azı yayınlanan sonuçların yeniden üretilememesinin sonucun muhtemelen yanlış olduğu anlamına geldiğini düşünüyor ve çoğu hala yayınlanmış literatüre güvendiklerini söylüyor."

Stanford Üniversitesi Tıp Fakültesi'nde Tıp ve Sağlık Araştırmaları ve Politikası Profesörü ve Stanford Üniversitesi Beşeri Bilimler ve Bilimler Fakültesi'nde İstatistik Profesörü olan John Ioannidis'in 2016 tarihli bir makalesi , "Çoğu Klinik Araştırmanın Neden Yararlı Değil" konusunu ele almıştır. Makalede, Ioannidis bazı sorunları ortaya koydu ve reform çağrısında bulundu, tıbbi araştırmaların tekrar yararlı olması için belirli noktaları karakterize etti; verdiği bir örnek, tıbbın esas olarak "hekimlerin, araştırmacıların veya sponsorların ihtiyaçlarını" karşılaması için mevcut uygulama yerine "hasta merkezli" (örneğin Hasta Merkezli Sonuçlar Araştırma Enstitüsü şeklinde ) olması gerektiğiydi. .

Pazarlamada

Pazarlama, çoğaltma için "umutsuz bir ihtiyaç" olan başka bir disiplindir. Pek çok ünlü pazarlama araştırması, çoğaltma üzerine tekrarlanmayı başaramaz; dikkate değer bir örnek, çok sayıda ürün seçeneğinin bir tüketiciyi satın alma olasılığını azalttığı " çok fazla seçenek " etkisidir. Daha önce bahsedilen argümanlara ek olarak, küreselleşmenin olası etkileri nedeniyle özellikle önemli olan teori ve modellerin ülkeler ve kültürler arasındaki uygulanabilirliğini incelemek için pazarlamada replikasyon çalışmalarına ihtiyaç duyulmaktadır .

Ekonomide

Science dergisinde 2016 yılında yapılan bir araştırma, iki üst düzey ekonomi dergisinden ( American Economic Review ve Quarterly Journal of Economics ) 18 deneysel çalışmanın üçte birinin başarılı bir şekilde kopyalanmadığını buldu. Economic Journal'da 2017'de yayınlanan bir araştırma , "ampirik ekonomi literatüründeki ortalama etkilerin çoğunluğunun en az 2 faktörle abartıldığını ve en az üçte birinin 4 veya daha fazla faktörle abartıldığını" öne sürdü.

spor biliminde

Bir 2018 çalışması, egzersiz ve spor bilimi alanını yetersiz tekrarlama çalışmaları, hem boş hem de önemsiz sonuçların sınırlı raporlaması ve yetersiz araştırma şeffaflığı için görevlendirdi. İstatistikçiler, spor bilim adamlarının sıradan hipotez testlerinin hiçbirini bulamayacağı gürültülü verilerden görünüşte önemli sonuçlar elde etmelerine olanak tanıyan " büyüklüğe dayalı çıkarım " adı verilen tartışmalı bir istatistiksel yöntemin ortak kullanımı için spor bilimini eleştirdiler .

Su kaynakları yönetiminde

Scientific Data'da 2019 yılında yapılan bir araştırma, su kaynakları ve yönetimi dergilerinde yalnızca az sayıda makalenin yeniden üretilebileceğini, ancak makalelerin çoğunun veri bulunmaması nedeniyle çoğaltılamadığını öne sürdü . Çalışma, %95 güvenle "sonuçların tüm 1.989 makalenin yalnızca %0.6 ila %6.8'i için yeniden üretilebileceğini" tahmin etti.

Siyasi yansımalar

ABD'de, bilimin yeniden üretilebilirlik krizi, düzenlemeleri azaltma girişimiyle bağlantılı bir siyasi çekişme konusu haline geldi - örneğin kirleticilerin emisyonları, bu düzenlemelerin yeniden üretilemez bilime dayandığı iddiasıyla. Aynı amaçla önceki girişimler, düzenleyiciler tarafından kullanılan çalışmaları şeffaf olmamakla suçladı.

Kamu bilinci ve algıları

Bilim camiasında, başarısız tekrarlar nedeniyle genel halkın bilimi daha az güvenilir bulabileceğine dair endişeler dile getirildi. Bu endişeyi destekleyen araştırmalar azdır, ancak Almanya'da ulusal olarak temsili bir anket, Almanların %75'inden fazlasının bilimde kopyalama başarısızlıklarını duymadığını göstermiştir. Çalışma ayrıca çoğu Alman'ın kopyalama çabalarına ilişkin olumlu algılara sahip olduğunu buldu: Yalnızca %18'i kopyalanamazlığın bilime güvenilemeyeceğini gösterdiğini düşünürken, %65'i çoğaltma araştırmasının bilimin kalite kontrolünü uyguladığını gösterdiğini düşünüyor ve %80'i hataların ve düzeltmeler bilimin bir parçasıdır.

nedenler 

Düşük tekrarlanabilirliğin önemli bir nedeni, yayın yanlılığı ve seçim yanlılığıdır , sırayla, istatistiksel olarak önemsiz sonuçların nadiren yayınlanması veya birden fazla potansiyel etki üzerine yayınlarda tartışılması gerçeğinden kaynaklanır. Var olmayan (veya çok küçük) potansiyel etkiler arasında, istatistiksel testler %5 olasılıkla (olağan düzeyde) önem gösterir. Önemli sonuçlar için bir kovalamaca içinde bu tür çok sayıda etki taranırsa, bu hatalı olarak anlamlı olanlar uygun bulunanları sular altında bırakır ve yalnızca %5 olasılıkla (hala hatalı olarak) başarılı çoğaltmalara yol açar. Bu tür çalışmaların artan bir oranı, bu nedenle, makul bir şekilde ilgili etkilerin çalışmalarına karşılık gelen tekrarlama oranını kademeli olarak düşürür. Veri tarama veya P-hacking , HARKing ve araştırmacı serbestlik dereceleri olarak adlandırılan veri analizindeki şüpheli uygulamalardan da hatalı olarak önemli sonuçlar gelebilir .

C. Glenn Begley ve John Ioannidis , önem arayışındaki artış için şu nedenleri öne sürdüler :

  • Eşi görülmemiş bir oranda yeni veri/yayın üretimi.
  • Bu keşiflerin çoğu zamanın testine dayanamayacak.
  • İyi bilimsel uygulamalara bağlı kalmama ve yayınlama ya da yok olma çaresizliği .
  • Çok çeşitli paydaşlar.

Hiçbir tarafın tek başına sorumlu olmadığı ve tek bir çözümün yeterli olmayacağı sonucuna varıyorlar.

Bu sorunlar, yanlış gerçeklerin kanonlaştırılmasına yol açabilir.

Aslında, bilimin kalite kontrol mekanizmasında yaklaşan bir krizle ilgili bazı tahminler, özellikle bilim ve teknoloji araştırmalarındaki (STS) akademisyenler arasında, birkaç on yıl öncesine kadar izlenebilir . Scientometrics'in babası olarak kabul edilen Derek de Solla Price , bilimin kendi üstel büyümesinin bir sonucu olarak 'yaşlılığa' ulaşabileceğini öngördü. Günümüz edebiyatının bir kısmı, hem dikkat hem de kalitedeki düşüşten yakınarak bu "taşma" kehanetini haklı çıkarıyor gibi görünüyor.

Filozof ve bilim tarihçisi Jerome R. Ravetz , 1971 tarihli Bilimsel Bilgi ve Sosyal Sorunları adlı kitabında bilimin – izole araştırmacı topluluklarından oluşan “küçük” bilimden “büyük” bilime veya “tekno-bilime” ilerleyişinde – iç kalite kontrol sisteminde büyük sorunlar yaşayacaktır. Ravetz, modern bilim adamları için teşvik yapısının işlevsiz hale gelebileceğini, şimdi mevcut 'yayınla ya da yok ol' mücadelesi olarak bilinen , şüpheli olsa da herhangi bir bulguyu yayınlamak için sapkın teşvikler yaratabileceğini fark etti. Ravetz'e göre, bilimde kalite, yalnızca bir dizi ortak norm ve standartla birbirine bağlı, hepsi birbirini sorumlu tutmaya istekli ve yetenekli bir bilim adamları topluluğu olduğunda korunur.

Tarihçi Philip Mirowski , 2011 tarihli Science Mart (2011) kitabında benzer bir teşhis önerdi . Başlıkta, 'Mart' kelimesi, Mirowski tarafından bilimin metalaştırılması için bir metafor olarak kullanılan perakende devi 'Walmart'a atıfta bulunuyor. Mirowski'nin analizinde, bir piyasada işlem gören bir meta haline geldiğinde bilimin kalitesi çöker. Mirowski, bilimin çöküşünün izini büyük şirketlerin kendi laboratuvarlarını kapatma kararlarına kadar takip ederek davasını savunuyor. Maliyetleri azaltmak ve karları artırmak için çalışmalarını üniversitelere yaptırdılar. Şirketler daha sonra araştırmalarını üniversitelerden daha ucuz bir seçeneğe, Sözleşmeli Araştırma Kuruluşlarına (CRO) taşıdı.

Bilimin kalite kontrol sisteminin krizi, bilimin politika için kullanımını etkiliyor. Bu, 'kanıta dayalı (veya bilgilendirilmiş) politika'da mevcut bir gerilim noktası belirleyen bir grup KH bilimcisi tarafından yakın zamanda yapılan bir çalışmanın tezidir. Ekonomist Noah Smith, krizdeki bir faktörün, akademideki araştırmalara aşırı değer verilmesi ve özellikle son zamanlarda birkaç büyük keşfin olduğu alanlarda öğretme becerisine gereken değerin verilmemesi olduğunu öne sürüyor.

Sosyal sistem teorisi, Alman sosyolog Niklas Luhmann'a bağlı olarak krizin başka bir okumasını sunuyor. Bu teoriye göre 'ekonomi', 'bilim', 'din', 'medya' vb. sistemlerin her biri kendi kodunu kullanarak iletişim kurar, bilim için doğru/yanlış, ekonomi için kâr/zarar, yeni/hayır- medya için haberler; bazı sosyologlara göre, bilimin medyatizasyonu, metalaşması ve siyasallaşması - sistemler arasındaki yapısal eşleşmenin bir sonucu olarak, orijinal sistem kodlarının karıştırılmasına yol açmıştır. Bilimin doğru/yanlış kodu, kar/zarar, haber/habersizlik gibi diğer sistemlerin kodları ile değiştirilirse, bilimin işleyişi bir iç krize girer.

Açık veriler, açık kaynaklı yazılımlar ve açık kaynaklı donanımların tümü, yeniden üretilebilirliği sağlamak için kritik öneme sahiptir. Tescilli yazılımların kullanılması, analiz yazılımlarının yayımlanmaması ve açık verilerin olmaması, çalışmaların tekrarlanmasını engellemektedir. Araştırmada kullanılan yazılımlar açık kaynak olmadığı sürece, farklı yazılım ve donanım konfigürasyonları ile sonuçların yeniden üretilmesi mümkün değildir. CERN , verileri, ilgili tüm bilgileri ve LHC'nin büyük deneylerinde bir analizi korumak için gereken tüm yazılım ve araçları depolamak için hem Açık Veri hem de CERN Analizi Koruma projelerine sahiptir . Tüm yazılım ve verilerin yanı sıra, korunan analiz varlıkları, analiz iş akışının, ilgili yazılımların, sistematik belirsizliklerin, istatistik prosedürlerinin ve analizi aramak için anlamlı yolların yanı sıra yayınlara ve yedek materyale referansların anlaşılmasını sağlayan meta verileri içerir. CERN yazılımı açık kaynak kodludur ve parçacık fiziğinin dışında kullanım için mevcuttur ve çağdaş parçacık fiziğinde açık bilim için kullanılan geniş yaklaşımlar ve stratejiler hakkında diğer alanlara sağlanan bazı rehberlik vardır.

Cevap 

Çoğaltma "bilimin temel taşı" olarak anılır olmuştur. Replikasyon çalışmaları, yayınlanan sonuçların doğru bulguları mı yoksa yanlış pozitifleri mi yansıttığını değerlendirmeye çalışır. Bilimsel bulguların bütünlüğü ve araştırmanın tekrarlanabilirliği, gelecekteki çalışmaların üzerine inşa edileceği bilgi temelini oluşturdukları için önemlidir.

metabilim

Metabilim, bilimin kendisini incelemek için bilimsel metodolojinin kullanılmasıdır . Metascience, israfı azaltırken bilimsel araştırmaların kalitesini artırmayı amaçlar. Ayrıca "olarak bilinen araştırma araştırma " ve " bilimin bilim kullandığı gibi" araştırma yöntemlerini nasıl çalışma araştırma iyileştirmeler yapılabilir yapılır ve nerede. Metabilim, tüm araştırma alanlarıyla ilgilenir ve "bilime kuşbakışı bir bakış" olarak tanımlanır. John Ioannidis'in sözleriyle , "Bilim, insanların başına gelen en iyi şeydir ... ama daha iyisini yapabiliriz."

Krizin köklerini belirlemek ve bunları ele almak için meta-araştırmalar yürütülmeye devam ediyor. Krizi ele alma yöntemleri, bilimsel çalışmaların ve klinik araştırmaların ön kayıtlarının yanı sıra metodoloji ve raporlama için kılavuzlar yayınlayan CONSORT ve EQUATOR Network gibi kuruluşların kurulmasını içerir . Akademik teşvikler sisteminde reform yapmak, akran değerlendirme sürecini iyileştirmek, istatistiklerin kötüye kullanımını azaltmak, bilimsel literatürde önyargıyla mücadele etmek ve bilimsel sürecin genel kalitesini ve verimliliğini artırmak için sürekli çabalar vardır .

Çalışmaların ön kaydıyla yayın yanlılığının üstesinden gelmek

Bilimsel yayıncılıkta çoğaltma krizini ele alan son bir yenilik, kayıtlı raporların kullanılmasıdır . Kayıtlı rapor formatı, yazarların veri toplamadan önce çalışma yöntemleri ve analizlerinin bir tanımını göndermelerini gerektirir. Yöntem ve analiz planı, hakem değerlendirmesi yoluyla incelendikten sonra, yazarların önerilen protokole uyup uymadığına bağlı olarak bulguların yayınlanması geçici olarak garanti edilir. Tescilli raporların bir amacı, şüpheli araştırma uygulamalarının uygulanmasına yol açabilecek önemli bulgulara yönelik yayın yanlılığını ortadan kaldırmak ve titiz yöntemlerle çalışmaların yayınlanmasını teşvik etmektir.

Psychological Science dergisi , çalışmaların ön kaydını ve etki büyüklüklerinin ve güven aralıklarının raporlanmasını teşvik etti . Baş editör ayrıca, yazıların yayınlanmasına izin vermeden önce, editör kadrosunun, küçük örneklem büyüklüklerini kullanan incelemelerden şaşırtıcı bulgular içeren çalışmaların tekrarlanmasını isteyeceğini de kaydetti.

Ayrıca, psikoloji ve sinirbilimlerdeki akademik dergilerin yalnızca çok küçük bir kısmı, amaç ve kapsamlarında veya yazarlara yönelik yönergelerde çoğaltma çalışmalarının sunulmasını memnuniyetle karşıladıklarını açıkça belirtmiştir. Bu fenomen, raporlamayı teşvik etmez ve hatta replikasyon çalışmaları üzerinde girişimde bulunmaz.

Karmaşık bir sistem paradigmasına geçiş

Geleneksel doğrusal paradigma içinde çalışan araştırma çabalarının zorunlu olarak tekrarlama zorluklarıyla sonuçlandığı iddia edilmiştir. İncelenen sistemdeki nedensel süreçlerin "bileşen baskın" yerine "etkileşim baskın" olması, toplamsal yerine çarpımsal olması ve makro düzeyde fenomenler üreten birçok küçük doğrusal olmayan etkileşimler olması durumunda problemler ortaya çıkar. -seviye bileşenleri. Bu tür karmaşık sistemler bağlamında , geleneksel doğrusal modeller makul olmayan cevaplar üretir, çünkü prensipte Genel Doğrusal Model (GLM) çerçevesi tarafından önerildiği gibi varyansı ayrıştırmak mümkün değildir - bu nedenle böyle bir sonucu yeniden üretmeyi amaçlamak açıktır. sorunlu. Aynı sorular, araştırmacıların klasik istatistiksel yöntemlerin altında yatan varsayımları sorgulamaya başladığı birçok bilim alanında şu anda sorulmaktadır.

Öğretimde tekrarlama girişimlerinin vurgulanması

MIT, Stanford ve Washington Üniversitesi'ndeki deneysel yöntemlerle ilgili kurslara dayanarak, psikoloji ve diğer alanlardaki yöntem derslerinin orijinal çalışmalardan ziyade tekrarlama girişimlerini vurgulaması önerilmiştir. Böyle bir yaklaşım, öğrencilerin bilimsel metodolojiyi öğrenmelerine yardımcı olacak ve bilimsel bulguların tekrarlanabilirliğini test edecek anlamlı bilimsel bulguların sayısız bağımsız tekrarını sağlayacaktır. Bazıları, yüksek lisans öğrencilerinin mezuniyetten önce doktora araştırmalarıyla ilgili bir konuda yüksek kaliteli bir tekrarlama girişimi yayınlamalarının istenmesini tavsiye etti.

Yeni sonuçların önemini iddia etmek için gereken p- değerini azaltmak

Birçok yayın bir ihtiyaç p -değeri arasında p istatistiksel olarak anlamlı İstem <0.05. Çok sayıda bilim insanı ve matematikçi tarafından imzalanan "İstatistiksel önemi yeniden tanımla" makalesi, "yeni keşifler için istatistiksel anlamlılık tanımlama eşiğinin p < 0,05 olduğu alanlarda, p < 0,005 olarak bir değişiklik öneriyoruz . Bu basit adım birçok alanda bilimsel araştırmanın tekrarlanabilirliğini hemen iyileştirecektir."

Onların mantığı, "tekrar üretilemezliğin önde gelen nedenlerinden biri (budur), bilimin birçok alanında yeni keşifler iddia etmek için istatistiksel kanıt standartlarının basitçe çok düşük olmasıdır. 'İstatistiksel olarak anlamlı' bulguları p < 0.05 ile ilişkilendirmek yüksek bir oranda sonuçlanır. diğer deneysel, prosedürel ve raporlama sorunlarının yokluğunda bile yanlış pozitiflerin."

Bu çağrı daha sonra, eşiğin "yeniden tanımlanmasının" mevcut sorunları çözmeyeceğini, bazı yeni sorunlara yol açacağını ve sonunda, tüm eşiklerin değil, vaka bazında gerekçelendirilmesi gerektiğini savunan başka bir büyük grup tarafından eleştirildi. genel sözleşmelere göre.

p değerlerinin yanlış yorumlanmasını ele almak

İstatistikçiler, p < 0.05'in kullanılmasının genel olarak kabul edilenden daha zayıf kanıt sağladığı konusunda hemfikir olsalar da, bu konuda ne yapılması gerektiği konusunda fikir birliği yoktur. Bazıları Bayes yöntemlerinin p -değerlerinin yerini alması gerektiğini savundu . Bu, kısmen karmaşık olduğu için ve kısmen de birçok kullanıcının sabit verilerin yokluğunda önceki dağıtımların özelliklerine güvenmediği için geniş bir ölçekte gerçekleşmedi. Colquhoun (2014, 2017) tarafından bir sıfır noktası hipotezinin test edilmesine dayanan Bayes argümanının basitleştirilmiş bir versiyonu önerildi. Tümevarımsal çıkarımın mantıksal sorunları "P-değerleri ile ilgili sorun" (2016) bölümünde tartışılmıştır.

p = 0,001'in gözlemlenmesinin bile sıfır hipotezine karşı mutlaka güçlü bir kanıt olmadığına işaret edilerek p -değerlerine güvenmenin tehlikeleri vurgulandı . Sıfır üzerinde alternatif hipotez lehine olabilirlik oranının 100'e yakın olmasına rağmen, hipotez mantıksız olsaydı, gerçek bir etkinin önceki olasılığı 0.1 iken, p  = 0.001 gözlemi bile yanlış pozitif olurdu. risk yüzde 8 Yüzde 5 seviyesine bile ulaşamayacaktı.

"Önemli" ve "önemsiz" terimlerinin kullanılmaması önerildi. p -değerleri ve güven aralıkları yine de belirtilmelidir, ancak bunlara yanlış pozitif riskin bir göstergesi eşlik etmelidir. Bunu yapmanın en iyi yolunun, örneğin %5'lik bir yanlış pozitif risk elde etmek için inanılması gereken ön olasılığı hesaplamak olduğu öne sürüldü. Hesaplamalar, sağlanan R komut dosyalarıyla veya daha basit bir şekilde bir web hesap makinesiyle yapılabilir. Matthews (2001) tarafından önerilen bu sözde ters Bayes yaklaşımı, önceki olasılığın nadiren bilinmesi probleminden kaçınmanın bir yoludur.

Daha büyük örnek boyutlarının teşvik edilmesi

Tekrarlamaların kalitesini artırmak için , genellikle orijinal çalışmada kullanılanlardan daha büyük örneklem boyutlarına ihtiyaç duyulur. Yayın yanlılığı ve orijinal bir çalışmada küçük örneklem boyutlarıyla ilişkili büyük örnekleme değişkenliği nedeniyle yayınlanmış çalışmadaki etki boyutlarının tahminleri genellikle abartıldığı için daha büyük örnek boyutları gereklidir . Ayrıca, anlamlılık eşiklerinin kullanılması genellikle şişirilmiş etkilere yol açar, çünkü özellikle küçük örneklem boyutlarıyla yalnızca en büyük etkiler anlamlı hale gelecektir.

Çevrimiçi depolarda ham verileri paylaşma

Verilerin, protokollerin ve bulguların saklanabileceği ve halk tarafından değerlendirilebileceği çevrimiçi havuzlar, araştırmanın bütünlüğünü ve tekrarlanabilirliğini iyileştirmeye çalışır. Bu tür depolara örnek olarak Açık Bilim Çerçevesi , Araştırma Veri Depoları Kayıt Defteri ve Psychfiledrawer.org verilebilir. Açık Bilim Çerçevesi gibi siteler, bilim insanlarını teşvik etmek amacıyla açık bilim uygulamalarını kullanmak için rozetler sunar. Bununla birlikte, analizler için verilerini ve kodlarını sağlama olasılığı en yüksek olan kişilerin, muhtemelen en karmaşık araştırmacılar olduğu endişesi vardır. Stanford Üniversitesi'nden John Ioannidis, "en titiz ve sofistike ve yöntem konusunda bilgili ve dikkatli araştırmacıların, bu hatalar ne kadar önemsiz olursa olsun, hataları arayan yeniden analizciler tarafından eleştiri ve itibar saldırılarına karşı daha duyarlı hale gelebileceği paradoksunun ortaya çıkabileceğini" öne sürdü.

Replikasyon çalışmaları için finansman

Temmuz 2016'da Hollanda Bilimsel Araştırma Örgütü , çoğaltma çalışmaları için 3 milyon € ayırdı. Finansman, mevcut verilerin yeniden analizine ve yeni verilerin toplanması ve analiz edilmesi yoluyla çoğaltmaya dayalı çoğaltma içindir. Sosyal bilimler, sağlık araştırmaları ve sağlık inovasyonu alanlarında finansman mevcuttur.

2013'te Laura ve John Arnold Vakfı , Açık Bilim Merkezi'nin lansmanını 5.25 milyon dolarlık bir hibe ile finanse etti ve 2017'ye kadar 10 milyon dolarlık ek bir fon sağladı. Ayrıca , John Ioannidis ve Steven Goodman tarafından yürütülen Stanford Üniversitesi'ndeki Stanford'daki Meta-Araştırma İnovasyon Merkezi'nin bilimsel araştırmayı iyileştirmenin yollarını araştırmak için başlatılmasını da finanse etti . Ayrıca kısmen Ben Goldacre tarafından yönetilen AllTrials girişimi için fon sağladı .

Yalnızca çoğaltmayı değil, üçgenlemeyi de vurgulayın

Marcus R. Munafò ve George Davey Smith, Nature tarafından yayınlanan bir yazıda , araştırmanın sadece tekrarlamayı değil, üçgenlemeyi de vurgulaması gerektiğini savunuyorlar . iddia ediyorlar ki,

tek başına çoğaltma bizi ancak bir yere kadar götürür (ve) aslında işleri daha da kötüleştirebilir ... Kusurlu fikirlere karşı temel bir korumanın üçgenleme olduğuna inanıyoruz. Bu, bir soruyu ele almak için birden fazla yaklaşımın stratejik kullanımıdır. Her yaklaşımın kendi ilgisiz varsayımları, güçlü ve zayıf yönleri vardır. Farklı metodolojiler arasında aynı fikirde olan sonuçların yapay olma olasılığı daha düşüktür . ... Belki de çoğaltmanın bu kadar ilgi çekmesinin bir nedeni, bilimsel girişimin merkezinde tahrifatın olduğu sık sık tekrarlanan fikirdir. Bu fikir, Karl Popper'ın 1950'lerde, teorilerin asla kanıtlanamayacağı, yalnızca yanlışlanabileceği şeklindeki düsturuyla popüler hale getirildi . Yine de tekrarlanan deneylere aşırı vurgu, tek bir yaklaşıma dayanan bulgular hakkında temelsiz bir kesinlik duygusu sağlayabilir. ... bilim felsefecileri Popper'dan bu yana ilerlediler. Bilim adamlarının gerçekte nasıl çalıştıklarına dair daha iyi açıklamalar, epistemolog Peter Lipton'un 1991'de "en iyi açıklamaya çıkarım" dediği şeyi içerir .

Yöntem sunumunun genel standartlarını yükseltin

Bazı yazarlar, deneysel yöntemlerin yetersiz iletişiminin tekrarlanabilirlik krizine önemli bir katkıda bulunduğunu ve deneysel tasarımın ve istatistiksel analizlerin raporlanma kalitesinin iyileştirilmesinin durumu iyileştirmeye yardımcı olacağını savundu. Bu yazarlar, hem bilim camiasında istatistiklerin nasıl değerlendirildiği konusunda geniş bir kültürel değişim hem de bilimsel dergiler ve finansman kuruluşlarından daha zorlayıcı bir baskı için yalvarma eğilimindedir .

Meta veriler ve dijital araçlar

"Çalışmaların ne sıklıkta tekrarlandığını ve orijinal bulguların doğrulanıp doğrulanmadığını kontrol etmenin basit bir yolunun" gerekli olduğu öne sürülmüştür. Çalışma ve/veya sonuç düzeyinde yeniden üretilebilirlik sınıflandırmaları veya derecelendirmeleri ve ayrıca bağlantıların eklenmesi ve üçüncü taraf teyitlerinin derecelendirilmesi hakemler, bilimsel dergi veya okuyucular tarafından yeni dijital platformlar veya araçlarla birlikte yapılabilir. .

Yaratıcı bir yıkım yaklaşımı

Bilimsel ilerlemenin orijinal bulguları doğrulaması için çoğaltma esastır. Ancak, çoğaltma krizini çözmek için tek başına çoğaltma yeterli değildir. Tekrarlama çabaları, yalnızca orijinal bulguları desteklemeye veya sorgulamaya değil, aynı zamanda onları daha açıklayıcı güce sahip, gözden geçirilmiş, daha güçlü teorilerle değiştirmeye çalışmalıdır. Bu yaklaşım, bu nedenle, mevcut teorileri 'budanmayı', tüm alternatif teorileri karşılaştırmayı ve tekrarlama çabalarını daha üretken ve teori oluşturmaya dahil etmeyi içerir.

Son yıl tezi için çoğaltma çalışmalarını kullanma

Lisans derecesi sırasında, öğrencilerin orijinal bir araştırma parçasından oluşan bir son yıl tezi sunmaları gerekmektedir. Öğrencilere sadece açık bilimi öğretmemiz değil, aynı zamanda üçüncü yıl projeleri olarak tekrarlama çalışmalarını teşvik etmemiz önerildi.

İlaç endüstrisi için etkileri

İlaç şirketleri ve risk sermayedarları , yatırım yapmadan veya yeni bir ilaca dayalı geliştirmeye çalışmadan önce doğru olup olmadıklarını test etmek için araştırma laboratuvarları kurarlar veya işi akademik çalışmaları tekrarlamak olan özel araştırma hizmeti sağlayıcılarıyla (örneğin Envigo ve Smart Assays Biotechnologies) sözleşme yaparlar. bu araştırma üzerine. Şirket ve yatırımcılar için finansal riskler yüksektir, bu nedenle birebir kopyalara yatırım yapmak onlar için uygun maliyetlidir. Çoğaltma çalışmalarının yürütülmesi kaynakları tüketir. Ayrıca, bir uzman çoğaltması yapmak, yalnızca araştırma metodolojisinde genel uzmanlık değil, aynı zamanda genellikle dar olan ilgi alanında özel uzmanlık gerektirir. Bazen araştırma, belirli teknik beceriler ve bilgi gerektirir ve yalnızca dar bir araştırma alanına adanmış araştırmacılar bu becerilere sahip olabilir. Şu anda, fon sağlayan kuruluşlar, finansman çoğaltma çalışmalarına nadiren ilgi duyuyor ve çoğu bilimsel dergi, bu tür sonuçları yayınlamakla ilgilenmiyor. Amgen Oncology'nin kanser araştırmacıları, 10 yıllık bir süre boyunca seçtikleri 53 yenilikçi çalışmanın yalnızca yüzde 11'ini tekrarlayabildiler; İlaç şirketi Bayer ile araştırmacılar tarafından 2011 yılında yapılan bir analiz, şirketin şirket içi bulgularının orijinal sonuçlarla en fazla yalnızca dörtte birinde aynı fikirde olduğunu buldu. Analiz ayrıca, Bayer bilim adamlarının doğrudan bir çoğaltma deneyinde bir sonucu yeniden üretebildikleri zaman, bunun klinik uygulamalara iyi bir şekilde dönüşme eğiliminde olduğunu da ortaya çıkardı; yani tekrarlanabilirlik, klinik potansiyelin yararlı bir belirtecidir.

Ayrıca bakınız

Referanslar

daha fazla okuma