BLACK CYBER WEEK! Publikacje i multimedia nawet do 80% taniej i darmowa dostawa od 350 zł! Sprawdź >
Analizując zależność pomiędzy skutkiem a przyczyną, opieramy się na Newtonowskim liniowym pojęciu czasu. Z perspektywy tego paradygmatu można podważyć wpływ modlitwy na zdarzenia, które miały miejsce w przeszłości. Warto jednak pamiętać, że gdyby w sporze XVII-wiecznych filozofów górą okazał się nie Newton, a Leibnitz, w miejsce Newtonowskiego jednego, uniwersalnego i wszechobejmującego czasu, płynącego w jednostajnym tempie mielibyśmy czas definiowany przez Leibnitza jako porządek następstwa zdarzeń zachodzących w świecie. Jeśli pójść dalej tym tropem, to XX-wieczna Einsteinowska teoria czasu zakłada, że czas, jaki mija pomiędzy dwoma zdarzeniami, nie jest jednoznacznie określony, lecz zależny od obserwatora. W XXI wieku rozpatrujemy już możliwość istnienia światów równoległych (Everett i Deutsch). Być może zmieniające się pojęcie czasu, i jego coraz większa relatywizacja, pozwoli w przyszłości na zrozumienie wyników eksperymentu Leiboviciego.
Trzeba w tym miejscu podkreślić, że zasady fizyki klasycznej nadal bardzo dobrze nadają się do opisywania otaczającego nas makroświata, a powyższe uwagi nie mają na celu podważania zasadności przyjęcia w analizach medycznych liniowego charakteru przebiegu czasu, a tylko przypomnienie, że nawet w przypadku wartości tak, wydawałoby się, niezmiennych jak czas przekonania członków społeczności naukowych zmieniają się dość radykalnie. Postępowanie, które na gruncie EBM uznajemy obecnie za słuszne, może zatem po zmianie paradygmatu okazać się błędne.
Teoria Bayesa a prawdziwość wyników randomizowanych prób klinicznych
Aby wyjaśnić wyniki badania Leiboviciego, nie trzeba oczywiście sięgać do teorii względności, podważać liniowego charakteru czasu i następstwa zdarzeń. Można bowiem podjąć próbę ich tłumaczenia na gruncie teorii Bayesa. Teoria ta jest doskonale znana wszystkim zajmującym się diagnostyką i wiąże prawdopodobieństwo występowania choroby przed wykonaniem testu diagnostycznego z prawdopodobieństwem jej występowania po uzyskaniu jego wyniku. Można ją w podobny sposób odnieść do eksperymentu medycznego i próbować ocenić prawdziwość pozytywnego wyniku (prawdopodobieństwa a posteriori) w zależności od wyjściowego prawdopodobieństwa – że teoretyczne założenia pracy są prawdziwe (prawdopodobieństwo a priori).
Skutki zmiany paradygmatu
Postępowanie, które na gruncie EBM uznajemy obecnie za słuszne, może po zmianie paradygmatu okazać się błędne.
Zgodnie z Bayesowskim podejściem do analizy wyników randomizowanych prób klinicznych, jeśli wyjściowe prawdopodobieństwo prawdziwości hipotezy badawczej jest bardzo małe (<1%), to również prawdopodobieństwo prawdziwości dodatniego wyniku próby będzie małe (<10%). A zatem jeśli uznamy za wielce nieprawdopodobne założenie, że wsteczna modlitwa za chorego może wpływać na jego losy (małe prawdopodobieństwo a priori), możemy także przyjąć, że z ogromnym prawdopodobieństwem (a posteriori) uzyskane istotne zależności statystyczne są nieprawdziwe (fałszywie dodatnie, jeśli posłużymy się terminologią testów diagnostycznych). Jest to postawa, którą niemal każdy krytyczny czytelnik wyników badań naukowych przyjmie, czytając np. o obserwowanej w badaniu ISIS-2 (International Study of Infarct Survival-2) zależności pomiędzy skutecznością leczenia kwasem acetylosalicylowym a znakiem zodiaku.
Warto jednak wiedzieć, że nawet w przypadku wzorcowo zaplanowanej próby klinicznej o dużej mocy statystycznej, niskiej tendencyjności i wysokim prawdopodobieństwie prawdziwości zakładanej tezy prawdopodobieństwo po teście nie przekracza zazwyczaj 85%.5 W konsekwencji, przyjmując Bayesowskie podejście do analizy wyników randomizowanych badań klinicznych, należy oczekiwać, że nawet co 7. duża zakończona powodzeniem randomizowana próba kliniczna publikowana w czołowych czasopismach medycznych świata jest nieprawdziwa. Podobny poziom prawdopodobieństwa a posteriori należy zakładać także w przypadku metaanaliz dobrej jakości randomizowanych badań klinicznych (klasyfikowanych zgodnie z zasadami EBM jako dowody klasy A). Rośnie bowiem wprawdzie prawdopodobieństwo a priori, liczebność grup badanych i moc statystyczna, ale zwiększa się tendencyjność związana np. z doborem publikacji. W analizie opublikowanej na łamach „Journal of the American Medical Association” wykazano na przykład, że duże randomizowane badania kliniczne mają częściej wyniki pozytywne niż neutralne bądź negatywne, jeśli są sponsorowane przez przemysł farmaceutyczny, a nie niezależne instytucje naukowe.
Warto zdawać sobie sprawę z tych zastrzeżeń, ponieważ wyniki licznych randomizowanych badań klinicznych i potwierdzających je metaanaliz stanowią podstawę opracowania najwyższej klasy rekomendacji (klasa I, poziom dowodów A), które – jeśli opierają się na fałszywie dodatnich założeniach – mogą ostatecznie okazać się błędne również w jednym na 7 przypadków. Słuszność podejścia Bayesowskiego w pewnym sensie zweryfikowano empirycznie. Jak pokazała opublikowana w 2005 r. na łamach „Journal of the American Medical Association” („JAMA”) analiza 45 zakończonych powodzeniem dużych doskonałej jakości randomizowanych badań klinicznych (publikowanych na łamach „JAMA”, „New England Journal of Medicine” oraz „Lancet” i cytowanych każde ponad tysiąc razy), w kolejnych badaniach wynik poprzedniego badania powtórzono zaledwie w 44%. Wynik przeciwny uzyskano w co 6. przypadku.
Dla badań gorszej jakości (mniejszych liczebnie, o większej liczbie czynników zakłócających, niższym wyjściowym prawdopodobieństwie prawdziwości próby, większej tendencji badaczy do wpływania na wyniki próby) prawdopodobieństwo a posteriori prawdziwości wyników analizy jest niższe i może nie przekraczać 50%. Tymczasem 8 na 9 rekomendacji nie opiera się na wynikach wysokiej jakości randomizowanych badań klinicznych.
Zawodność metody indukcyjnej
Rozumowanie indukcyjne jest z definicji zawodne. Oznacza to, że prawdziwość przesłanek nie gwarantuje pewności wniosku.
„Wartość” hipotezy zerowej i wartości p
Przedstawione powyżej szacunki prawdziwości wyników badań naukowych są sprzeczne z klasyczną statystyką częstościową, w której za podstawę oceny prawdziwości założonej hipotezy zerowej przyjmuje się wartość p. Jeśli jest ona wystarczająco mała, możemy odrzucić hipotezę zerową (lub mamy do czynienia z bardzo rzadkim przypadkiem, gdy jest ona pomimo niskiej wartości p prawdziwa). Zasadniczo zakłada się prawdopodobieństwo poniżej 5% (tj. p <0,05). Odczytując wynik badania randomizowanego, w którym p wynosi <0,05, można odnieść wrażenie, że jest on z 95-procentowym prawdopodobieństwem prawdziwy. W rzeczywistości jednak p nie oznacza prawdopodobieństwa, że hipoteza zerowa jest prawdziwa (bądź alternatywna hipoteza fałszywa), ale prawdopodobieństwo uzyskania wyników podobnych do obserwowanych i wyników bardziej ekstremalnych od obserwowanych przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli badana próba jest wystarczająco duża, jakakolwiek różnica, nawet nieistotna klinicznie, staje się statystycznie istotna (p <0,05). Doskonale wiadomo także, że możliwa jest sytuacja, w której test oceniający prawdziwość hipotezy zerowej przyjmuje wartość p <0,05 (pozwalając na jej odrzucenie), podczas gdy prawdopodobieństwo a posteriori, że hipoteza zerowa jest prawdziwa, wynosi 95%.6
Zastrzeżenia metodyczne wielu autorów budzi także samo powszechne przyjmowanie w pracach badawczych hipotezy zerowej (czyli założenia, że pomiędzy dwiema odmiennymi interwencjami nie ma różnic). W praktyce, choć wcześniejsze obserwacje, np. badania fazy II, pozwalają sądzić, że skuteczność testowanych preparatów jest różna, w badaniach kolejnej fazy nadal przyjmuje się wyjściowo, że badane preparaty lub interwencje nie różnią się między sobą – większość badaczy, formułując wyjściowe hipotezy, nie bierze bowiem pod uwagę wyników wcześniejszych analiz wykazujących różnice pomiędzy stosowanymi interwencjami.
Tymczasem, jak pisze Rothman, „uniwersalne przyjmowanie hipotezy zerowej to w swojej istocie podważenie wiary w istnienie świata rzeczywistego i tym samym podważenie założeń empiryzmu”.7 Trzeba wiedzieć, że dla punktu końcowego o charakterze ciągłym prawdopodobieństwo potwierdzenia prostej hipotezy zerowej, zakładającej, że różnica pomiędzy metodami leczenia wynosi zero, także wynosi zero (a zatem nie ma szans, aby wyniki leczenia były dokładnie takie same).
Krytyka rozumowania indukcyjnego
Zalecane przez EBM randomizowane badania kliniczne planowane są, aby ocenić uśredniony wpływ interwencji w całej badanej populacji. Formułowanie ogólnych zaleceń w duchu EBM przez towarzystwa naukowe opiera się w tym przypadku na tzw. wnioskowaniu indukcyjnym (wnioskowaniu z prawdziwości przesłanek o prawdziwości wniosków) i uogólnieniu wniosków wyciągniętych z analizy próby losowej na całą populację. W odróżnieniu jednak od stosowanego np. w matematyce rozumowania dedukcyjnego rozumowanie indukcyjne jest z definicji zawodne. Oznacza to, że prawdziwość przesłanek nie gwarantuje pewności wniosku. A zatem zgodnie z prawami logiki fundamentalnie nie można zakładać całkowitej prawdziwości ogólnych zaleceń towarzystw naukowych, nawet tych formułowanych na podstawie wniosków płynących z prawdziwie dodatnich (korzystnych) wyników dobrej jakości badań randomizowanych czy metaanaliz.
Badania randomizowane prowadzone są zazwyczaj na wyselekcjonowanych populacjach chorych przez skończony, zwykle relatywnie krótki czas. W praktyce klinicznej interwencje są stosowane w bardziej niejednorodnych grupach i zwykle przez czas nieokreślony. Problem zewnętrznej wiarygodności badań klinicznych ma zatem zasadnicze znaczenie, decyduje bowiem o wiarygodności formułowanych na ich podstawie zaleceń. Można argumentować, że w przypadku gdy patogeneza choroby jest podobna we wszystkich podgrupach chorych, w większych populacjach chorych możemy spodziewać się podobnych korzyści z interwencji. Systematycznie zebranych dowodów potwierdzających takie przekonanie jest jednak stosunkowo mało, a są także i takie, które przeczą takiemu twierdzeniu. Wiele lat doświadczenia klinicznego potwierdza wprawdzie, że odniesienie uśrednionych danych pochodzących z analizy grupowej do pojedynczych chorych jest możliwe. Nie istnieje jednak model statystyczno-matematyczny, który pozwoliłby jednoznacznie zdefiniować, co oznacza pojęcie „chory wystarczająco zbliżony charakterystyką do grupy badanej”.
Zwolennicy EBM uznają wykładniczy przyrost danych za zaletę, przyjmując, że im większa liczba obserwacji, tym większa dokładność wiedzy o obserwowanym przedmiocie i większa szansa eliminacji elementu niepewności. Zgodnie z paradygmatem EBM pojedyncze obserwacje mogą być niemiarodajne i stanowią słabą podstawę wnioskowania indukcyjnego.