Zilnic
sunt publicate în revistele de specialitate rezultatele unor studii
clinice, astfel încât clinicianul se vede pus în fața unei
multitudini de informații care ridică o întrebare fundamentală:
este rezultatul obținut unul relevant sau nu? (1) Atenția este
tipic centrată pe valoarea unui singur parametru ce evaluează
semnificația statistică, p-ul,
ce trebuie să atingă valori mai mici de 0,05. De fapt,
interpretarea trebuie să fie mai nuanțată și să cuprindă
parametri ca: designul studiului, numărul de pacienți incluși,
obiectivele secundare sau compozite, beneficiul global al
tratamentului, raportul risc–beneficii, relevanța studiului pentru
pacienții cu alte caracteristici față de cele ale pacienților din
studiul inițial.
O
valoare p de 0,05 traduce un risc de 5% rezultate fals pozitive, dar
un studiu clinic este considerat a oferi dovezi suficient de
relevante dacă valoarea se află sub 0,001. Dar de unde provine
acest parametru de la care pornește orice cercetare statistică și
care analizează probabilitatea existenței unui efect în cazul
ipotezei nule? P este calculat pe baza a trei parametri: dimensiunea
efectului observat, mărimea lotului și variabilitatea efectului.
Practic, p poate răspunde la o singură întrebare: este efectul
observat datorat hazardului sau nu? Întrucât p nu depinde numai de
dimensiunea efectului observat, ci și de mărimea lotului, dacă
acesta este suficient de mare, efecte neașteptate pot atinge nivelul
de semnificație statistică. Așa cum loturile extrem de mari pot
determina valori p foarte mici, la fel și efectele importante pot fi
ascunse printr-o valoare p mare într-o populație redusă. Studiile
mici au o putere statistică scăzută (definită ca probabilitatea
de a respinge corect ipoteza nulă și a conchide că nu există
niciun efect atunci când într-adevăr nu există niciunul) și prin
urmare o șansă mare de a include rezultate fals negative. De
exemplu, un studiu cu o putere de 50% are o șansă din două de a
rata un efect real. Chiar și un studiu cu o putere de 80%, în mod
tipic considerată suficientă, are o șansă din cinci de rezultat
fals negativ. Ipoteza nulă pe baza căreia se calculează p aduce o
rată inerentă de rezultate fals pozitive sau erori de tip I.
Folosind o valoare prag de 0,05, rata de fals pozitive este de unul
la 20. Dar, dacă se desfășoară multiple teste, fiecare cu o rată
de fals pozitive de unu la 20, probabilitatea de a întâlni un
rezultat fals pozitiv este foarte mare. De exemplu, dacă se fac 20
de teste în care nu există niciun efect, probabilitatea de a găsi
o valoare de 0,05 crește cu 64% (2).
Semnificația
statistică nu este echivalentă cu semnificația clinică; pe lângă
aceasta, beneficiul unui tratament trebuie să fie cuantificat pentru
a observa dacă este suficient de mare pentru a impune utilizarea
clinică. Pentru aceasta, efectul tratamentului se cuantifică pe o
scală relativă (riscul relativ) sau pe o scală absolută
(diferența între numărul de evenimente și numărul de pacienți
care au necesitat tratament – number
needed to treat).
Intervalul în care se găsesc valori plauzibile pentru mărimea
efectului căutat este denumit interval de încredere. Pentru un
interval de încredere de 95% putem să fim 95% siguri că valoarea
se află efectiv în intervalul determinat. Intervale de încredere
extrem de înguste reflectă un grad mai mare de precizie. În
calcularea propriu-zisă se folosesc aceiași parametri ca pentru p
plus un factor care asigură nivelul de încredere. Pentru că sunt
matematic similare, intervalul de încredere poate fi folosit pentru
a determina semnificația statistică. Dacă intervalul de încredere
95% conține valoarea nulă, atunci ipoteza nulă nu poate fi exclusă
cu 95% încredere și valoarea corespondentă a lui p este mai mare
de 0,05; dacă intervalul de încredere exclude valoarea nulă,
atunci p este mai mic de 0,05.
De
exemplu, în studiul IMPROVE-IT (3), în care ezetimib a fost
comparat cu placebo la pacienții cu sindroame coronariene acute
tratați anterior cu simvastatin, deși raportul de risc (hazard
ratio)
de 0,94 a fost semnificativ statistic (p 0,02, interval de încredere
0,89–0,99), obiectivul compozit (include: decesul de cauză
cardiovasculară, infarctul de miocard, reinfarctizarea, angina
instabilă sau accidentul vascular cerebral) la șapte ani a fost de
32,7% în grupul cu ezetimib și simvastatină și de 34,7% în
grupul cu placebo și simvastatină. Astfel, diferența de numai 2%
ridică problema dacă beneficiul ezetimibului este suficient de mare
pentru a contracara efectele adverse. Acest rezultat a determinat FDA
să retragă indicația de asociere a ezetimibului în vederea
reducerii riscului de evenimente cardiovasculare, în decembrie 2015
(4).
Valoarea
p nu indică în niciun fel o relație de cauzalitate. Dacă într-un
grup de studiu se găsește un efect semnificativ statistic pe baza
p, nu se poate conclude că cele două sunt legate cauzal; pentru
aceasta, este necesară analiza designului și a metodelor utilizate
pentru a genera datele.
Un
alt element important de considerat sunt obiectivele compozite pentru
a observa care dintre elementele ce intră în alcătuirea acestora
contribuie la efectul global pozitiv al studiului. În studiul
EXPEDITION (5), în care a fost comparat cariporid cu placebo la
pacienții cu risc crescut și bypass aortocoronarian, acesta a avut
un efect pozitiv (p 0,0002) pentru un obiectiv compozit care
cuprindea decesul sau infarctul de miocard. De fapt, efectul a fost
determinat de reducerea riscului de infarct miocardic (p 5x10–6),
pe când mortalitatea a fost mai mare cu cariporid (p 0,02), precum
și evenimentele cerebrovasculare (p < 0,01). Studiul a dus la
retragerea cariporidului pentru această indicație terapeutică.
De
multe ori, efectele unui tratament sunt dependente de
caracteristicile grupului de pacienți la care este utilizat. Un
efect semnificativ poate fi observat la grupul mare, dar în subgrupe
cu risc înalt acesta este mai important sau, dimpotrivă, mai redus
în subgrupuri cu risc mic. Situația devine mai complexă atunci
când apar efecte pozitive în subgrupuri, dar nu și în lotul mare.
Astfel de rezultate sporadice rezultă din analize multiple pentru
că, așa cum am menționat mai sus, probabilitatea de rezultate fals
pozitive crește prin multiplicarea analizelor statistice. În
studiul PLATO care include pacienți cu sindroame coronariene acute,
probabilitatea unui obiectiv compozit (cuprinde: decesul
cardiovascular, infarctul de miocard sau AVC) a fost cu 16% mai mică
cu ticagrelor comparativ cu clopidogrel în cohorta luată per
ansamblu. Totuși, în grupul cu pacienții care luau o doză mare de
aspirină, ticagrelor s-a asociat cu o crește a riscului cu 45%
comparativ cu grupul ce includea clopidogrel, pe când în grupul cu
aspirină în doze de întreținere mici, ticagrelor s-a asociat cu o
scădere a riscului cu 21% (p 6x10-4).
Chiar dacă această valoare statistică a rezultat prin multiple
analize de subgrupuri și nu există o explicație actuală
farmacodinamică sau farmacocinetică, FDA a publicat o avertizare că
doza de menținere mai mare de 100 mg de aspirină reduce efectul
ticagrelorului și ar trebui evitată (6).