Guest Editorial
Why Is the Evidence Almost Always Wrong?
John Hoey, MD
Navigating the Scylla and Charybdis straits of clinical practice, physicians must steer clear of Scylla’s short-answer-yapping-easy-to-digest continuing education, biased by sponsoring companies with profoundly vested interests. Physicians know that even gift wrapped with university logos and carrying patently misleading claims of “unrestricted grants”—that provide reliable revenue streams for many university faculty and faculty members—the advice proffered is treacherous.1
Yet, Charybdis, swallowing huge amounts of research and then belching it back on journal pages, is almost equally dangerous. The volume of health-related research that might be relevant to our patients is increasing. In 1971, MEDLINE indexed 239 journals, and today 4,928. In 2005, PubMed entered over 600,000 articles. Tracking a single area such as primary care (and limiting the update to high-end journals) would require scanning over 7,000 articles a month.2 Even sorting it using the evidence-based hierarchy of research designs (RCTs, meta-analyses, cohort studies, etc.) leaves too much to guide practice. “Can it all be true?” physicians ask.
Accompanying this is a growing patient population with web access to the same material, supported in their quests for “facts” by health journalists in all media who try to make sense of and simplify it, and disease-specific patient associations such as the American Diabetes Association—which, according to The New York Times, is itself funded in part by companies with commercial interests in producing guidelines for patients (and physicians) that include their products.3 Patients and physicians alike are bewitched and bewildered.
And growing skeptical of it all. At the tip of the iceberg of distrust of what we read are, for example, the 59 articles in PubMed that have been officially retracted (since 2004). These are articles that contain errors in data or analyses (mistakes or deliberate deceptions by authors) sufficient to render them unreliable or wrong. But below the waterline, there is a vast amount of published research that is likely to fail the test of time, closer scrutiny, and subsequent research.
A good recent example is an RCT showing that, when used in the treatment of patients with rheumatoid arthritis, rofecoxib was associated with major upper gastrointestinal bleeding less frequently than occurred with naproxen, and a secondary finding of an increased rate of myocardial infarctions among patients in the rofecoxib group.4 Both results are statistically significant but may be untrue. In this case, the editors of The New England Journal of Medicine issued an “Expression of Concern” about the article, citing, in particular, the finding of myocardial infarctions that may have been under-reported.5
Some have even claimed that most published research is false, and advanced compelling reasons for the claim.6,7 Physicians came to depend on the hierarchy of evidence promoted at the end of the last century, when there was less research being done, and published. Pharmaceutical and device manufacturers are now working in more demanding financial markets, bringing greater pressure to bear on the research community. Today’s physicians need a better guide through the narrows guarded by Scylla and Charybdis.
Wacholder and colleagues6 offer an approach to this by applying a bayesian framework. Ioannidis7 goes further, suggesting an additional six corollaries for trying to determine if what we are reading is likely to be true or false. Both authors reason that a statistically significant research result (whether showing an association/risk or absence of an association/risk) may not in fact be true when examined in the light of other studies, other evidence, and the passage of time.
This bayesian approach is similar to what physicians do when assessing a test result. The result might be true (positive or negative) or might be false (positive or negative). There are likelihood ratios and predictive values. The 2-by-2 table is familiar.
Test (Research Result) |
Condition (Association Exists/Does Not Exist) |
Predictive Value |
Present (Exists) |
Absent (Does Not) |
| Positive |
a |
b |
PPV − a/(a + b) |
| Negative |
c |
d |
NPV − d/(c + d) |
The bayesian approach goes beyond frequentist measures of statistical significance, such as p values and confidence intervals, although these remain important. The approach looks at the predictive values of the research result and aims to answer the clinically important questions: Is this research result likely to be actually true? Can I use this in practice? The answers, as evidenced-based physicians know, depend on the prior probabilities and likelihood ratios. Thus, studies, like laboratory tests, have pre-study probabilities that range from high to low, from well-thought-out hypotheses to fishing expeditions. The latter, as noted by Wacholder and colleagues, typify numerous genotype/phenotype studies where the prior probability of near-randomly chosen clusters of genes has a very low prior probability of an association with the phenotype of interest.6 Thus, no matter what the statistical result, the positive predictive value of a true relationship being present remains extremely low.
Ioannidis7 asks consumers of medical research contemplating a journal article to consider, in addition to prior probabilities of truth, a mix of other essential factors (see chart) that might provide assessments of the “truth” of a result. Many of these criteria are well known to physicians, but a few deserve further emphasis.
Criteria for Assessing whether a Research Result (Positive or Negative) Is Actually True
| Criteria |
More Likely True if… |
| Sample size |
Larger |
| Effect size |
Larger |
| No. of hypotheses |
Smaller |
| Design complexity/flexibility |
Less |
| $ interest in outcomes |
None/less |
| “Hotter” the field |
“Cooler” the field |
Perhaps most important is the effect size. This argument is an old one, made most clear to physicians by Bradford Hill in his criteria for causality: the larger the effect, the more likely a result is to be true.8 For example, in studies of smoking and lung cancer conducted in the 1950s by Doll and Hill, the effect sizes (odds ratios in this case) varied between about 10 and 15, depending on the amount of cigarette smoking.9 Compare these effect sizes to those common today, often less than 2 (such as the risk of stroke among hypertensive individuals and most heart disease risk factors) or to risk ratios of 1.5 or less for many drug trials. These are very small effect sizes. Many will not hold up.
In addition, today’s studies, especially RCTs but also observational studies, are increasingly complex in their overall designs, in definitions used to set criteria for patient entry, in procedures for administration of interventions and determination of end points (such as a gastrointestinal bleeding episode), and in the choices and statistical complexity of the analyses. They are often multi-authored and conducted in numerous practice situations, countries, and continents, traversing as they do differences in language, culture, and styles of medical practice. Such complexity may be necessary to accumulate sufficient patients and outcomes for statistical significance, but this very complexity increases the risk of error and bias and lowers the prior probability that the result will stand the test of time.
Compared with studies using large numbers of study subjects, smaller-sample studies with statistically significant results are more likely to prove untrue in the long run. Studies funded by national granting bodies are more likely to be true than studies funded by institutions and commercial entities that have financial interests in the outcomes. Lastly, studies in fields where there is intense activity and competition between research groups (such as are common among the many “me-too” drug trials) are also more likely to fail the test of time.
One could argue that the hierarchy of evidence—ranging from RCTs through meta-analyses to prospective cohort studies and so on all the way down to guidelines, CPD, and drug advertisements—should be regarded with a mindset that the findings are likely to be untrue. Further, we could adopt a bayesian frame of mind. Thus, in addition to the screens of evidence-based medicine (such as CONSORT, various guidelines of study quality and similar instruments for observational studies, meta-analyses, and systematic reviews), a further bayesian screen that incorporates into measures of prior probability the six criteria proposed by Ioannidis would allow us to asses a priori the positive and negative predictive values. This assessment could then be used to decide what to read and what to trash. Ioannidis has provided simple graphics that can be used in these assessments, although, in my view, much of the filtering can be done without numerical assessments—simply be skeptical and ask the bayesian questions.
Thus, when searching for literature, even using the highly restrictive and demanding “clinical queries” search strategy on PubMed, one could then further screen the retrieved RCTs by imposing the bayesian filters of prior probabilities and Ioannidis’s corollaries of large effect and sample sizes, simple design and analysis, and prior probabilities are not extremely improbable.
Doing so might make that pile of articles waiting to be read less daunting and the information gained more useful.
Acknowledgements
The ideas in this editorial were presented in various forms at the 2006 Ruth Cooperstock Lecture at the University of Toronto, the 2006 Osler Lecture at the annual meeting of the Canadian Society of Internal Medicine in Calgary, and at the 2006 Putting Evidence into Practice symposium of the University of Alberta.
John Hoey, MD
References
1. Relman AS. Defending professional independence ACCME’s proposed new guidelines for commercial support of CME. JAMA 2003;289:2418-20.
2. Alper BS, Hand JA, Elliott SG, et al. How much effort is necessary to keep up with the literature relevant to primary care? J Med Libr Assoc 2004;92:430-7.
3. Santora M. In diabetes fight, raising cash and keeping trust. New York Times 2006 Nov 25. Available at: www.nytimes.com/2006/11/25/health/25ada.html?ex=1167627600&en=69d4c4808fd6eaae&ei=5070 (accessed December 30, 2006).
4. Bombardier C, Laine L, Reicin A, et al. Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid arthritis. N Engl J Med 2000;343:1520-8.
5. Curfman G, Morrissey S, Drazen JM. Expression of concern: Bombardier et al., “Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid arthritis.” N Engl J Med 2005;353:2813-4.
6. Wacholder S, Chanock S, Garcia-Closas M, et al. Assessing the probability that a positive report is false: an approach for molecular epidemiology studies. J. Natl Cancer Inst 2004;96:434-42.
7. Ioannidis JPA. Why most published research findings are false. PLoS Med 2005;2(8):0696 e124.
8. Hill AB. Principles of medical statistics, 9th edition. Oxford University Press; 1937.
9. Doll R, Hill AB. Smoking and carcinoma of the lung. Preliminary report. BMJ 1950;ii:739-48.
Copyright © 2007 John Hoey. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.
Éditorial – collaboration spéciale
Pourquoi les preuves sont-elles presque toujours fausses?
John Hoey, MD
Tomber de Charybde en Scylla ne devrait pas être le cas en pratique clinique. Les médecins doivent essayer de contourner les écueils de Scylla semblables aux réponses toutes fabriquées et trop simples de la formation continue et par dessus tout faussées par les compagnies commanditaires ayant un intérêt manifeste. Les médecins réalisent que les conseils présentés comme preuves sont fallacieux même sur le papier d’emballage sur lequel sont imprimés les logos des universités ou les allégations manifestement tendancieuses de « subventions sans restriction ». Ces dernières fournissent une source de revenus à plusieurs facultés et professeurs d’université.1
Quant à Charybde, le fait d’ingurgiter une abondance de recherche clinique et de la régurgiter sur des pages de revues médicales est aussi dangereux. Le volume de la recherche consacrée au domaine de la santé et pouvant être pertinent à nos patients est à la hausse. En 1971, MEDLINE a répertorié 239 revues, et maintenant, le nombre a atteint 4928. En 2005, PubMed a entré 600 000 articles. La localisation d’un domaine unique comme les soins primaires (en se limitant à la mise à jour de revues renommées) exigerait le balayage de plus de 7000 articles par mois.2 Même faire le tri selon la hiérarchie factuelle des modèles d’étude (essai clinique aléatoire, méta-analyse, études de cohorte, etc.) offre un trop grand choix pour guider la pratique. Les médecins se demandent si toute cette information est vraie.
De plus en plus de patients ont accès à la toile et au même matériel. Ils sont également épaulés dans leur recherche par les journalistes du domaine de la santé, lesquels tentent de comprendre et de simplifier l’information. Il y a également les associations de patients comme l’Association américaine du diabète qui, selon le New York Times est commanditée en partie par des compagnies ayant des intérêts commerciaux à publier des lignes directrices pour les patients (et les médecins) avec mention de leurs produits.3 Les patients et les médecins sont à la fois charmés et perplexes.
Nous devenons alors sceptiques. Ce que nous lisons ne représente qu’une infime partie de la réalité. Par exemple, dans les 59 articles de PubMed qui ont été retirés officiellement (depuis 2004), il y avait des erreurs dans les données ou les analyses (erreurs faites par les auteurs ou déceptions délibérées) assez graves pour rendre les données peu fiables ou mêmes fausses. Mais il existe une vaste quantité d’articles publiés qui probablement ne résisteront pas à l’épreuve ni à l’examen détaillé et la recherche ultérieure.
Un bon exemple est un essai clinique à répartition aléatoire démontrant que le rofécoxib, administré à des patients souffrant de polyarthrite rhumatoïde, a été associé à une incidence plus faible de saignements gastro-intestinaux supérieurs en comparaison avec le naproxen. Comme résultat secondaire, on a observé une augmentation du taux d’infarctus du myocarde chez les patients du groupe rofécoxib. 4 Ces deux résultats sont statistiquement significatifs, mais peuvent être faux. Dans ce cas, les éditeurs du New England Journal of Medicine ont exprimé dans un message leurs préoccupations au sujet de l’article, citant, en particulier, les résultats d’infarctus du myocarde qui ont pu être déclarés seulement en partie.5
Plusieurs ont même déclaré que la plupart des rapports de recherche publiés sont faux et donnent même les raisons convaincantes de l’allégation.6,7 Les médecins en sont venus à se fier à la hiérarchie des preuves données à la fin du dernier centenaire, lorsqu’il se faisait moins de recherche et qu’elle n’était pas publiée. Les fabricants de produits et de matériel pharmaceutiques oeuvrent dans des marchés financiers beaucoup plus exigeants, et mettent beaucoup plus de pression sur les chercheurs. Les médecins actuels ont besoin d’un guide habile pour naviguer dans les détroits gardés par Scylla et Charybde.
Wacholder et ses collègues 6 ont utilisé les méthodes bayésiennes pour étudier la question. Ioannidis7 est allé encore plus loin en suggérant six autres corollaires afin de déterminer si ce que nous lisons est vrai ou faux. Les deux auteurs supposent qu’un résultat statistiquement significatif (donnant une association/risque ou l’absence d’association/risque) peut en fait ne pas être vrai lorsqu’il est examiné à la lumière des autres études, des autres preuves et l’évolution du temps.
L’approche bayésienne est semblable à ce que font les médecins lorsqu’ils évaluent un résultat de test. Le résultat peut être vrai (positif ou négatif) ou il peut être faux (positif ou négatif). On se réfère aux rapports des vraisemblances et aux valeurs prédictives. Le tableau de contingence est bien connu.
Test (résultat de recherche) |
Maladie (Existe une association/n’existe pas) |
Valeur de prédiction |
Positif |
|
|
PPV − a/(a + b) |
Négatif |
a |
b |
NPV − d/(c + d) |
c |
d |
L’approche bayésienne va au-delà des mesures fréquentielles de signification statistique comme la valeur p et les intervalles de confiance, bien que ceux-ci demeurent importants. L’approche explore les valeurs prédictives des résultats de recherche et tente de répondre à d’importantes questions cliniques telles que : Est-ce que ce résultat de recherche est effectivement vrai? Puis-je utiliser cette information dans ma pratique? Les réponses, comme le savent les médecins qui pratiquent la médecine fondée sur des résultats cliniques et scientifiques s’appuient sur les rapports de probabilités et de vraisemblances. Par conséquent, les études, comme les tests de laboratoire, ont des probabilités d’étude préalable qui varient d’élevée à faible, comme des hypothèses bien pensées à des interrogatoires à l’aveuglette. Ces derniers, comme l’ont noté Wacholder et ses collègues, caractérisent les études sur le génotype et le phénotype dans lesquelles la probabilité a priori de groupes de gènes choisis presque au hasard a une probabilité a priori très faible d’une association avec le phénotype d’intérêt.6 Par conséquent, quel que soit le résultat statistique, la valeur prédictive positive de la présence d’une vraie association demeure extrêmement faible.
Ioannidis7 demande aux consommateurs de recherche médicale de tenir compte, en plus des probabilités a priori, d’un mélange d’autres facteurs essentiels (voir tableau) qui pourraient fournir des évaluations de la justesse d’un résultat. Plusieurs de ces critères sont bien connus des médecins, mais certains doivent être répétés.
Critères servant à évaluer si le résultat de la recherche (positif ou négatif) est effectivement vrai
| Critères |
Probablement vrai si… |
| Taille de l’échantillon |
Plus grand |
| Valeur de l’effet |
Plus important |
| Nombre d’hypothèses |
Plus petit |
Complexité/flexibilité du modèle |
Moindre |
| Intérêt en $ - résultats |
Aucun/peu important |
| Domaine très critique |
Domaine peu critique |
Le plus important, c’est peut-être la valeur de l’effet. Cet argument est un vieil argument, énoncé clairement par Bradford Hill dans ses critères de causalité : plus l’effet est important, plus grande est la probabilité que le résultat soit vrai.8 Par exemple, dans les études sur le tabagisme et le cancer du poumon menées dans les années 1950 par Doll et Hill, la valeur de l’effet (le risque relatif dans ce cas) variait entre 10 et 15 selon le nombre de cigarettes fumées.9 Si l’on compare la valeur de l’effet à celle d’aujourd’hui, on obtient souvent moins que 2 (comme le risque d’ACV parmi les personnes hypertendues et la plupart des facteurs de risque de maladie cardiaque) ou au rapport de risque de 1,5 ou moins pour plusieurs études sur les médicaments. Ces valeurs n’ont pas l’envergure nécessaire.
De plus, les études actuelles, surtout les essais à répartition aléatoire mais aussi les études d’observation, sont de plus en plus complexes en ce qui concerne leur conception générale, l’établissement des définitions des critères d’admission des patients, les procédés d’administration des interventions et la détermination des paramètres d’évaluation (comme l’hémorragie gastro-intestinale) et les choix et la complexité statistique des analyses. Ils sont souvent rédigés par plusieurs auteurs et menés dans différentes pratiques, pays et continents dans différentes langues, cultures et styles de pratique médicale. Une telle complexité peut être nécessaire pour recruter un nombre suffisant de patients et obtenir des résultats ayant une signification statistique, mais cette complexité augmente le risque d’erreurs et de partialité et diminue la probabilité a priori que le résultat résiste à l’épreuve.
En comparaison avec les études auxquelles participent de nombreux sujets, les études de moindre envergure dont les résultats sont statistiquement significatifs s’avèreront inexactes avec le temps. Les études financées par des institutions subventionnaires ont plus de chance d’être exactes que les études financées par des compagnies qui ont des intérêts financiers dans les résultats. Finalement, il est fort probable que les études dans les domaines où l’activité et la concurrence sont très intenses entre les groupes de recherche (comme pour les études sur les médicaments d’imitation) ne pourront résister à l’épreuve.
On pourrait argumenter que la hiérarchie des preuves – qu’il s’agisse d’essais cliniques à répartition aléatoire, de méta-analyses ou d’études prospectives de cohorte, de lignes directrices, de FPC et de publicité sur les médicaments – devrait être considérée avec l’attitude ancrée que les résultats seront probablement faux. De plus, nous pourrions adopter l’approche bayésienne. Par conséquent, en plus des pré-sélections de médecine factuelle (comme CONSORT, diverses lignes directrices de qualité d’étude et instruments semblables pour les études d’observation, les méta-analyses et les revues systématiques) une autre pré-sélection bayésienne incorporant dans les mesures de probabilité a priori les six critères proposés par Ioannidis nous permettrait d’évaluer a priori les valeurs prédictives positives et négatives. Cette évaluation pourrait alors être utilisée pour décider ce qu’il faut lire ou ne pas lire. Ioannidis a fourni des graphiques simples qui peuvent être utilisés dans ces évaluations, bien que, selon moi, le filtrage peut être fait sans évaluations numériques – simplement être sceptique et poser les questions bayésiennes.
Par conséquent, lorsqu’on cherche de la documentation, même en utilisant des interrogations hautement restrictives sur PubMed, on pourrait raffiner davantage la recherche en choisissant implicitement les filtres bayésiens des probabilités a priori et les corollaires de Ioannidis sur la valeur de l’effet et la taille de l’échantillon, la méthodologie simple et l’analyse, et les probabilités a priori ne sont pas extrêmement improbables.
En suivant ces principes, la pile d’articles qui attend d’être lue sera moins un défi de taille et l’information que vous glanerez sera d’autant plus utile.
Remerciements
Les idées de cet éditorial ont été présentées sous diverses formes à la Conférence Ruth Cooperstock 2006 à l’Université de Toronto, à la Conférence Osler 2006 à la réunion annuelle de la Société canadienne de médecine interne à Calgary et au symposium de 2006 intitulé Putting Evidence into Practice à l’Université de l’Alberta.
John Hoey, MD
Références
1. Relman AS. Defending professional independence ACCME’s proposed new guidelines for commercial support of CME. JAMA 2003;289:2418-20.
2. Alper BS, Hand JA, Elliott SG, et al. How much effort is necessary to keep up with the literature relevant to primary care? J Med Libr Assoc 2004;92:430-7.
3. Santora M. In diabetes fight, raising cash and keeping trust. New York Times 2006 Nov 25. Available at: www.nytimes.com/2006/11/25/health/25ada.html?ex=1167627600&en=69d4c4808fd6eaae&ei=5070 (accessed December 30, 2006).
4. Bombardier C, Laine L, Reicin A, et al. Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid arthritis. N Engl J Med 2000;343:1520-8.
5. Curfman G, Morrissey S, Drazen JM. Expression of concern: Bombardier et al., “Comparison of upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid arthritis.” N Engl J Med 2005;353:2813-4.
6. Wacholder S, Chanock S, Garcia-Closas M, et al. Assessing the probability that a positive report is false: an approach for molecular epidemiology studies. J. Natl Cancer Inst 2004;96:434-42.
7. Ioannidis JPA. Why most published research findings are false. PLoS Med 2005;2(8):0696 e124.
8. Hill AB. Principles of medical statistics, 9th edition. Oxford University Press; 1937.
9. Doll R, Hill AB. Smoking and carcinoma of the lung. Preliminary report. BMJ 1950;ii:739-48.
Copyright © 2007 John Hoey. Article libre d’accès distribué en vertu de Creative Commons Attribution License, permettant l’utilisation, la distribution et la reproduction sans restriction et par n’importe quel moyen, pourvu qu’il y ait mention de l’auteur et de la source.
|