Reviewing Systematic Reviews and Meta-Analyses: A Practical Guide

Reviewing Systematic Reviews and Meta-Analyses: A Practical Guide

How Peer Reviewers Can Protect Systematic Reviews and Meta-Analyses

Systematic reviews and meta-analyses sit at the top of evidence hierarchies. As Emir Begagić and colleagues write, they “represent the highest tier of evidence in the hierarchy of evidence-based practice.” Yet their value depends entirely on how carefully they are done – and how carefully they are reviewed.

The volume of this type of research has exploded. The first systematic review indexed in PubMed/MEDLINE appeared in 1957; by 2022 there were 38,449 such publications. At the same time, scientific publishing itself has grown from just 10 journals in the 17th century to more than 100,000 by the end of the 20th century. This crowded landscape has created opportunities not only for good research, but also for questionable and fraudulent work.

The article highlights striking examples: a Spanish chemist reportedly publishing an article every 37 hours, a Japanese psychiatrist producing 115 articles in a single year, and 300 unethical submissions from two doctors to 78 journals, with around half ending in retractions. Paper mills add to the problem by selling authorship, sometimes for as little as $200, and offering primary authorship for about €2,000 while claiming to have produced more than 12,000 articles. A 2022 report estimated that up to 20% of submissions in some settings may originate from such sources, with around 2.2% of 2.85 million published studies linked to paper mills.

Retractions show how far this can go. In 2024, the Scottish Medical Journal retracted 13 papers, including 10 systematic reviews with meta-analyses, due to concerns about data extraction. A major publisher, Wiley, has withdrawn 511 papers from compromised journals and is examining about 1,200 more suspected articles, many of them reviews and meta-analyses. At the same time, over 100 articles have been identified as at least partly written by artificial intelligence tools, with a large increase in suspected AI-generated content.

Against this backdrop, Begagić and colleagues provide a practical guide for reviewers of systematic reviews and meta-analyses. Their narrative review brings together the main international frameworks—PRISMA 2020, MOOSE and PRIOR—and distils them into a concise checklist tailored for peer reviewers. The aim is to help reviewers spot common sources of bias that may escape routine editorial checks and to strengthen the reliability, reproducibility and clinical utility of evidence syntheses.

What should reviewers look for first?

The authors start with the “initial evaluation.” Reviewers are urged to ask whether the review is actually needed: are there already systematic reviews or meta-analyses on the same question, and does the new work offer a justified and clearly explained added value or different perspective?

They also recommend checking compliance with reporting guidelines such as PRISMA, MOOSE and PRIOR, and using the authors’ streamlined checklist (based on the 27-item PRISMA checklist) as a practical tool. Prospective protocol registration in platforms such as PROSPERO, Research Registry, INPLASY, OSF Registries or protocols.io is presented as a key sign of transparency. A registered protocol, cited with its registration ID, allows reviewers to compare planned versus reported methods and to see whether outcomes or analyses have been added or altered without justification.

Methods and results: are they trustworthy?

The guide emphasizes a careful look at the Methods section. Reviewers are encouraged to check whether:

  • Eligibility criteria are clearly defined using the PICOS framework (Population, Intervention, Comparator, Outcomes, Study design).

  • The search strategy is reproducible, including exact queries, databases used (e.g. MEDLINE, Embase, Web of Science, Scopus, Cochrane Library) and the date of the last search.

  • Any language or date limits are justified, as unjustified restrictions can introduce bias.

  • The PRISMA flow diagram is consistent with the text and explains exclusions clearly.

On the results side, the article highlights the importance of appropriate effect measures and statistical models, and of reporting heterogeneity. The I² statistic, for example, is used to show how much of the variation between studies reflects real differences rather than chance; high values should prompt exploration through pre-specified subgroup analyses or meta-regressions. Reviewers are advised to look for an assessment of publication bias (for example with funnel plots or formal tests), and for sensitivity analyses that show whether the main findings depend on a single influential study or modelling choice.

The authors underline the growing use of the GRADE approach, which rates the certainty of evidence for each key outcome as high, moderate, low or very low, based on factors such as risk of bias, inconsistency, indirectness, imprecision and publication bias. Reviewers should check whether such an assessment is present and whether the reasons for downgrading or upgrading are well justified.

Emerging threats: paper mills and AI-generated content

A substantial part of the article is devoted to “emerging issues in SRs and meta-analyses.” Paper mills are defined, citing COPE, as “profit-oriented, unofficial, and potentially illegal organizations that produce and sell fraudulent manuscripts that resemble genuine research.” They may assemble reviews by recycling generic text, using automatic translation or AI paraphrasing, and then sell guaranteed authorship to paying clients.

The impact is measurable. A cross-sectional study in JAMA Network Open found that, among 200,000 life science systematic reviews and meta-analyses, 299 had unknowingly included at least one retracted, paper-mill–derived article, a contamination rate of 0.15%. Worryingly, about one third of citations to these retracted papers occurred after the retractions.

Artificial intelligence introduces another layer of risk. Studies cited in the article show that ChatGPT and similar tools can generate fabricated or inaccurate references and “fluently constructed yet factually shallow sentences.” Reviewers may encounter references that simply do not exist or that do not support the claims made in the text. The authors note that “reviewers serve as gatekeepers” and suggest practical checks: verifying unusual references, being alert to sudden shifts in writing style, and questioning sections that seem polished but conceptually weak.

Journals are already responding. Some require disclosure of AI use and prohibit AI authorship; others, such as Science, have temporarily banned any text generated by ChatGPT. AI-detection tools are available but imperfect, so the paper stresses that human judgment remains central.

Why this guidance matters

The article concludes that, in an era where tens of thousands of systematic reviews and meta-analyses are published each year, the role of reviewers is “more crucial than ever.” By applying a structured checklist, verifying protocols and methods, scrutinizing results and remaining alert to paper-mill products and AI-generated content, reviewers can help ensure that only robust, meaningful evidence syntheses enter the literature.

For researchers who serve as reviewers, this guide offers a concrete, cross-disciplinary tool. For the wider public, its message is reassuring: even as new technologies and business models challenge research integrity, there is a clear pathway for strengthening the trustworthiness of the evidence that informs clinical decision-making.

 

The translation of the preceding English text in Bosnian:

 

Kako recenzenti mogu zaštititi sistematske preglede i metaanalize

Sistematski pregledi i metaanalize nalaze se na vrhu hijerarhije dokaza. Kako pišu Emir Begagić i kolege, oni „predstavljaju najviši nivo dokaza u hijerarhiji prakse zasnovane na dokazima“. Ipak, njihova vrijednost u potpunosti zavisi od toga koliko pažljivo su urađeni – i koliko pažljivo su recenzirani.

Obim ove vrste istraživanja naglo je porastao. Prvi sistematski pregled indeksiran u PubMed/MEDLINE pojavio se 1957. godine; do 2022. godine zabilježeno je 38.449 takvih publikacija. Istovremeno je i naučno izdavaštvo poraslo sa samo 10 časopisa u 17. stoljeću na više od 100.000 do kraja 20. stoljeća. Ovolika količina radova objavljenih radova stvorila je prilike ne samo za kvalitetna istraživanja, nego i za upitne i lažne radove.

Članak navodi upečatljive primjere: španskog hemičara za kojeg se tvrdi da je objavljivao po jedan članak svakih 37 sati, japanskog psihijatra koji je u jednoj godini objavio 115 članaka, te 300 neetičnih prijava koje su dvojica doktora uputila ka 78 časopisa, pri čemu je oko polovine tih radova na kraju povučeno. Dodatni problem predstavljaju komercijalni servisi koji za novac izrađuju naučne radove i prodaju autorstvo – ponekad već za 200 USD – te nude mjesto prvog autora za oko 2.000 €, uz tvrdnju da su proizveli više od 12.000 članaka. Izvještaj iz 2022. procijenio je da do 20% prijava u nekim okruženjima može dolaziti iz takvih izvora, pri čemu je oko 2,2% od 2,85 miliona objavljenih studija povezano s ovakvim servisima.

Povlačenja radova pokazuju koliko daleko ovo može otići. Godine 2024. časopis Scottish Medical Journal povukao je 13 radova, uključujući 10 sistematskih pregleda s metaanalizama, zbog sumnji u ispravnost ekstrakcije podataka. Veliki izdavač Wiley povukao je 511 radova iz kompromitovanih časopisa i trenutno preispituje oko 1.200 dodatnih sumnjivih članaka, od kojih su mnogi pregledi i metaanalize. Istovremeno je više od 100 radova identificirano kao barem djelimično napisano uz pomoć alata vještačke inteligencije, uz veliki porast sumnje na sadržaj generisan vještačkom inteligencijom.

U takvom kontekstu Begagić i kolege nude praktični vodič za recenzente sistematskih pregleda i metaanaliza. Njihov narativni pregled objedinjuje glavne međunarodne okvire — PRISMA 2020, MOOSE i PRIOR — i svodi ih na sažetu kontrolnu listu prilagođenu recenzentima. Cilj je pomoći recenzentima da uoče uobičajene izvore pristrasnosti koji mogu proći ispod radara uobičajenih uredničkih provjera i da ojačaju pouzdanost, ponovljivost i kliničku korisnost sinteza dokaza.

Na šta recenzenti trebaju prvo obratiti pažnju?

Autori počinju s „početnom procjenom“. Recenzentima se savjetuje da se prvo zapitaju da li je taj pregled uopće potreban: postoje li već sistematski pregledi ili metaanalize o istom pitanju i nudi li novi rad opravdanu i jasno objašnjenu dodatnu vrijednost ili drugačiju perspektivu?

Također preporučuju provjeru usklađenosti s vodičima za izvještavanje, kao što su PRISMA, MOOSE i PRIOR, te korištenje njihove pojednostavljene kontrolne liste (zasnovane na PRISMA listi od 27 stavki) kao praktičnog alata. Prospektivna registracija protokola na platformama kao što su PROSPERO, Research Registry, INPLASY, OSF Registries ili protocols.io prikazana je kao važan znak transparentnosti. Registrirani protokol, naveden uz svoju registracijsku oznaku, omogućava recenzentima da uporede planirane i stvarno opisane metode i da vide jesu li ishodi ili analize naknadno dodavani ili mijenjani bez opravdanja.

Metode i rezultati: može li im se vjerovati?

Vodič naglašava da je potrebno pažljivo pregledati dio Methods. Recenzentima se preporučuje da provjere da li:

  • Kriteriji podobnosti su jasno definisani koristeći PICOS okvir (Population, Intervention, Comparator, Outcomes, Study design).
  • Strategija pretraživanja je ponovljiva, uključujući tačne upite, korištene baze podataka (npr. MEDLINE, Embase, Web of Science, Scopus, Cochrane Library) i datum posljednjeg pretraživanja.
  • Bilo kakva jezička ili vremenska ograničenja imaju jasno opravdanje, jer neopravdana ograničenja mogu uvesti pristrasnost.
  • PRISMA dijagram toka je usklađen s tekstom i jasno objašnjava razloge za isključenja.

Što se tiče rezultata, članak naglašava važnost primjerenih mjera efekta i odgovarajućih statističkih modela, kao i izvještavanja o heterogenosti. Na primjer, I² statistika se koristi da pokaže koliki dio varijacije između studija odražava stvarne razlike, a ne slučajnost; visoke vrijednosti trebale bi potaknuti dodatna istraživanja putem unaprijed planiranih analiza podgrupa ili metaregresija. Recenzentima se savjetuje da obrate pažnju na to da li je procijenjena publikacijska pristrasnost (npr. pomoću lijevkastih dijagrama ili formalnih testova) i da li su urađene analize osjetljivosti koje pokazuju zavise li glavni nalazi od jedne utjecajne studije ili od izbora modela.

Autori ističu sve širu primjenu GRADE pristupa, koji procjenjuje sigurnost (pouzdanost) dokaza za svaki ključni ishod kao visoku, umjerenu, nisku ili vrlo nisku, na osnovu faktora kao što su rizik od pristrasnosti, nekonzistentnost, indirektnost, nepreciznost i publikacijska pristrasnost. Recenzenti bi trebali provjeriti da li je takva procjena urađena i jesu li razlozi za snižavanje ili povećavanje nivoa dokaza jasno obrazloženi.

Novi rizici: komercijalna izrada radova i sadržaj generisan vještačkom inteligencijom

Značajan dio članka posvećen je „novim pitanjima u sistematskim pregledima i metaanalizama“. Autori, pozivajući se na COPE, opisuju posebnu grupu aktera: profitno orijentisane, nezvanične i potencijalno nezakonite organizacije koje izrađuju i prodaju lažne rukopise koji naizgled liče na stvarna istraživanja. Takve organizacije mogu sastavljati preglede recikliranjem generičkog teksta, korištenjem automatskog prevođenja ili AI parafraziranja, a zatim prodavati zagarantovano autorstvo klijentima koji plate.

Utjecaj ovakvih praksi je mjerljiv. Presječna studija objavljena u časopisu JAMA Network Open pokazala je da je, među 200.000 sistematskih pregleda i metaanaliza u oblasti nauka o životu, 299 radova nesvjesno uključilo barem jedan povučeni članak nastao u takvim komercijalnim aranžmanima, što odgovara stopi „kontaminacije“ od 0,15%. Zabrinjava to što se oko trećine citata na te povučene radove pojavilo nakon što su oni već bili povučeni.

Vještačka inteligencija uvodi još jedan sloj rizika. Studije citirane u članku pokazuju da ChatGPT i slični alati mogu generisati izmišljene ili netačne reference i „stilski tečne, ali činjenično plitke rečenice“. Recenzenti se tako mogu susresti s referencama koje jednostavno ne postoje ili ne podržavaju tvrdnje iznesene u tekstu. Autori naglašavaju da „recenzenti imaju ulogu čuvara ulaza“ i predlažu praktične provjere: provjeravanje neuobičajenih referenci, obraćanje pažnje na nagle promjene u stilu pisanja i propitivanje dijelova teksta koji izgledaju uglađeno, ali su konceptualno slabi.

Časopisi već reaguju. Neki zahtijevaju da se prijavi upotreba AI alata i zabranjuju da AI bude naveden kao autor; drugi, poput časopisa Science, privremeno su zabranili bilo kakav tekst generisan ChatGPT-om. Alati za otkrivanje AI-generisanog sadržaja postoje, ali su nesavršeni, pa članak naglašava da ljudska procjena ostaje ključna.

Zašto su ove smjernice važne

Članak zaključuje da je, u eri u kojoj se svake godine objavljuju desetine hiljada sistematskih pregleda i metaanaliza, uloga recenzenata „važnija nego ikad“. Primjenom strukturirane kontrolne liste, provjeravanjem protokola i metoda, detaljnim pregledom rezultata te stalnom budnošću u pogledu radova nastalih kroz komercijalne servise za izradu rukopisa i sadržaja generisanog vještačkom inteligencijom, recenzenti mogu pomoći da u literaturi budu objavljene samo robusne i zaista smislene sinteze dokaza.

Za istraživače koji djeluju kao recenzenti, ovaj vodič nudi konkretan, interdisciplinaran alat. Za širu javnost, njegova poruka je ohrabrujuća: iako nove tehnologije i poslovni modeli dovode u pitanje integritet istraživanja, i dalje postoji jasan put za jačanje povjerenja u dokaze na kojima se zasniva kliničko donošenje odluka.


Reference: