公共衛生決策證據質量分級方法問題的定性系統評價_《中國循證醫學雜志》

作者：

楊超群 ^1,2,3 , 劉文迪 ^1,2,3 , 王子怡 ^1,2,3 , 梁珊珊 ^1,2,3 , 鄧欣欣 ^1,2,3 , 王永盛 ^1,2,3 , 徐子涵 ⁴ ,  李秀霞 ^1,2,3 ,  楊克虎 ^1,2,3

1. 蘭州大學循證社會科學研究中心/衛生技術評估中心，蘭州大學公共衛生學院（蘭州 730000）;
2. 蘭州大學循證醫學中心，蘭州大學基礎醫學院（蘭州 730000）;
3. 甘肅省循證醫學與知識轉化重點實驗室（蘭州 730000）;
4. 甘肅中醫藥大學中西醫臨床醫學院（蘭州 730000）;

關鍵詞：

公共衛生決策證據質量分級 GRADE 方法學

DOI：

10.7507/1672-2531.202306114

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的系統評價公共衛生決策證據質量分級方法相關研究問題。方法計算機檢索PubMed、Web of Science、CNKI、WanFang Data、CBM和VIP數據庫，搜集公共衛生決策證據質量分級方法應用相關研究，檢索時限均為建庫至2022年12月。根據SPIDER模型構建問題，采用CASP清單對納入文獻進行質量評價，利用主題綜合法對公共衛生決策證據質量分級方法的應用問題進行三級詮釋分析，建立問題條目池。結果共納入14篇文獻，涵蓋7個國家。GRADE是常用的證據質量分級方法。CASP評價結果顯示高質量研究8篇，中等質量研究4篇，低質量研究2篇。主題綜合法歸納出7類13個問題條目。結論現有的公共衛生決策證據質量分級方法存在證據來源多樣、復雜干預研究的證據等級被低估等問題。

證據質量分級是循證決策的精髓^[1]。證據質量分級方法作為循證決策的一個重要組成部分，廣泛應用于衛生指南、系統評價的制定和評估，對衛生保健和政策制定部門有重要的影響^[2-3]。研究人員和政策制定者通過證據質量分級方法對科學研究成果的質量和穩健性進行分級、評價，得出關于特定主題的科學研究的結論，從而為公共衛生決策和實踐提供依據^[4]。

證據質量分級方法眾多，目前流行的證據質量分級方法有SIGN（The Scottish Intercollegiate Guidelines Network）證據分級標準、OCEBM（Oxford Center for Evidence-based Medicine）證據分級標準、GRADE（Grades of Recommendations Assessment，Development and Evaluation）分級系統等，主要應用于經典臨床試驗設計之中。在公共衛生領域還未形成行之有效的證據質量分級方法。有研究發現，由于公共衛生證據研究背景、研究設計等環節的復雜性，這些證據質量分級方法難以充分評估公共衛生決策證據的真實質量^[7]。有研究者^[5-8]認為，公共衛生決策證據質量分級存在偏向于隨機對照試驗、沒有充分評估非隨機研究證據和處理異質性以及復雜干預措施等問題。針對以上問題，本研究采用定性系統評價的方法，梳理目前公共衛生決策證據質量分級的主要問題和挑戰，旨在為公共衛生決策證據質量分級中的關鍵問題遴選提供理論依據。

1 資料和方法

1.1 納入與排除標準

1.1.1 納入標準

基于SPIDER模型構建研究問題，形成納入標準：研究對象（S）：公共衛生決策證據質量分級方法的相關研究；研究內容（PI）：公共衛生領域中關于證據質量分級方法的問題、反思、經驗等，或明確提及證據質量分級方法在公共衛生決策中的應用問題并對其有具體的描述；研究方法（D）：文獻研究、專家咨詢法、訪談法等；評價內容（E）：證據質量分級方法的應用；研究類型（R）：不限。

1.1.2 排除標準

① 只綜述方法而無評審人員或開發人員的經驗或問題反思的方法或技術手冊；② 重復發表的文獻；③ 非中、英文文獻；④ 數據不完整的文獻。

1.2 文獻檢索策略

計算機檢索PubMed、Web of Science、CNKI、WanFang Data、CBM和VIP數據庫，搜集公共衛生決策證據質量分級方法應用相關研究，檢索時限均為建庫至2022年12月。檢索采用主題詞與自由詞結合的方式，同時追蹤納入研究的參考文獻，通過滾雪球的方式進行補充檢索。中文檢索詞包括：公共衛生、衛生管理、衛生保健、證據分級、證據評價、證據等級、分級體系、證據體系等；英文檢索詞包括：public health、epidemiology、preventive medicine、tropical medicine、evidence assessment、evidence certainty、evidence quality、evidence grading、evidence hierarchy等。

1.3 文獻篩選與資料提取

由2名研究人員背對背進行文獻篩選和資料提取，并交叉核對結果，若觀點不一致，與第三位研究者進行討論解決。研究人員首先通過閱讀納入研究的標題和摘要進行初步篩選，排除明顯不相關研究后進行全文閱讀以確定最終納入的研究。利用Excel 2021軟件設計資料提取表，提取內容主要包括：納入研究的作者、國家、研究對象、文章類型、研究方法、研究問題內容等。

1.4 納入研究的質量評價

采用批判評估技術方案（critical appraisal skills programme，CASP）^[9-10]對納入研究的方法學進行質量評價。對于混合性研究，僅對定性研究部分進行評價。

1.5 統計分析

采用主題綜合法對納入研究的證據質量分級問題進行初步歸納，通過“三級詮釋”的方法，定性整合公共衛生決策證據質量分級問題的一級問題條目，再對其進行逐級闡釋和提煉，形成一級問題條目下的二級問題，最終構建公共衛生決策證據質量分級關鍵問題條目清單。不能達成一致的主題由第三名研究者提出建議并統一意見。

2 結果

2.1 文獻篩選結果

初步檢索文獻獲得16 037篇，包括PubMed（n=9 791）、Web of Science（n=5 397）、CNKI（n=133）、WanFang Data（n=533）、CBM（n=133）和VIP（n=50）。經過逐層篩選，最終納入文獻14篇^[4-8,11-19]。

2.2 納入研究的基本特征

納入研究的基本特征見表1。

表1 納入研究的基本特征

表選項

下載CSV

納入研究	國家	研究類型	主要研究方法	證據質量分級方法
Irving 2016^[4]	澳大利亞	系統評價	文獻回顧	GRADE
Durrheim 2010^[5]	澳大利亞	社論	?	GRADE
Burford 2012^[6]	澳大利亞	定性研究	定性分析	GRADE
Rehfuess 2013^[7]	德國	定性研究	半結構化訪談	GRADE
Movsisyan 2016^[8]	英國	定性研究	開放式訪談	GRADE
Boon 2021^[11]	英國	文獻綜述	主題綜合、專家共識	GRADE
Akl 2012^[12]	美國	定性研究	專家共識、案例分析	GRADE
Movsisyan 2016^[13]	英國	系統評價	定性系統評價	GRADE
Barbui 2010^[14]	意大利	定性研究	定性分析、案例分析	GRADE
Pottie 2012^[15]	加拿大	定性研究	案例研究	GRADE
Forland 2012^[16]	瑞典	系統評價	文獻回顧	GRADE
Harder 2015^[17]	德國	定性研究	專家會議、案例分析	GRADE
Hartling 2012^[18]	加拿大	定性研究	橫斷面描述性研究	GRADE
Tobias 2021^[19]	美國	社論	?	GRADE
?：未報道。

2.3 納入研究的質量評價結果

納入研究的質量評價結果見表2。

表2 納入研究的質量評價結果

表選項

下載CSV

納入研究	是否清晰描述研究目的	定性研究方法應用是否恰當	研究設計是否適合解決研究問題	研究對象招募策略是否恰當	收集的資料能否解決研究問題	是否考慮研究者與參與者之間關系	是否考慮倫理問題	資料分析是否嚴謹	是否清楚描述研究結果	是否提到研究價值	質量評價等級
Irving 2016^[4]	是	是	是	是	是	不清楚	不涉及	是	是	是	高
Burford 2012^[6]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Rehfuess 2013^[7]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[8]	是	是	是	是	是	是	是	是	是	是	高
Boon 2021^[11]	是	是	是	是	是	是	不涉及	是	是	是	高
Akl 2012^[12]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[13]	是	是	是	是	是	是	不涉及	是	是	是	高
Barbui 2010^[14]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Pottie 2012^[15]	是	不清楚	否	否	不清楚	否	不涉及	不清楚	是	是	中
Forland 2012^[16]	是	是	是	是	是	否	不涉及	是	是	是	高
Harder 2015^[17]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Hartling 2012^[18]	是	是	是	是	是	是	不涉及	是	是	是	高

2.4 主題綜合結果

利用主題綜合法，對納入研究中關于公共衛生領域證據質量分級方法的問題進行匯總分析，最終形成了7類核心主題和14個問題條目（表3）。

表3 公共衛生決策證據質量分級方法問題類別及條目

表選項

下載CSV

類別	條目
A.證據來源問題^{[4-5,7,11-12,14,16]}	A1.非流行病學研究證據的忽視，如實驗室、動物研究、其他學科（如生理學、工程學、毒理學、化學、物理學）的原理，關于實施和背景的證據等其他來源的研究證據
	A2.公共衛生決策需要整合不同利益相關者觀點
B.不同類型研究的證據分級問題^{[4-8,11-12,17,19]}	B1.公共衛生領域RCT研究證據稀缺，證據質量分級方法更偏向于RCT研究證據
	B2.觀察性研究缺少分級，不同類型的觀察性研究起始證據等級低且相同，難以反映該領域真實證據質量
C.復雜干預研究的證據分級問題^{[5-8,12-13,19]}	C1.復雜干預研究因異質性、間接性、研究局限性等原因，頻頻降級，難以反映該措施真實實施效果
	C2.證據質量分級方法缺乏系統機制整合考慮復雜干預措施的實施因素和背景
D.證據質量分級方法一致性的問題^{[4,7-8,14,18]}	D1.不同證據質量分級方法之間評價結果一致性較差
	D2.證據質量分級方法不夠客觀，使用者評價證據質量時，主觀性較大，不同使用者之間證據質量分級評價結果難以一致
E.證據質量分級方法復雜性的問題^[4,8]	E1.證據質量分級方法使用過于復雜，耗時耗力，應用困難
F.證據質量分級方法有效性問題^[4-7,17]	F1.證據質量分級方法缺少驗證，有效性較差
	F2.公共衛生領域研究因研究局限性、異質性、間接性等原因，難以合并分析，評估證據質量結果有偏差或遺漏部分研究，低估真實質量
G.證據質量分級結果問題^{[4-7,11-12,17-18]}	G1.決策時對低質量證據的忽視
	G2.證據的間接性，包括人群和環境的間接性，證據結果外部有效性較差

2.4.1 證據來源問題

7項研究^{[4-5,7,11-12,14,16]}探討了證據來源問題。公共衛生決策影響多數人群，其證據來源多種化。隨機對照試驗（randomized controlled trial，RCT）作為高質量證據，為衛生決策提供了重要支撐^[20]。但是對于許多公共衛生問題，更多時候沒有來自RCT的證據，觀察性研究或自然實驗可能是唯一可行的研究設計^[14]。判斷公共衛生干預措施的有效性有時依賴于流行病學以外的證據來源^[5]，但GRADE方法對其他類型證據的適用性非常有限^[7]，因此為臨床決策提供建議的GRADE分級系統和其他類似的證據質量分級方法不能直接照搬應用于公共衛生的政策制定中。此外公共衛生決策得益于廣泛的證據，公共衛生面向多學科、多領域的受眾，他們對健康證據的看法可能不同，代表不同的“證據文化”^[12]。因此公共衛生決策需要整合不同利益相關者的觀點。

2.4.2 不同類型研究的證據分級問題

9項研究^{[4-8,11-12,17,19]}提出了不同類型研究的證據分級問題。公共衛生領域研究類型多樣，但由于技術或倫理上的原因，隨機研究存在實施困難，而基于人群的大規模觀察性研究往往可以提供更適用的研究結果^[4]。但在現有證據質量分級中，RCT會被自動分配到高級別等級，而非RCT起始證據等級大多較低且無區分，難以反映該領域的真實證據質量。

GRADE分級系統中，來自觀察性研究（沒有明確區分其不同類型，如隊列研究與病例-對照研究）的證據由于缺乏隨機化，被評為低等級。但在實際應用中，某些類型的非RCT研究可能比其他類型的研究提供更高級別的證據質量，例如時間序列分析或回歸不連續性等設計可以解決選擇性偏倚和混雜問題，相比隊列和病例-對照研究等其他觀察設計提供了更強的因果推論^[11]。GRADE方法中包含的用于提升觀察性研究證據質量的標準太少，沒有適當地區分不同強弱的觀察性研究設計，這可能會導致對證據的誤解，甚至會阻礙“最佳可能”研究的開展^[7]。

2.4.3 復雜干預研究的證據分級問題

7項研究^{[5-8,12-13,19]}探討了復雜干預研究的證據分級問題。公共衛生干預措施的性質與大多數臨床干預措施不同，在臨床研究中，研究對象、干預措施以及結局指標的測量是高度標準化的。公共衛生干預措施往往比較復雜，涉及多個組成部分，這對納入或排除某些研究、如何解釋異質性以及如何謹慎做出判斷提出了挑戰^[7]。在GRADE方法中，復雜干預研究因異質性、間接性等原因，多次降級，因此并不能真實反映復雜干預措施的實施情況^[8]。

另外公共衛生干預措施通常高度依賴于環境，如果在另一個環境中重復該方案，可能會有不同的結果^[6]，因此評估復雜干預措施的證據時，要對干預措施的實施背景進行考慮。然而在使用GRADE進行證據質量評級時，缺乏系統機制來整合復雜干預措施的實施因素和背景數據^[13]。

2.4.4 證據質量分級方法一致性的問題

5項研究^{[4,7-8,14,18]}探討了證據質量分級方法一致性的問題，主要體現在兩個方面：① 不同證據質量分級方法之間評價結果一致性較差。證據質量分級方法眾多，如果證據質量分級方法具有同期效度，那么基于相同目的設計的不同方法的評價結果應該高度一致^[4]。但是大多數證據質量分級方法之間的可靠性和并發效度都很低，導致對結果的解釋大相徑庭。② 證據質量分級容易受到主觀因素的影響，不同使用者對證據質量分級評價結果難以一致^[4]。例如當具有不同專業背景和訓練水平的研究人員使用GRADE時，在解釋和應用升級和降級因素時，研究人員會根據自己所考慮的維度做出不同的推理^[18]。

2.4.5 證據質量分級方法復雜性的問題

2項研究^[4,8]探討了證據質量分級方法復雜性的問題。此問題和第3類核心問題有本質的區別，后者強調公共衛生干預措施的復雜性對證據質量評估的影響，而前者的重點在于證據質量分級方法自身使用過于復雜，耗時耗力，應用困難。研究表面，證據質量分級工具的應用比較復雜，多數證據質量分級工具沒有提供明確的使用方法術語或者提供的術語模糊不清，使得研究者不能正確使用如GRADE方法的證據質量分級工具^[21]。

2.4.6 證據質量分級方法有效性問題

5項研究^[4-7,17]探討了證據質量分級方法有效性的問題。現有的證據質量分級方法缺少驗證，有效性較差。一些研究者^[4-5,17]認為現有的證據質量分級方法缺乏數據支持其有效性，很少有證據質量分級方法提供有效性或可靠性的證據。公共衛生領域研究因研究局限性、異質性、間接性等原因，存在難以合并分析的情況，這使得如GRADE的證據質量分級方法的應用更具挑戰性。

2.4.7 證據質量分級結果問題

8項研究^{[4-7,11-12,17-18]}探討了證據質量分級結果問題，主要體現在以下兩個方面：① 公共衛生決策時對低質量證據的忽視。在GRADE評級中，公共衛生領域的很多證據是低或極低質量等級。在這種情況下，可能會被作為不重視現有研究證據的理由，從而不實施可能有益的公共衛生干預措施。② 證據外部有效性較差。外部有效性主要是指研究結果在現實生活中的可推廣性，也可以包括在現實世界中應用研究結果的可行性，以及干預措施在一段時間內的可持續性^[4]。證據質量分級方法應考慮對受影響人群的利弊、實施健康干預的難易、不同地區環境的適用性差異等因素。然而，證據質量分級方法的設計往往只關注科學研究證據的穩定性，并不包括任何評價研究結果外部有效性的指標。

3 討論

本研究納入14篇探討證據質量分級方法問題的研究，涉及7個國家，質量評價結果顯示多數研究的總體質量較高。使用主題綜合法對納入研究中提出的證據質量分級方法的應用問題進行綜合分析，最終形成了7類核心主題和13個問題條目。這些問題涉及研究證據設計實施類型、分級過程和分級結果3個方面。

證據質量分級方法的評價對象是特定問題的研究證據，公共衛生證據形式來源多種多樣^[22]。從證據來源看，有科學研究性證據和觀點經驗性證據；從研究設計類型看，有干預性研究設計和觀察性研究設計；從干預類型看，有簡單干預設計和復雜干預設計。公共衛生決策還需要利用除了傳統流行病學研究設計層次之外的證據來源。公共衛生證據與環境背景息息相關^[23-24]，因此有必要在系統評價中獲取有關干預實施、經濟學、公平性和整體社會經濟環境的信息^[25]。其次，根據定義，公共衛生決策是基于多學科和多部門的，依賴于更廣泛的證據來源，包括來自相關的風險因素、干預措施或人群的“平行證據”，這些因素可能會增強對證據質量的總體信心^[7]。因此，GRADE方法需要提供一個框架來系統地評估和整合背景證據和流行病學以外的學科產生的證據。

一些研究者認為證據質量分級方法指導描述不明確或者不恰當，導致使用者很大程度依賴主觀性，有意或無意地得出符合他們自己預想的結論，導致證據評級結果不恰當，特別是以來自觀察性研究和復雜干預研究證據等級評估問題最為突出。一項研究^[13]表明，與簡單干預相比，復雜干預研究設計證據的結果更有可能被評為“極低”的證據質量，這些結果的證據質量評級更大概率因為研究設計、偏倚風險和異質性的因素而降級。復雜的干預措施本質上存在異質性^[26]，另外復雜的干預措施也有可能與現實環境中實施的干預措施不同，因此容易產生異質性和間接性。通過降低異質性和間接性的評級，大多數復雜的干預研究將只能提供低質量的證據，這對證據使用者來說不公平，因為決策時容易忽視低質量等級的研究證據。

研究發現，雖然證據質量分級方法眾多，但GRADE方法是納入研究探討的唯一證據質量分級方法。其原因主要是GRADE方法明確界定了證據質量和推薦強度，突破了過去主要從研究設計角度考慮證據質量的局限性，綜合考慮研究設計、研究質量、研究結果的一致性和直接性，對不同級別證據的升級與降級有明確、綜合的標準^[27]。且相對于SIGN、牛津標準等，GRADE更易于理解和使用，已經成為國際上應用最為廣泛的證據質量分級方法^[1,28]。使用GRADE方法對大量證據進行評級已經成為系統評價和其他證據綜合中一個重要的步驟。世界衛生組織要求所有的指南都要經過GRADE方法評估后作為證據支撐^[6]。然而，本次研究發現，使用GRADE方法來評估公共衛生干預措施的證據仍然存在很多挑戰^[29]，因此有必要歸納整理出公共衛生決策中證據質量分級的關鍵問題，為開發更適宜公共衛生領域研究的證據質量分級方法提供參考。

本研究的局限性：① 雖然在統一的主題框架下完成，但定性研究普遍存在個人的主觀因素，一定程度上會影響主題的綜合結果；② 納入研究數量較少，且均來自西方發達國家，可能無法反應其他經濟文化環境下的公共衛生決策證據質量分級方法的問題情況；③ 在資料提取中采用自設資料提取表的形式，缺乏一定的權威性和普適性。

綜上，現有的公共衛生決策證據質量分級方法存在證據來源多樣、復雜干預研究的證據等級被低估等問題，建議專家學者積極進行對公共衛生決策證據質量分級方法問題的研究，推動循證公共衛生決策的發展。

1 資料和方法

1.1 納入與排除標準

1.1.1 納入標準

1.1.2 排除標準

① 只綜述方法而無評審人員或開發人員的經驗或問題反思的方法或技術手冊；② 重復發表的文獻；③ 非中、英文文獻；④ 數據不完整的文獻。

1.2 文獻檢索策略

1.3 文獻篩選與資料提取

1.4 納入研究的質量評價

采用批判評估技術方案（critical appraisal skills programme，CASP）^[9-10]對納入研究的方法學進行質量評價。對于混合性研究，僅對定性研究部分進行評價。

1.5 統計分析

2 結果

2.1 文獻篩選結果

2.2 納入研究的基本特征

納入研究的基本特征見表1。

表1 納入研究的基本特征

表選項

下載CSV

納入研究	國家	研究類型	主要研究方法	證據質量分級方法
Irving 2016^[4]	澳大利亞	系統評價	文獻回顧	GRADE
Durrheim 2010^[5]	澳大利亞	社論	?	GRADE
Burford 2012^[6]	澳大利亞	定性研究	定性分析	GRADE
Rehfuess 2013^[7]	德國	定性研究	半結構化訪談	GRADE
Movsisyan 2016^[8]	英國	定性研究	開放式訪談	GRADE
Boon 2021^[11]	英國	文獻綜述	主題綜合、專家共識	GRADE
Akl 2012^[12]	美國	定性研究	專家共識、案例分析	GRADE
Movsisyan 2016^[13]	英國	系統評價	定性系統評價	GRADE
Barbui 2010^[14]	意大利	定性研究	定性分析、案例分析	GRADE
Pottie 2012^[15]	加拿大	定性研究	案例研究	GRADE
Forland 2012^[16]	瑞典	系統評價	文獻回顧	GRADE
Harder 2015^[17]	德國	定性研究	專家會議、案例分析	GRADE
Hartling 2012^[18]	加拿大	定性研究	橫斷面描述性研究	GRADE
Tobias 2021^[19]	美國	社論	?	GRADE
?：未報道。

2.3 納入研究的質量評價結果

納入研究的質量評價結果見表2。

表2 納入研究的質量評價結果

表選項

下載CSV

納入研究	是否清晰描述研究目的	定性研究方法應用是否恰當	研究設計是否適合解決研究問題	研究對象招募策略是否恰當	收集的資料能否解決研究問題	是否考慮研究者與參與者之間關系	是否考慮倫理問題	資料分析是否嚴謹	是否清楚描述研究結果	是否提到研究價值	質量評價等級
Irving 2016^[4]	是	是	是	是	是	不清楚	不涉及	是	是	是	高
Burford 2012^[6]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Rehfuess 2013^[7]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[8]	是	是	是	是	是	是	是	是	是	是	高
Boon 2021^[11]	是	是	是	是	是	是	不涉及	是	是	是	高
Akl 2012^[12]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[13]	是	是	是	是	是	是	不涉及	是	是	是	高
Barbui 2010^[14]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Pottie 2012^[15]	是	不清楚	否	否	不清楚	否	不涉及	不清楚	是	是	中
Forland 2012^[16]	是	是	是	是	是	否	不涉及	是	是	是	高
Harder 2015^[17]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Hartling 2012^[18]	是	是	是	是	是	是	不涉及	是	是	是	高

2.4 主題綜合結果

利用主題綜合法，對納入研究中關于公共衛生領域證據質量分級方法的問題進行匯總分析，最終形成了7類核心主題和14個問題條目（表3）。

表3 公共衛生決策證據質量分級方法問題類別及條目

表選項

下載CSV

類別	條目
A.證據來源問題^{[4-5,7,11-12,14,16]}	A1.非流行病學研究證據的忽視，如實驗室、動物研究、其他學科（如生理學、工程學、毒理學、化學、物理學）的原理，關于實施和背景的證據等其他來源的研究證據
	A2.公共衛生決策需要整合不同利益相關者觀點
B.不同類型研究的證據分級問題^{[4-8,11-12,17,19]}	B1.公共衛生領域RCT研究證據稀缺，證據質量分級方法更偏向于RCT研究證據
	B2.觀察性研究缺少分級，不同類型的觀察性研究起始證據等級低且相同，難以反映該領域真實證據質量
C.復雜干預研究的證據分級問題^{[5-8,12-13,19]}	C1.復雜干預研究因異質性、間接性、研究局限性等原因，頻頻降級，難以反映該措施真實實施效果
	C2.證據質量分級方法缺乏系統機制整合考慮復雜干預措施的實施因素和背景
D.證據質量分級方法一致性的問題^{[4,7-8,14,18]}	D1.不同證據質量分級方法之間評價結果一致性較差
	D2.證據質量分級方法不夠客觀，使用者評價證據質量時，主觀性較大，不同使用者之間證據質量分級評價結果難以一致
E.證據質量分級方法復雜性的問題^[4,8]	E1.證據質量分級方法使用過于復雜，耗時耗力，應用困難
F.證據質量分級方法有效性問題^[4-7,17]	F1.證據質量分級方法缺少驗證，有效性較差
	F2.公共衛生領域研究因研究局限性、異質性、間接性等原因，難以合并分析，評估證據質量結果有偏差或遺漏部分研究，低估真實質量
G.證據質量分級結果問題^{[4-7,11-12,17-18]}	G1.決策時對低質量證據的忽視
	G2.證據的間接性，包括人群和環境的間接性，證據結果外部有效性較差

2.4.1 證據來源問題

2.4.2 不同類型研究的證據分級問題

2.4.3 復雜干預研究的證據分級問題

2.4.4 證據質量分級方法一致性的問題

2.4.5 證據質量分級方法復雜性的問題

2.4.6 證據質量分級方法有效性問題

2.4.7 證據質量分級結果問題

3 討論

表1 納入研究的基本特征

納入研究	國家	研究類型	主要研究方法	證據質量分級方法
Irving 2016^[4]	澳大利亞	系統評價	文獻回顧	GRADE
Durrheim 2010^[5]	澳大利亞	社論	?	GRADE
Burford 2012^[6]	澳大利亞	定性研究	定性分析	GRADE
Rehfuess 2013^[7]	德國	定性研究	半結構化訪談	GRADE
Movsisyan 2016^[8]	英國	定性研究	開放式訪談	GRADE
Boon 2021^[11]	英國	文獻綜述	主題綜合、專家共識	GRADE
Akl 2012^[12]	美國	定性研究	專家共識、案例分析	GRADE
Movsisyan 2016^[13]	英國	系統評價	定性系統評價	GRADE
Barbui 2010^[14]	意大利	定性研究	定性分析、案例分析	GRADE
Pottie 2012^[15]	加拿大	定性研究	案例研究	GRADE
Forland 2012^[16]	瑞典	系統評價	文獻回顧	GRADE
Harder 2015^[17]	德國	定性研究	專家會議、案例分析	GRADE
Hartling 2012^[18]	加拿大	定性研究	橫斷面描述性研究	GRADE
Tobias 2021^[19]	美國	社論	?	GRADE
?：未報道。

表選項

下載CSV

表2 納入研究的質量評價結果

納入研究	是否清晰描述研究目的	定性研究方法應用是否恰當	研究設計是否適合解決研究問題	研究對象招募策略是否恰當	收集的資料能否解決研究問題	是否考慮研究者與參與者之間關系	是否考慮倫理問題	資料分析是否嚴謹	是否清楚描述研究結果	是否提到研究價值	質量評價等級
Irving 2016^[4]	是	是	是	是	是	不清楚	不涉及	是	是	是	高
Burford 2012^[6]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Rehfuess 2013^[7]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[8]	是	是	是	是	是	是	是	是	是	是	高
Boon 2021^[11]	是	是	是	是	是	是	不涉及	是	是	是	高
Akl 2012^[12]	是	是	是	是	是	是	不涉及	是	是	是	高
Movsisyan 2016^[13]	是	是	是	是	是	是	不涉及	是	是	是	高
Barbui 2010^[14]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Pottie 2012^[15]	是	不清楚	否	否	不清楚	否	不涉及	不清楚	是	是	中
Forland 2012^[16]	是	是	是	是	是	否	不涉及	是	是	是	高
Harder 2015^[17]	是	不清楚	否	不清楚	是	否	不涉及	不清楚	是	是	中
Hartling 2012^[18]	是	是	是	是	是	是	不涉及	是	是	是	高

表選項

下載CSV

表3 公共衛生決策證據質量分級方法問題類別及條目

類別	條目
A.證據來源問題^{[4-5,7,11-12,14,16]}	A1.非流行病學研究證據的忽視，如實驗室、動物研究、其他學科（如生理學、工程學、毒理學、化學、物理學）的原理，關于實施和背景的證據等其他來源的研究證據
	A2.公共衛生決策需要整合不同利益相關者觀點
B.不同類型研究的證據分級問題^{[4-8,11-12,17,19]}	B1.公共衛生領域RCT研究證據稀缺，證據質量分級方法更偏向于RCT研究證據
	B2.觀察性研究缺少分級，不同類型的觀察性研究起始證據等級低且相同，難以反映該領域真實證據質量
C.復雜干預研究的證據分級問題^{[5-8,12-13,19]}	C1.復雜干預研究因異質性、間接性、研究局限性等原因，頻頻降級，難以反映該措施真實實施效果
	C2.證據質量分級方法缺乏系統機制整合考慮復雜干預措施的實施因素和背景
D.證據質量分級方法一致性的問題^{[4,7-8,14,18]}	D1.不同證據質量分級方法之間評價結果一致性較差
	D2.證據質量分級方法不夠客觀，使用者評價證據質量時，主觀性較大，不同使用者之間證據質量分級評價結果難以一致
E.證據質量分級方法復雜性的問題^[4,8]	E1.證據質量分級方法使用過于復雜，耗時耗力，應用困難
F.證據質量分級方法有效性問題^[4-7,17]	F1.證據質量分級方法缺少驗證，有效性較差
	F2.公共衛生領域研究因研究局限性、異質性、間接性等原因，難以合并分析，評估證據質量結果有偏差或遺漏部分研究，低估真實質量
G.證據質量分級結果問題^{[4-7,11-12,17-18]}	G1.決策時對低質量證據的忽視
	G2.證據的間接性，包括人群和環境的間接性，證據結果外部有效性較差

表選項

下載CSV

1.	張薇, 許吉, 鄧宏勇. 國際醫學證據分級與推薦體系發展及現狀. 中國循證醫學雜志, 2019, 19(11): 1373-1378.
2.	陳耀龍, 姚亮, SusanNorris, 等. GRADE在系統評價中應用的必要性及注意事項. 中國循證醫學雜志, 2013, 13(12): 1401-1404.
3.	黃橋, 任相穎, 張蓉, 等. GRADE在我國臨床實踐指南/專家共識中的應用研究. 中國循證醫學雜志, 2021, 21(12): 1457-1462.
4.	Irving M, Eramudugolla R, Cherbuin N, et al. A critical review of grading systems: implications for public health policy. Eval Health Prof, 2017, 40(2): 244-262.
5.	Durrheim DN, Reingold A. Modifying the GRADE framework could benefit public health. J Epidemiol Community Health, 2010, 64(5): 387.
6.	Burford BJ, Rehfuess E, Schünemann HJ, et al. Assessing evidence in public health: the added value of GRADE. J Public Health (Oxf), 2012, 34(4): 631-635.
7.	Rehfuess EA, Akl EA. Current experience with applying the GRADE approach to public health interventions: an empirical study. BMC Public Health, 2013, 13: 9.
8.	Movsisyan A, Melendez-Torres GJ, Montgomery P. Users identified challenges in applying GRADE to complex interventions and suggested an extension to GRADE. J Clin Epidemiol, 2016, 70: 191-199.
9.	Casp U. Critical appraisal skills programme (CASP) check lists. 2017.
10.	Fox JR, Dean M, Whittlesea A. The experience of caring for or living with an individual with an eating disorder: a meta-synthesis of qualitative studies. Clin Psychol Psychother, 2017, 24(1): 103-125.
11.	Hilton Boon M, Thomson H, Shaw B, et al. Challenges in applying the GRADE approach in public health guidelines and systematic reviews: a concept article from the GRADE Public Health Group. J Clin Epidemiol, 2021, 135: 42-53.
12.	Akl EA, Kennedy C, Konda K, et al. Using GRADE methodology for the development of public health guidelines for the prevention and treatment of HIV and other STIs among men who have sex with men and transgender people. BMC Public Health, 2012, 12: 386.
13.	Movsisyan A, Melendez-Torres GJ, Montgomery P. Outcomes in systematic reviews of complex interventions never reached "high" GRADE ratings when compared with those of simple interventions. J Clin Epidemiol, 2016, 78: 22-33.
14.	Barbui C, Dua T, van Ommeren M, et al. Challenges in developing evidence-based recommendations using the GRADE approach: the case of mental, neurological, and substance use disorders. PLoS Med, 2010, 7(8): e1000322.
15.	Pottie K, Connor Gorber S, Singh H, et al. Estimating benefits and harms of screening across subgroups: the Canadian Task Force on Preventive Health Care integrates the GRADE approach and overcomes minor challenges. J Clin Epidemiol, 2012, 65(12): 1245-1248.
16.	Forland F, De Carvalho Gomes H, Nokleby H, et al. Applicability of evidence-based practice in public health: risk assessment on Q fever under an ongoing outbreak. Euro Surveill, 2012, 17(3): 20060.
17.	Harder T, Abu Sin M, Bosch-Capblanch X, et al. Towards a framework for evaluating and grading evidence in public health. Health Policy, 2015, 119(6): 732-736.
18.	Hartling L, Fernandes RM, Seida J, et al. From the trenches: a cross-sectional study applying the GRADE tool in systematic reviews of healthcare interventions. PLoS One, 2012, 7(4): e34697.
19.	Tobias DK, Wittenbecher C, Hu FB. Grading nutrition evidence: where to go from here. Am J Clin Nutr, 2021, 113(6): 1385-1387.
20.	張萍, 張崇凡. 隨機臨床試驗報告統一標準聲明2022擴展版建議的清單條目翻譯和解讀. 中國循證兒科雜志, 2023, 18(2): 142-147.
21.	王子君, 姚亮, 劉練, 等. 推薦分級的評估、制訂與評價(GRADE)方法學家的培訓與認證. 中國循證兒科雜志, 2017, 12(5): 388-391.
22.	Brownson RC, Fielding JE, Maylahn CM. Evidence-based public health: a fundamental concept for public health practice. Annu Rev Public Health, 2009, 30: 175-201.
23.	Petruzzi L, Ewald B, Covington E, et al. Exploring the efficacy of social work interventions in hospital settings: a scoping review. Soc Work Public Health, 2023, 38(2): 147-160.
24.	Walugembe DR, Sibbald S, Le Ber MJ, et al. Sustainability of public health interventions: where are the gaps. Health Res Policy Syst, 2019, 17(1): 8.
25.	Waters E, Hall BJ, Armstrong R, et al. Essential components of public health evidence reviews: capturing intervention complexity, implementation, economics and equity. J Public Health (Oxf), 2011, 33(3): 462-465.
26.	Murad MH, Almasri J, Alsawas M, et al. Grading the quality of evidence in complex interventions: a guide for evidence-based practitioners. Evid Based Med, 2017, 22(1): 20-22.
27.	Guyatt GH, Oxman AD, Schünemann HJ, et al. GRADE guidelines: a new series of articles in the Journal of Clinical Epidemiology. J Clin Epidemiol, 2011, 64(4): 380-382.
28.	Baker A, Potter J, Young K, et al. The applicability of grading systems for guidelines. J Eval Clin Pract, 2011, 17(4): 758-762.
29.	Goldkuhle M, Bender R, Akl EA, et al. GRADE Guidelines: 29. Rating the certainty in time-to-event outcomes-Study limitations due to censoring of participants with missing data in intervention studies. J Clin Epidemiol, 2021, 129: 126-137.

1. 張薇, 許吉, 鄧宏勇. 國際醫學證據分級與推薦體系發展及現狀. 中國循證醫學雜志, 2019, 19(11): 1373-1378.
2. 陳耀龍, 姚亮, SusanNorris, 等. GRADE在系統評價中應用的必要性及注意事項. 中國循證醫學雜志, 2013, 13(12): 1401-1404.
3. 黃橋, 任相穎, 張蓉, 等. GRADE在我國臨床實踐指南/專家共識中的應用研究. 中國循證醫學雜志, 2021, 21(12): 1457-1462.
4. Irving M, Eramudugolla R, Cherbuin N, et al. A critical review of grading systems: implications for public health policy. Eval Health Prof, 2017, 40(2): 244-262.
5. Durrheim DN, Reingold A. Modifying the GRADE framework could benefit public health. J Epidemiol Community Health, 2010, 64(5): 387.
6. Burford BJ, Rehfuess E, Schünemann HJ, et al. Assessing evidence in public health: the added value of GRADE. J Public Health (Oxf), 2012, 34(4): 631-635.
7. Rehfuess EA, Akl EA. Current experience with applying the GRADE approach to public health interventions: an empirical study. BMC Public Health, 2013, 13: 9.
8. Movsisyan A, Melendez-Torres GJ, Montgomery P. Users identified challenges in applying GRADE to complex interventions and suggested an extension to GRADE. J Clin Epidemiol, 2016, 70: 191-199.
9. Casp U. Critical appraisal skills programme (CASP) check lists. 2017.
10. Fox JR, Dean M, Whittlesea A. The experience of caring for or living with an individual with an eating disorder: a meta-synthesis of qualitative studies. Clin Psychol Psychother, 2017, 24(1): 103-125.
11. Hilton Boon M, Thomson H, Shaw B, et al. Challenges in applying the GRADE approach in public health guidelines and systematic reviews: a concept article from the GRADE Public Health Group. J Clin Epidemiol, 2021, 135: 42-53.
12. Akl EA, Kennedy C, Konda K, et al. Using GRADE methodology for the development of public health guidelines for the prevention and treatment of HIV and other STIs among men who have sex with men and transgender people. BMC Public Health, 2012, 12: 386.
13. Movsisyan A, Melendez-Torres GJ, Montgomery P. Outcomes in systematic reviews of complex interventions never reached "high" GRADE ratings when compared with those of simple interventions. J Clin Epidemiol, 2016, 78: 22-33.
14. Barbui C, Dua T, van Ommeren M, et al. Challenges in developing evidence-based recommendations using the GRADE approach: the case of mental, neurological, and substance use disorders. PLoS Med, 2010, 7(8): e1000322.
15. Pottie K, Connor Gorber S, Singh H, et al. Estimating benefits and harms of screening across subgroups: the Canadian Task Force on Preventive Health Care integrates the GRADE approach and overcomes minor challenges. J Clin Epidemiol, 2012, 65(12): 1245-1248.
16. Forland F, De Carvalho Gomes H, Nokleby H, et al. Applicability of evidence-based practice in public health: risk assessment on Q fever under an ongoing outbreak. Euro Surveill, 2012, 17(3): 20060.
17. Harder T, Abu Sin M, Bosch-Capblanch X, et al. Towards a framework for evaluating and grading evidence in public health. Health Policy, 2015, 119(6): 732-736.
18. Hartling L, Fernandes RM, Seida J, et al. From the trenches: a cross-sectional study applying the GRADE tool in systematic reviews of healthcare interventions. PLoS One, 2012, 7(4): e34697.
19. Tobias DK, Wittenbecher C, Hu FB. Grading nutrition evidence: where to go from here. Am J Clin Nutr, 2021, 113(6): 1385-1387.
20. 張萍, 張崇凡. 隨機臨床試驗報告統一標準聲明2022擴展版建議的清單條目翻譯和解讀. 中國循證兒科雜志, 2023, 18(2): 142-147.
21. 王子君, 姚亮, 劉練, 等. 推薦分級的評估、制訂與評價(GRADE)方法學家的培訓與認證. 中國循證兒科雜志, 2017, 12(5): 388-391.
22. Brownson RC, Fielding JE, Maylahn CM. Evidence-based public health: a fundamental concept for public health practice. Annu Rev Public Health, 2009, 30: 175-201.
23. Petruzzi L, Ewald B, Covington E, et al. Exploring the efficacy of social work interventions in hospital settings: a scoping review. Soc Work Public Health, 2023, 38(2): 147-160.
24. Walugembe DR, Sibbald S, Le Ber MJ, et al. Sustainability of public health interventions: where are the gaps. Health Res Policy Syst, 2019, 17(1): 8.
25. Waters E, Hall BJ, Armstrong R, et al. Essential components of public health evidence reviews: capturing intervention complexity, implementation, economics and equity. J Public Health (Oxf), 2011, 33(3): 462-465.
26. Murad MH, Almasri J, Alsawas M, et al. Grading the quality of evidence in complex interventions: a guide for evidence-based practitioners. Evid Based Med, 2017, 22(1): 20-22.
27. Guyatt GH, Oxman AD, Schünemann HJ, et al. GRADE guidelines: a new series of articles in the Journal of Clinical Epidemiology. J Clin Epidemiol, 2011, 64(4): 380-382.
28. Baker A, Potter J, Young K, et al. The applicability of grading systems for guidelines. J Eval Clin Pract, 2011, 17(4): 758-762.
29. Goldkuhle M, Bender R, Akl EA, et al. GRADE Guidelines: 29. Rating the certainty in time-to-event outcomes-Study limitations due to censoring of participants with missing data in intervention studies. J Clin Epidemiol, 2021, 129: 126-137.

《中國循證醫學雜志》

優先發表公共衛生決策證據質量分級方法問題的定性系統評價

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料和方法

1.1 納入與排除標準

1.1.1 納入標準

1.1.2 排除標準

1.2 文獻檢索策略

1.3 文獻篩選與資料提取

1.4 納入研究的質量評價

1.5 統計分析

2 結果

2.1 文獻篩選結果

2.2 納入研究的基本特征

2.3 納入研究的質量評價結果

2.4 主題綜合結果

2.4.1 證據來源問題

2.4.2 不同類型研究的證據分級問題

2.4.3 復雜干預研究的證據分級問題

2.4.4 證據質量分級方法一致性的問題

2.4.5 證據質量分級方法復雜性的問題

2.4.6 證據質量分級方法有效性問題

2.4.7 證據質量分級結果問題

3 討論

1 資料和方法

1.1 納入與排除標準

1.1.1 納入標準

1.1.2 排除標準

1.2 文獻檢索策略

1.3 文獻篩選與資料提取

1.4 納入研究的質量評價

1.5 統計分析

2 結果

2.1 文獻篩選結果

2.2 納入研究的基本特征

2.3 納入研究的質量評價結果

2.4 主題綜合結果

2.4.1 證據來源問題

2.4.2 不同類型研究的證據分級問題

2.4.3 復雜干預研究的證據分級問題

2.4.4 證據質量分級方法一致性的問題

2.4.5 證據質量分級方法復雜性的問題

2.4.6 證據質量分級方法有效性問題

2.4.7 證據質量分級結果問題

3 討論

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料