證據質量分級是循證決策的精髓[1]。證據質量分級方法作為循證決策的一個重要組成部分,廣泛應用于衛生指南、系統評價的制定和評估,對衛生保健和政策制定部門有重要的影響[2-3]。研究人員和政策制定者通過證據質量分級方法對科學研究成果的質量和穩健性進行分級、評價,得出關于特定主題的科學研究的結論,從而為公共衛生決策和實踐提供依據[4]。
證據質量分級方法眾多,目前流行的證據質量分級方法有SIGN(The Scottish Intercollegiate Guidelines Network)證據分級標準、OCEBM(Oxford Center for Evidence-based Medicine)證據分級標準、GRADE(Grades of Recommendations Assessment,Development and Evaluation)分級系統等,主要應用于經典臨床試驗設計之中。在公共衛生領域還未形成行之有效的證據質量分級方法。有研究發現,由于公共衛生證據研究背景、研究設計等環節的復雜性,這些證據質量分級方法難以充分評估公共衛生決策證據的真實質量[7]。有研究者[5-8]認為,公共衛生決策證據質量分級存在偏向于隨機對照試驗、沒有充分評估非隨機研究證據和處理異質性以及復雜干預措施等問題。針對以上問題,本研究采用定性系統評價的方法,梳理目前公共衛生決策證據質量分級的主要問題和挑戰,旨在為公共衛生決策證據質量分級中的關鍵問題遴選提供理論依據。
1 資料和方法
1.1 納入與排除標準
1.1.1 納入標準
基于SPIDER模型構建研究問題,形成納入標準:研究對象(S):公共衛生決策證據質量分級方法的相關研究;研究內容(PI):公共衛生領域中關于證據質量分級方法的問題、反思、經驗等,或明確提及證據質量分級方法在公共衛生決策中的應用問題并對其有具體的描述;研究方法(D):文獻研究、專家咨詢法、訪談法等;評價內容(E):證據質量分級方法的應用;研究類型(R):不限。
1.1.2 排除標準
① 只綜述方法而無評審人員或開發人員的經驗或問題反思的方法或技術手冊;② 重復發表的文獻;③ 非中、英文文獻;④ 數據不完整的文獻。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、CNKI、WanFang Data、CBM和VIP數據庫,搜集公共衛生決策證據質量分級方法應用相關研究,檢索時限均為建庫至2022年12月。檢索采用主題詞與自由詞結合的方式,同時追蹤納入研究的參考文獻,通過滾雪球的方式進行補充檢索。中文檢索詞包括:公共衛生、衛生管理、衛生保健、證據分級、證據評價、證據等級、分級體系、證據體系等;英文檢索詞包括:public health、epidemiology、preventive medicine、tropical medicine、evidence assessment、evidence certainty、evidence quality、evidence grading、evidence hierarchy等。
1.3 文獻篩選與資料提取
由2名研究人員背對背進行文獻篩選和資料提取,并交叉核對結果,若觀點不一致,與第三位研究者進行討論解決。研究人員首先通過閱讀納入研究的標題和摘要進行初步篩選,排除明顯不相關研究后進行全文閱讀以確定最終納入的研究。利用Excel 2021軟件設計資料提取表,提取內容主要包括:納入研究的作者、國家、研究對象、文章類型、研究方法、研究問題內容等。
1.4 納入研究的質量評價
采用批判評估技術方案(critical appraisal skills programme,CASP)[9-10]對納入研究的方法學進行質量評價。對于混合性研究,僅對定性研究部分進行評價。
1.5 統計分析
采用主題綜合法對納入研究的證據質量分級問題進行初步歸納,通過“三級詮釋”的方法,定性整合公共衛生決策證據質量分級問題的一級問題條目,再對其進行逐級闡釋和提煉,形成一級問題條目下的二級問題,最終構建公共衛生決策證據質量分級關鍵問題條目清單。不能達成一致的主題由第三名研究者提出建議并統一意見。
2 結果
2.1 文獻篩選結果
初步檢索文獻獲得16 037篇,包括PubMed(n=9 791)、Web of Science(n=5 397)、CNKI(n=133)、WanFang Data(n=533)、CBM(n=133)和VIP(n=50)。經過逐層篩選,最終納入文獻14篇[4-8,11-19]。
2.2 納入研究的基本特征
納入研究的基本特征見表1。

2.3 納入研究的質量評價結果
納入研究的質量評價結果見表2。

2.4 主題綜合結果
利用主題綜合法,對納入研究中關于公共衛生領域證據質量分級方法的問題進行匯總分析,最終形成了7類核心主題和14個問題條目(表3)。

2.4.1 證據來源問題
7項研究[4-5,7,11-12,14,16]探討了證據來源問題。公共衛生決策影響多數人群,其證據來源多種化。隨機對照試驗(randomized controlled trial,RCT)作為高質量證據,為衛生決策提供了重要支撐[20]。但是對于許多公共衛生問題,更多時候沒有來自RCT的證據,觀察性研究或自然實驗可能是唯一可行的研究設計[14]。判斷公共衛生干預措施的有效性有時依賴于流行病學以外的證據來源[5],但GRADE方法對其他類型證據的適用性非常有限[7],因此為臨床決策提供建議的GRADE分級系統和其他類似的證據質量分級方法不能直接照搬應用于公共衛生的政策制定中。此外公共衛生決策得益于廣泛的證據,公共衛生面向多學科、多領域的受眾,他們對健康證據的看法可能不同,代表不同的“證據文化”[12]。因此公共衛生決策需要整合不同利益相關者的觀點。
2.4.2 不同類型研究的證據分級問題
9項研究[4-8,11-12,17,19]提出了不同類型研究的證據分級問題。公共衛生領域研究類型多樣,但由于技術或倫理上的原因,隨機研究存在實施困難,而基于人群的大規模觀察性研究往往可以提供更適用的研究結果[4]。但在現有證據質量分級中,RCT會被自動分配到高級別等級,而非RCT起始證據等級大多較低且無區分,難以反映該領域的真實證據質量。
GRADE分級系統中,來自觀察性研究(沒有明確區分其不同類型,如隊列研究與病例-對照研究)的證據由于缺乏隨機化,被評為低等級。但在實際應用中,某些類型的非RCT研究可能比其他類型的研究提供更高級別的證據質量,例如時間序列分析或回歸不連續性等設計可以解決選擇性偏倚和混雜問題,相比隊列和病例-對照研究等其他觀察設計提供了更強的因果推論[11]。GRADE方法中包含的用于提升觀察性研究證據質量的標準太少,沒有適當地區分不同強弱的觀察性研究設計,這可能會導致對證據的誤解,甚至會阻礙“最佳可能”研究的開展[7]。
2.4.3 復雜干預研究的證據分級問題
7項研究[5-8,12-13,19]探討了復雜干預研究的證據分級問題。公共衛生干預措施的性質與大多數臨床干預措施不同,在臨床研究中,研究對象、干預措施以及結局指標的測量是高度標準化的。公共衛生干預措施往往比較復雜,涉及多個組成部分,這對納入或排除某些研究、如何解釋異質性以及如何謹慎做出判斷提出了挑戰[7]。在GRADE方法中,復雜干預研究因異質性、間接性等原因,多次降級,因此并不能真實反映復雜干預措施的實施情況[8]。
另外公共衛生干預措施通常高度依賴于環境,如果在另一個環境中重復該方案,可能會有不同的結果[6],因此評估復雜干預措施的證據時,要對干預措施的實施背景進行考慮。然而在使用GRADE進行證據質量評級時,缺乏系統機制來整合復雜干預措施的實施因素和背景數據[13]。
2.4.4 證據質量分級方法一致性的問題
5項研究[4,7-8,14,18]探討了證據質量分級方法一致性的問題,主要體現在兩個方面:① 不同證據質量分級方法之間評價結果一致性較差。證據質量分級方法眾多,如果證據質量分級方法具有同期效度,那么基于相同目的設計的不同方法的評價結果應該高度一致[4]。但是大多數證據質量分級方法之間的可靠性和并發效度都很低,導致對結果的解釋大相徑庭。② 證據質量分級容易受到主觀因素的影響,不同使用者對證據質量分級評價結果難以一致[4]。例如當具有不同專業背景和訓練水平的研究人員使用GRADE時,在解釋和應用升級和降級因素時,研究人員會根據自己所考慮的維度做出不同的推理[18]。
2.4.5 證據質量分級方法復雜性的問題
2項研究[4,8]探討了證據質量分級方法復雜性的問題。此問題和第3類核心問題有本質的區別,后者強調公共衛生干預措施的復雜性對證據質量評估的影響,而前者的重點在于證據質量分級方法自身使用過于復雜,耗時耗力,應用困難。研究表面,證據質量分級工具的應用比較復雜,多數證據質量分級工具沒有提供明確的使用方法術語或者提供的術語模糊不清,使得研究者不能正確使用如GRADE方法的證據質量分級工具[21]。
2.4.6 證據質量分級方法有效性問題
5項研究[4-7,17]探討了證據質量分級方法有效性的問題。現有的證據質量分級方法缺少驗證,有效性較差。一些研究者[4-5,17]認為現有的證據質量分級方法缺乏數據支持其有效性,很少有證據質量分級方法提供有效性或可靠性的證據。公共衛生領域研究因研究局限性、異質性、間接性等原因,存在難以合并分析的情況,這使得如GRADE的證據質量分級方法的應用更具挑戰性。
2.4.7 證據質量分級結果問題
8項研究[4-7,11-12,17-18]探討了證據質量分級結果問題,主要體現在以下兩個方面:① 公共衛生決策時對低質量證據的忽視。在GRADE評級中,公共衛生領域的很多證據是低或極低質量等級。在這種情況下,可能會被作為不重視現有研究證據的理由,從而不實施可能有益的公共衛生干預措施。② 證據外部有效性較差。外部有效性主要是指研究結果在現實生活中的可推廣性,也可以包括在現實世界中應用研究結果的可行性,以及干預措施在一段時間內的可持續性[4]。證據質量分級方法應考慮對受影響人群的利弊、實施健康干預的難易、不同地區環境的適用性差異等因素。然而,證據質量分級方法的設計往往只關注科學研究證據的穩定性,并不包括任何評價研究結果外部有效性的指標。
3 討論
本研究納入14篇探討證據質量分級方法問題的研究,涉及7個國家,質量評價結果顯示多數研究的總體質量較高。使用主題綜合法對納入研究中提出的證據質量分級方法的應用問題進行綜合分析,最終形成了7類核心主題和13個問題條目。這些問題涉及研究證據設計實施類型、分級過程和分級結果3個方面。
證據質量分級方法的評價對象是特定問題的研究證據,公共衛生證據形式來源多種多樣[22]。從證據來源看,有科學研究性證據和觀點經驗性證據;從研究設計類型看,有干預性研究設計和觀察性研究設計;從干預類型看,有簡單干預設計和復雜干預設計。公共衛生決策還需要利用除了傳統流行病學研究設計層次之外的證據來源。公共衛生證據與環境背景息息相關[23-24],因此有必要在系統評價中獲取有關干預實施、經濟學、公平性和整體社會經濟環境的信息[25]。其次,根據定義,公共衛生決策是基于多學科和多部門的,依賴于更廣泛的證據來源,包括來自相關的風險因素、干預措施或人群的“平行證據”,這些因素可能會增強對證據質量的總體信心[7]。因此,GRADE方法需要提供一個框架來系統地評估和整合背景證據和流行病學以外的學科產生的證據。
一些研究者認為證據質量分級方法指導描述不明確或者不恰當,導致使用者很大程度依賴主觀性,有意或無意地得出符合他們自己預想的結論,導致證據評級結果不恰當,特別是以來自觀察性研究和復雜干預研究證據等級評估問題最為突出。一項研究[13]表明,與簡單干預相比,復雜干預研究設計證據的結果更有可能被評為“極低”的證據質量,這些結果的證據質量評級更大概率因為研究設計、偏倚風險和異質性的因素而降級。復雜的干預措施本質上存在異質性[26],另外復雜的干預措施也有可能與現實環境中實施的干預措施不同,因此容易產生異質性和間接性。通過降低異質性和間接性的評級,大多數復雜的干預研究將只能提供低質量的證據,這對證據使用者來說不公平,因為決策時容易忽視低質量等級的研究證據。
研究發現,雖然證據質量分級方法眾多,但GRADE方法是納入研究探討的唯一證據質量分級方法。其原因主要是GRADE方法明確界定了證據質量和推薦強度,突破了過去主要從研究設計角度考慮證據質量的局限性,綜合考慮研究設計、研究質量、研究結果的一致性和直接性,對不同級別證據的升級與降級有明確、綜合的標準[27]。且相對于SIGN、牛津標準等,GRADE更易于理解和使用,已經成為國際上應用最為廣泛的證據質量分級方法[1,28]。使用GRADE方法對大量證據進行評級已經成為系統評價和其他證據綜合中一個重要的步驟。世界衛生組織要求所有的指南都要經過GRADE方法評估后作為證據支撐[6]。然而,本次研究發現,使用GRADE方法來評估公共衛生干預措施的證據仍然存在很多挑戰[29],因此有必要歸納整理出公共衛生決策中證據質量分級的關鍵問題,為開發更適宜公共衛生領域研究的證據質量分級方法提供參考。
本研究的局限性:① 雖然在統一的主題框架下完成,但定性研究普遍存在個人的主觀因素,一定程度上會影響主題的綜合結果;② 納入研究數量較少,且均來自西方發達國家,可能無法反應其他經濟文化環境下的公共衛生決策證據質量分級方法的問題情況;③ 在資料提取中采用自設資料提取表的形式,缺乏一定的權威性和普適性。
綜上,現有的公共衛生決策證據質量分級方法存在證據來源多樣、復雜干預研究的證據等級被低估等問題,建議專家學者積極進行對公共衛生決策證據質量分級方法問題的研究,推動循證公共衛生決策的發展。
證據質量分級是循證決策的精髓[1]。證據質量分級方法作為循證決策的一個重要組成部分,廣泛應用于衛生指南、系統評價的制定和評估,對衛生保健和政策制定部門有重要的影響[2-3]。研究人員和政策制定者通過證據質量分級方法對科學研究成果的質量和穩健性進行分級、評價,得出關于特定主題的科學研究的結論,從而為公共衛生決策和實踐提供依據[4]。
證據質量分級方法眾多,目前流行的證據質量分級方法有SIGN(The Scottish Intercollegiate Guidelines Network)證據分級標準、OCEBM(Oxford Center for Evidence-based Medicine)證據分級標準、GRADE(Grades of Recommendations Assessment,Development and Evaluation)分級系統等,主要應用于經典臨床試驗設計之中。在公共衛生領域還未形成行之有效的證據質量分級方法。有研究發現,由于公共衛生證據研究背景、研究設計等環節的復雜性,這些證據質量分級方法難以充分評估公共衛生決策證據的真實質量[7]。有研究者[5-8]認為,公共衛生決策證據質量分級存在偏向于隨機對照試驗、沒有充分評估非隨機研究證據和處理異質性以及復雜干預措施等問題。針對以上問題,本研究采用定性系統評價的方法,梳理目前公共衛生決策證據質量分級的主要問題和挑戰,旨在為公共衛生決策證據質量分級中的關鍵問題遴選提供理論依據。
1 資料和方法
1.1 納入與排除標準
1.1.1 納入標準
基于SPIDER模型構建研究問題,形成納入標準:研究對象(S):公共衛生決策證據質量分級方法的相關研究;研究內容(PI):公共衛生領域中關于證據質量分級方法的問題、反思、經驗等,或明確提及證據質量分級方法在公共衛生決策中的應用問題并對其有具體的描述;研究方法(D):文獻研究、專家咨詢法、訪談法等;評價內容(E):證據質量分級方法的應用;研究類型(R):不限。
1.1.2 排除標準
① 只綜述方法而無評審人員或開發人員的經驗或問題反思的方法或技術手冊;② 重復發表的文獻;③ 非中、英文文獻;④ 數據不完整的文獻。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、CNKI、WanFang Data、CBM和VIP數據庫,搜集公共衛生決策證據質量分級方法應用相關研究,檢索時限均為建庫至2022年12月。檢索采用主題詞與自由詞結合的方式,同時追蹤納入研究的參考文獻,通過滾雪球的方式進行補充檢索。中文檢索詞包括:公共衛生、衛生管理、衛生保健、證據分級、證據評價、證據等級、分級體系、證據體系等;英文檢索詞包括:public health、epidemiology、preventive medicine、tropical medicine、evidence assessment、evidence certainty、evidence quality、evidence grading、evidence hierarchy等。
1.3 文獻篩選與資料提取
由2名研究人員背對背進行文獻篩選和資料提取,并交叉核對結果,若觀點不一致,與第三位研究者進行討論解決。研究人員首先通過閱讀納入研究的標題和摘要進行初步篩選,排除明顯不相關研究后進行全文閱讀以確定最終納入的研究。利用Excel 2021軟件設計資料提取表,提取內容主要包括:納入研究的作者、國家、研究對象、文章類型、研究方法、研究問題內容等。
1.4 納入研究的質量評價
采用批判評估技術方案(critical appraisal skills programme,CASP)[9-10]對納入研究的方法學進行質量評價。對于混合性研究,僅對定性研究部分進行評價。
1.5 統計分析
采用主題綜合法對納入研究的證據質量分級問題進行初步歸納,通過“三級詮釋”的方法,定性整合公共衛生決策證據質量分級問題的一級問題條目,再對其進行逐級闡釋和提煉,形成一級問題條目下的二級問題,最終構建公共衛生決策證據質量分級關鍵問題條目清單。不能達成一致的主題由第三名研究者提出建議并統一意見。
2 結果
2.1 文獻篩選結果
初步檢索文獻獲得16 037篇,包括PubMed(n=9 791)、Web of Science(n=5 397)、CNKI(n=133)、WanFang Data(n=533)、CBM(n=133)和VIP(n=50)。經過逐層篩選,最終納入文獻14篇[4-8,11-19]。
2.2 納入研究的基本特征
納入研究的基本特征見表1。

2.3 納入研究的質量評價結果
納入研究的質量評價結果見表2。

2.4 主題綜合結果
利用主題綜合法,對納入研究中關于公共衛生領域證據質量分級方法的問題進行匯總分析,最終形成了7類核心主題和14個問題條目(表3)。

2.4.1 證據來源問題
7項研究[4-5,7,11-12,14,16]探討了證據來源問題。公共衛生決策影響多數人群,其證據來源多種化。隨機對照試驗(randomized controlled trial,RCT)作為高質量證據,為衛生決策提供了重要支撐[20]。但是對于許多公共衛生問題,更多時候沒有來自RCT的證據,觀察性研究或自然實驗可能是唯一可行的研究設計[14]。判斷公共衛生干預措施的有效性有時依賴于流行病學以外的證據來源[5],但GRADE方法對其他類型證據的適用性非常有限[7],因此為臨床決策提供建議的GRADE分級系統和其他類似的證據質量分級方法不能直接照搬應用于公共衛生的政策制定中。此外公共衛生決策得益于廣泛的證據,公共衛生面向多學科、多領域的受眾,他們對健康證據的看法可能不同,代表不同的“證據文化”[12]。因此公共衛生決策需要整合不同利益相關者的觀點。
2.4.2 不同類型研究的證據分級問題
9項研究[4-8,11-12,17,19]提出了不同類型研究的證據分級問題。公共衛生領域研究類型多樣,但由于技術或倫理上的原因,隨機研究存在實施困難,而基于人群的大規模觀察性研究往往可以提供更適用的研究結果[4]。但在現有證據質量分級中,RCT會被自動分配到高級別等級,而非RCT起始證據等級大多較低且無區分,難以反映該領域的真實證據質量。
GRADE分級系統中,來自觀察性研究(沒有明確區分其不同類型,如隊列研究與病例-對照研究)的證據由于缺乏隨機化,被評為低等級。但在實際應用中,某些類型的非RCT研究可能比其他類型的研究提供更高級別的證據質量,例如時間序列分析或回歸不連續性等設計可以解決選擇性偏倚和混雜問題,相比隊列和病例-對照研究等其他觀察設計提供了更強的因果推論[11]。GRADE方法中包含的用于提升觀察性研究證據質量的標準太少,沒有適當地區分不同強弱的觀察性研究設計,這可能會導致對證據的誤解,甚至會阻礙“最佳可能”研究的開展[7]。
2.4.3 復雜干預研究的證據分級問題
7項研究[5-8,12-13,19]探討了復雜干預研究的證據分級問題。公共衛生干預措施的性質與大多數臨床干預措施不同,在臨床研究中,研究對象、干預措施以及結局指標的測量是高度標準化的。公共衛生干預措施往往比較復雜,涉及多個組成部分,這對納入或排除某些研究、如何解釋異質性以及如何謹慎做出判斷提出了挑戰[7]。在GRADE方法中,復雜干預研究因異質性、間接性等原因,多次降級,因此并不能真實反映復雜干預措施的實施情況[8]。
另外公共衛生干預措施通常高度依賴于環境,如果在另一個環境中重復該方案,可能會有不同的結果[6],因此評估復雜干預措施的證據時,要對干預措施的實施背景進行考慮。然而在使用GRADE進行證據質量評級時,缺乏系統機制來整合復雜干預措施的實施因素和背景數據[13]。
2.4.4 證據質量分級方法一致性的問題
5項研究[4,7-8,14,18]探討了證據質量分級方法一致性的問題,主要體現在兩個方面:① 不同證據質量分級方法之間評價結果一致性較差。證據質量分級方法眾多,如果證據質量分級方法具有同期效度,那么基于相同目的設計的不同方法的評價結果應該高度一致[4]。但是大多數證據質量分級方法之間的可靠性和并發效度都很低,導致對結果的解釋大相徑庭。② 證據質量分級容易受到主觀因素的影響,不同使用者對證據質量分級評價結果難以一致[4]。例如當具有不同專業背景和訓練水平的研究人員使用GRADE時,在解釋和應用升級和降級因素時,研究人員會根據自己所考慮的維度做出不同的推理[18]。
2.4.5 證據質量分級方法復雜性的問題
2項研究[4,8]探討了證據質量分級方法復雜性的問題。此問題和第3類核心問題有本質的區別,后者強調公共衛生干預措施的復雜性對證據質量評估的影響,而前者的重點在于證據質量分級方法自身使用過于復雜,耗時耗力,應用困難。研究表面,證據質量分級工具的應用比較復雜,多數證據質量分級工具沒有提供明確的使用方法術語或者提供的術語模糊不清,使得研究者不能正確使用如GRADE方法的證據質量分級工具[21]。
2.4.6 證據質量分級方法有效性問題
5項研究[4-7,17]探討了證據質量分級方法有效性的問題。現有的證據質量分級方法缺少驗證,有效性較差。一些研究者[4-5,17]認為現有的證據質量分級方法缺乏數據支持其有效性,很少有證據質量分級方法提供有效性或可靠性的證據。公共衛生領域研究因研究局限性、異質性、間接性等原因,存在難以合并分析的情況,這使得如GRADE的證據質量分級方法的應用更具挑戰性。
2.4.7 證據質量分級結果問題
8項研究[4-7,11-12,17-18]探討了證據質量分級結果問題,主要體現在以下兩個方面:① 公共衛生決策時對低質量證據的忽視。在GRADE評級中,公共衛生領域的很多證據是低或極低質量等級。在這種情況下,可能會被作為不重視現有研究證據的理由,從而不實施可能有益的公共衛生干預措施。② 證據外部有效性較差。外部有效性主要是指研究結果在現實生活中的可推廣性,也可以包括在現實世界中應用研究結果的可行性,以及干預措施在一段時間內的可持續性[4]。證據質量分級方法應考慮對受影響人群的利弊、實施健康干預的難易、不同地區環境的適用性差異等因素。然而,證據質量分級方法的設計往往只關注科學研究證據的穩定性,并不包括任何評價研究結果外部有效性的指標。
3 討論
本研究納入14篇探討證據質量分級方法問題的研究,涉及7個國家,質量評價結果顯示多數研究的總體質量較高。使用主題綜合法對納入研究中提出的證據質量分級方法的應用問題進行綜合分析,最終形成了7類核心主題和13個問題條目。這些問題涉及研究證據設計實施類型、分級過程和分級結果3個方面。
證據質量分級方法的評價對象是特定問題的研究證據,公共衛生證據形式來源多種多樣[22]。從證據來源看,有科學研究性證據和觀點經驗性證據;從研究設計類型看,有干預性研究設計和觀察性研究設計;從干預類型看,有簡單干預設計和復雜干預設計。公共衛生決策還需要利用除了傳統流行病學研究設計層次之外的證據來源。公共衛生證據與環境背景息息相關[23-24],因此有必要在系統評價中獲取有關干預實施、經濟學、公平性和整體社會經濟環境的信息[25]。其次,根據定義,公共衛生決策是基于多學科和多部門的,依賴于更廣泛的證據來源,包括來自相關的風險因素、干預措施或人群的“平行證據”,這些因素可能會增強對證據質量的總體信心[7]。因此,GRADE方法需要提供一個框架來系統地評估和整合背景證據和流行病學以外的學科產生的證據。
一些研究者認為證據質量分級方法指導描述不明確或者不恰當,導致使用者很大程度依賴主觀性,有意或無意地得出符合他們自己預想的結論,導致證據評級結果不恰當,特別是以來自觀察性研究和復雜干預研究證據等級評估問題最為突出。一項研究[13]表明,與簡單干預相比,復雜干預研究設計證據的結果更有可能被評為“極低”的證據質量,這些結果的證據質量評級更大概率因為研究設計、偏倚風險和異質性的因素而降級。復雜的干預措施本質上存在異質性[26],另外復雜的干預措施也有可能與現實環境中實施的干預措施不同,因此容易產生異質性和間接性。通過降低異質性和間接性的評級,大多數復雜的干預研究將只能提供低質量的證據,這對證據使用者來說不公平,因為決策時容易忽視低質量等級的研究證據。
研究發現,雖然證據質量分級方法眾多,但GRADE方法是納入研究探討的唯一證據質量分級方法。其原因主要是GRADE方法明確界定了證據質量和推薦強度,突破了過去主要從研究設計角度考慮證據質量的局限性,綜合考慮研究設計、研究質量、研究結果的一致性和直接性,對不同級別證據的升級與降級有明確、綜合的標準[27]。且相對于SIGN、牛津標準等,GRADE更易于理解和使用,已經成為國際上應用最為廣泛的證據質量分級方法[1,28]。使用GRADE方法對大量證據進行評級已經成為系統評價和其他證據綜合中一個重要的步驟。世界衛生組織要求所有的指南都要經過GRADE方法評估后作為證據支撐[6]。然而,本次研究發現,使用GRADE方法來評估公共衛生干預措施的證據仍然存在很多挑戰[29],因此有必要歸納整理出公共衛生決策中證據質量分級的關鍵問題,為開發更適宜公共衛生領域研究的證據質量分級方法提供參考。
本研究的局限性:① 雖然在統一的主題框架下完成,但定性研究普遍存在個人的主觀因素,一定程度上會影響主題的綜合結果;② 納入研究數量較少,且均來自西方發達國家,可能無法反應其他經濟文化環境下的公共衛生決策證據質量分級方法的問題情況;③ 在資料提取中采用自設資料提取表的形式,缺乏一定的權威性和普適性。
綜上,現有的公共衛生決策證據質量分級方法存在證據來源多樣、復雜干預研究的證據等級被低估等問題,建議專家學者積極進行對公共衛生決策證據質量分級方法問題的研究,推動循證公共衛生決策的發展。