基于COSMIN方法的結局指標測評工具系統評價科研輔助工具框架與功能條目的構建研究_《中國循證醫學雜志》

作者：

柴芯茹 ¹ ,  韓舒羽 ¹ , 張宜竹 ¹ , 楊憲暇 ² , 李珂 ³ , 武艷紅 ¹ , 郭錦政 ¹ , 吳楊峰 ¹ , 單鍶楷 ¹

1. 北京大學護理學院（北京 100191）;
2. 武漢大學公共衛生學院（武漢 430071）;
3. 北京大學第一醫院急診科（北京 100034）;

關鍵詞：

COSMIN 結局指標測評工具系統評價體系構建

DOI：

10.7507/1672-2531.202304067

視頻：

導出 下載 收藏 掃碼 引用

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

目的構建結局指標測評工具系統評價科研輔助工具的框架與功能條目。方法基于研究團隊前期開展的兩項結局指標測評工具系統評價的研究基礎和工作經驗初步構建科研輔助工具的框架與功能條目，并采用德爾菲專家咨詢法展開兩輪函詢。結果兩輪專家咨詢問卷有效回收率為90%和100%，專家權威系數為0.839，適宜性和重要性協調系數為0.105和0.177。最終確定結局指標測評工具系統評價科研輔助工具體系由7個框架、31個條目構成。結論本研究形成了科學、全面的基于COSMIN方法的結局指標測評工具系統評價科研輔助工具功能條目，為后續工具研發奠定了基礎。

患者報告結局（patient-reported outcomes，PRO）是指患者未經他人解釋直接對自身健康狀態進行評估報告的結局^[1]。隨著對患者感受、體驗關注的日益提升，PRO也被美國食品藥品安全管理局列為臨床療效評價及藥物臨床試驗的必要報告項目^[2]。該結局一般通過自填問卷開展，即患者報告結局測量（patient-reported outcome measures，PROM）量表^[3]。正確選擇PROM是準確測量PRO、捕捉患者真實感受和提升研究質量的重要前提^[4-5]，然而同一構念往往有多個PROM，這為研究者如何選擇最佳測評工具帶來困擾。因此，開展PROM系統評價成為幫助研究者選擇良好心理測量屬性測評工具的重要方式^[6]。目前國際上公認開展結局指標測評工具系統評價需要遵循COSMIN（consensus-based standards for the selection of health measurement instruments）方法^[7-8]。雖然COSMIN方法為規范制作結局指標測評工具系統評價步驟和提升系統評價研究質量做出了突出貢獻，但其復雜的步驟和評估方法也為研究者帶來困擾。本研究團隊擬研發一款基于COSMIN方法的結局指標測評工具系統評價科研輔助工具。該輔助工具可以幫助所有需要開展結局指標測評工具系統評價的研究者在制作系統評價時優化評價步驟，提高選擇高質量PROM的效率，助力滿足臨床工作和科研中對PRO的評估需求。基于研究團隊前期開展的兩項結局指標測評工具系統評價的研究基礎和工作經驗^[9-10]，本研究初步構建了該科研輔助工具的框架與功能條目，并開展了兩輪德爾菲專家函詢來確定該輔助工具體系的具體內容。

1 資料與方法

1.1 咨詢問卷制訂

初步擬定科研輔助工具的框架與功能條目的專家咨詢問卷，問卷包括3個部分：① 研究背景和研究目的介紹；② 科研輔助工具的具體框架與功能條目；③ 專家基本情況調查和權威程度評估。初步擬定的框架與功能條目中包括7個框架和25個條目。采用Likert 5級評分標準對各項指標的適宜性和重要性進行評分，得分越高則適宜性和重要性越高。每個條目設置修改建議欄以收集專家的書面意見。專家基本信息調查表中包括姓名、年齡、學歷、職稱、工作年限、已發表COSMIN方法相關文章數量等。專家權威程度用專家權威系數（Cr）表示，判斷依據包括制作COSMIN系統評價的工作經驗、COSMIN方法學的相關理論知識、參考國內外文獻、直覺判斷4個方面。

1.2 咨詢過程

本研究專家的入選標準為：① 曾經發表過COSMIN方法相關代表作；② 具有碩士及以上學歷；③ 自愿參與本研究。研究者在PubMed和CNKI兩個數據庫中進行檢索，擬定符合專家入選標準的名單，并通過電子郵件發放咨詢問卷。由于COSMIN方法2018年才誕生，開展研究時符合本研究入選標準的國內研究者較少，最終研究團隊發放專家咨詢問卷10份，10位專家6位來自北京，3位來自上海，1位來自武漢。本研究專家人數滿足Mitchell提出的德爾菲專家咨詢專家人數不少于8～10人的標準^[11]。

第一輪咨詢問卷回收后，研究者進行數據整理與統計分析，根據專家評分、修改建議結合研究團隊討論的結果，對相應條目進行修訂。如果條目適宜性、重要性程度均數≤4分、變異系數>0.25，那么研究團隊將針對專家提出增加或修改的內容開會確定是否修訂或刪除，然后形成下一輪專家咨詢問卷，并且附上各個條目的適宜性、重要性評分均值與專家意見匯總等，請專家結合反饋信息對第二輪問卷再次進行評價。當下一次專家咨詢問卷全部回收后，研究團隊再次對咨詢結果進行整理與統計分析，直至形成最終的框架與功能條目。

1.3 咨詢數據處理

采用SPSS 25.0軟件對問卷獲得的數據進行錄入和統計分析。以專家咨詢表的回收率來計算專家積極程度；以專家對各個條目的適宜性、重要性程度均數和滿分率來表示專家意見的集中程度；以肯德爾和諧系數（W）和變異系數來反應專家意見協調程度；以專家對內容的熟悉程度（Cs）和專家意見的判斷依據（Ca）計算獲得的Cr來反映專家意見的權威程度^[12-13]。對專家反饋的所有書面意見進行主題提取。

2 結果

2.1 專家一般資料與積極性

本研究共發放兩次專家咨詢問卷，第一輪咨詢發放問卷10份，回收有效問卷9份，有效回收率為90%；第二輪發放問卷9份，回收有效問卷9份，有效回收率為100%。9名專家的年齡為25～38歲，平均年齡30歲；其中6名是碩士學歷，3名是博士學歷；工作年限在0～8年之間，3年以上有5人；發表COSMIN方法相關文章數量為1～12篇，7名發表2篇及以上。第一輪咨詢問卷中8名專家提出修改建議，其中5名專家提出5條以上修改建議；第二輪咨詢問卷中7名專家提出修改建議，其中3名專家提出2條及以上修改建議。

2.2 專家權威程度與意見協調程度

兩輪咨詢有效回收問卷專家情況相同，專家咨詢的Ca值為0.956，Cs值為0.722，Cr值為0.839。第一輪咨詢的25個條目有3個條目中變異系數在0.25～0.30之間，其余條目變異系數均<0.25；第二輪咨詢中31個條目變異系數均<0.25。第一輪條目適宜性、重要性W系數分別為0.105、0.158。第二輪條目適宜性、重要性W系數分別為0.165、0.177。

2.3 框架與條目篩選

第一輪咨詢時，問卷中含有7個框架25個條目，框架具體內容為納入文獻評價流程建議（指導語）、一般情況描述表、偏倚風險評價、測量屬性結果分級、改良版GRADE分級、資料鏈接和表格自動輸出。對第一輪問卷進行分析后發現，3個條目變異系數偏高（>0.25），專家共提出42條修改建議。經研究團隊討論后，基于第一輪咨詢問卷新增了6個功能條目，修改了14個條目內容，最終形成7個框架31個條目。

第二輪咨詢問卷發放后，對問卷結果分析發現，31個條目適宜性程度均數和重要性程度均數均在4.78～5.00之間，并且變異系數均<0.25。專家共提出10條書面建議，且10條書面意見中沒有實質性修改建議。最終版科研輔助工具框架和功能條目如表1所示。基于本研究最終形成的結局指標測評工具系統評價科研輔助工具框架與功能條目的COSMIN方法評估方式也已獲得中華人民共和國發明專利授權（ZL202211609134.4）。

表1 結局指標測評工具系統評價科研輔助工具框架與功能條目

表選項

下載CSV

表1 結局指標測評工具系統評價科研輔助工具框架與功能條目

框架及條目	適宜性（均數±標準差）	變異系數	重要性（均數±標準差）	變異系數
框架1 納入文獻信息提取和評價流程建議（指導語，提供中英文版本）
1.1 對納入的文獻首先填寫一般情況提取表（研究一般情況描述和PROM的一般情況描述）。	4.78±0.67	0.14	5.00	0.00
1.2 對納入的文獻完成所有測量屬性偏倚風險評價后，再完成所有測量屬性的質量評價，最后進行測量工具每個測量屬性GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.3 完成所有文獻的信息提取、偏倚風險評價以及質量評價后，進行每個PROM所有測量屬性的GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.4 每個PROM的推薦意見在1.3所有工作完成后進行。	4.67±0.70	0.15	4.89±0.33	0.07
框架2 一般信息提取
2.1 提供中英文版本納入研究的一般情況描述表模板，具體包括：英文版：Author (year)，PROM，Country/Region，PROM language，Study design，Sample size and participants，Year of development/validation；中文版：納入文獻，PROM，研究場所，PROM語言版本，研究設計，研究對象，工具開發/發展年份。	5.00	0.00	5.00	0.00
2.2 提供中英文版本納入PROM一般情況描述表模板，具體包括：英文版：RROM，References，Target population，Mode of administration，Recall period，Subscale and item number，Range of scores，Original language；中文版：PROM，參考文獻，目標人群，報告類型，回憶周期，維度和條目數，分數范圍，原量表語言版本。	5.00	0.00	5.00	0.00
框架3 偏倚風險評價
3.1 偏倚風險評價開始之前研究者首先勾選條目順序偏好：A（根據COSMIN-RoB清單原始版本順序）；B（根據工具推薦的盡可能協助研究者減輕評價負擔的順序）；C（根據研究者自身評價偏好）。	5.00	0.00	5.00	0.00
3.2 工具推薦順序原則一：按照評價難度重新排序。由于COSMIN-RoB所有維度遵循最低計分原則，有一個條目被評為“不合格”則整個維度也將被評為“不合格”。工具將呈現每個維度按照難度排序后的條目，優先呈現較少需要研究者主觀推理判斷的條目。如在“PROM開發”模塊中，將“訪談是否錄音并逐字轉錄”的順序提前。若難度低的條目被評為“不合格”，剩余難度高的條目將不再呈現，直接返回維度“不合格”的結果。	5.00	0.00	5.00	0.00
3.3 工具推薦順序原則二：利用維度內條目的跳轉規則以及維度間的邏輯關系盡可能減少研究者的評估負擔。如果在結構效度維度中“項目反應理論”條目勾選了“不適用”，那么內在一致性維度中與項目反應理論相關的條目自動關聯“不適用”；如果內部一致性維度中“二分類分數”這個條目勾選了“不適用”，那么信度、測量誤差、校標效度、反應度維度中統計方法中的“二分類分數”條目全部自動關聯“不適用”。	5.00	0.00	5.00	0.00
3.4 根據研究者自身評價偏好：工具提供每個模塊條目池的搜索框，輸入關鍵字即可快速匹配想要優先評價的條目。（這種情況尤其適合研究者在閱讀方法部分后十分確定維度的某一個條目屬于“不合格”，評完該條目后其他條目自動變灰無需繼續評價）。	4.89±0.33	0.07	4.89±0.33	0.07
3.5 每個條目評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架4 測量屬性結果分級
4.1 偏倚風險評價過程中變灰的維度結果分級部分自動變灰。	5.00	0.00	5.00	0.00
4.2 能夠影響測量屬性結果分級的偏倚風險條目在本階段的評價中自動關聯。如果結構效度“項目反應理論”的偏倚風險條目勾選了“不適用”，那么在結果分級過程中與“IRT/Rasch”相關的條目不再顯示；內容效度的評分過程中自動呈現相關偏倚風險條目的結果，供研究者判斷各條質量準則給與“+”、“?”、“？”等結果。	5.00	0.00	5.00	0.00
4.3 內容效度結果分級過程中充分利用各質量準則結果的關聯規則，例如若相關性、全面性、可理解性均被評為“+”，那么PROM的內容效度自動評為“+”。	5.00	0.00	5.00	0.00
4.4 每個維度結果分級評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架5 改良版GRADE分級
5.1 PROM每個測量屬性維度的偏倚風險降級因素關聯2.2中每個PROM納入的一篇或多篇文獻以及文獻對應的偏倚風險評價結果。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。如關聯結果顯示，該測量屬性只有一項研究，且偏倚風險評價結果為“不合格”，那么該測量屬性的偏倚風險即為“非常嚴重”，需要降3分，此時該測量屬性的證據質量已直接從“高”降為“非常低”，那么也無需繼續考量其余方面的降級因素，直接輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.2 PROM每個測量屬性維度的不一致性降級因素自動關聯2.2中每個工具納入研究的數量，若工具相關的文獻只有1篇，則不存在不一致性的降級因素，直接跳過該條目，若識別出多篇文獻，再由研究者自行判斷是否存在不一致性的降級因素。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.3 PROM每個測量屬性維度的不精確性降級因素直接關聯2.1中納入研究的一般情況描述表中的樣本量信息。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.4 PROM每個測量屬性維度的間接性降級因素由研究者自行主觀判斷。	5.00	0.00	5.00	0.00
5.5 PROM每個降級因素評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
5.6 PROM的推薦強度（A/B/C類）關聯測量屬性結果分級和GRADE分級的結果，如某個PROM的內容效度顯示“+”，內部一致性顯示“+”同時至少為低質量證據，沒有高質量證據證明其他測量屬性“不充分”（“?”），那么工具自動建議給予該PROM“A類推薦”。	5.00	0.07	4.89±0.33	0.07
框架6 資料鏈接
6.1 COSMIN系統評價方法學手冊（2018年1.0版本）。	5.00	0.00	5.00	0.00
6.2 COSMIN RoB清單中英文版本。	5.00	0.00	5.00	0.00
6.3 COSMIN 測量屬性結果分級標準中英文版本。	5.00	0.00	5.00	0.00
6.4 經過AMSTAR Ⅱ工具評價過的高質量COSMIN系統評價例文一篇，并附上兩名研究者獨立評價結果的報告。	4.89±0.33	0.07	4.89±0.33	0.07
框架7 表格自動輸出
7.1 自動輸出納入研究一般信息提取表。	5.00	0.00	5.00	0.00
7.2 自動輸出納入PROM一般信息提取表。	5.00	0.00	5.00	0.00
7.3 自動輸出偏倚風險評估表。	5.00	0.00	5.00	0.00
7.4 自動輸出測量屬性結果分級表。	5.00	0.00	5.00	0.00
7.5 自動輸出改良版GRADE分級評估表。	5.00	0.00	5.00	0.00
7.6 自動輸出研究者評價過程中的所有筆記。	4.89±0.33	0.07	4.78±0.44	0.09

2.4 書面意見關鍵提取

專家對輔助工具形式上的建議主要有以下4點：① 研發科研輔助工具中、英文雙語版本。② 為做好交互和信息聯動，建議植入結局指標測評工具系統評價流程圖，并用文字替代符號，如用“充分、不充分”代替“+、?”。③ 資源鏈接中明確鏈接的方法學手冊的版本。④ 建議添加2～3篇不同質量的例文，尤其是存在常見問題的例子。

對內容上的建議主要有以下5點：① 納入研究一般信息提取表和納入PROM一般信息提取表的表格設計需要參考COSMIN官網提供的模板。② 除了輔助工具推薦的偏倚風險條目順序，COSMIN方法原始的條目評估順序也保留，用戶可以根據自己情況選擇評價方式。③ 由于內容效度的結果分級方法與其他測量屬性維度不同^[14]，建議基于其分級條目和跳轉規則設計單獨的功能按鈕。④ 雖然PROM研發和翻譯的原始研究往往不會在同一研究情境中有很多相似的研究，即證據體往往是單一研究，然而專家提醒也不排除包含多項研究作為證據體的情況，因此GRADE分級的功能設計不應只有針對單篇文章證據體的跳轉。⑤ 建議增加自動輸出評價結果的筆記的功能。

3 討論

同一核心概念往往有多個PROM，不同PROM之間質量層次不齊，如何選擇合適的結局測量工具成為評估健康狀態的重點和難點^[15]。開展高質量的結局指標測評工具系統評價是幫助選擇研究者和臨床實踐者選擇最優PROM的重要方式。目前開展結局指標測評工具系統評價公認的COSMIN方法評估工具條目較多，研究團隊擬研發的基于COSMIN方法的結局指標測評工具系統評價科研輔助工具有望幫助研究者提高制作結局指標測評工具系統評價的工作效率。本研究開展了兩輪德爾菲專家咨詢，確定了該科研輔助工具的框架與功能條目，為科研輔助工具的研發奠定了基礎。

雖然2018年COSMIN方法才誕生，潛在符合本研究納入標準的專家較少，然而本研究納入的專家權威性較高，有的專家發表COSMIN相關文章數目高達12篇。且專家咨詢過程中專家的積極性較高，返回的書面意見條數也較多。經過2輪的咨詢，最終所有的功能條目適宜性和重要性評分均達標。基于本研究功能條目研發的科研輔助工具在功能上具有以下優勢：① 利用偏倚風險評價的“最差分數計分”原則，維度內和維度間的跳轉規則提高研究者進行偏倚風險評價的效率。② 進行各評價步驟之間的信息聯動，盡可能實現條目的自動化評價，如納入研究的一般信息表中填寫的樣本量小于50，則在改良版GRADE分級的環節自動進行不精確性的降級。③ 幫助研究者自動輸出論文撰寫需要提供的表格。以上優勢能幫助科研工作者在制作結局指標測評工具系統評價的過程中提高效率、減少工作失誤、提高論文寫作的規范性。此外，該工具在形式上參考RCT偏倚風險評價工具RoB2的評價輔助工具^[16]，利用Excel的宏功能研發該輔助工具，工具操作界面簡潔、通俗易懂，且操作不依賴網絡環境，內存小，這些優勢也為該工具的普及打下了基礎。

本研究的局限性：① 雖然咨詢專家的樣本量滿足最低標準，但仍少于15～50人的理想標準^[17]。② 雖然科研輔助工具不依賴網絡環境，然而需要用戶具有正版的Office Excel軟件，這可能會在一定程度限制工具的應用。

綜上所述，本研究邀請了目前國內COSMIN方法的一線和資深研究者進行德爾菲專家咨詢，經過兩輪的咨詢確定了基于COSMIN方法的結局指標測評工具系統評價科研輔助工具的功能條目。研究團隊正基于功能條目研發科研輔助工具，該工具有望大幅提高制作結局指標測評工具系統評價的效率，助力科研工作者和臨床實踐者選擇高質量PROM，準確評估PRO。

1 資料與方法

1.1 咨詢問卷制訂

1.2 咨詢過程

1.3 咨詢數據處理

2 結果

2.1 專家一般資料與積極性

2.2 專家權威程度與意見協調程度

2.3 框架與條目篩選

表1 結局指標測評工具系統評價科研輔助工具框架與功能條目

表選項

下載CSV

表1 結局指標測評工具系統評價科研輔助工具框架與功能條目

框架及條目	適宜性（均數±標準差）	變異系數	重要性（均數±標準差）	變異系數
框架1 納入文獻信息提取和評價流程建議（指導語，提供中英文版本）
1.1 對納入的文獻首先填寫一般情況提取表（研究一般情況描述和PROM的一般情況描述）。	4.78±0.67	0.14	5.00	0.00
1.2 對納入的文獻完成所有測量屬性偏倚風險評價后，再完成所有測量屬性的質量評價，最后進行測量工具每個測量屬性GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.3 完成所有文獻的信息提取、偏倚風險評價以及質量評價后，進行每個PROM所有測量屬性的GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.4 每個PROM的推薦意見在1.3所有工作完成后進行。	4.67±0.70	0.15	4.89±0.33	0.07
框架2 一般信息提取
2.1 提供中英文版本納入研究的一般情況描述表模板，具體包括：英文版：Author (year)，PROM，Country/Region，PROM language，Study design，Sample size and participants，Year of development/validation；中文版：納入文獻，PROM，研究場所，PROM語言版本，研究設計，研究對象，工具開發/發展年份。	5.00	0.00	5.00	0.00
2.2 提供中英文版本納入PROM一般情況描述表模板，具體包括：英文版：RROM，References，Target population，Mode of administration，Recall period，Subscale and item number，Range of scores，Original language；中文版：PROM，參考文獻，目標人群，報告類型，回憶周期，維度和條目數，分數范圍，原量表語言版本。	5.00	0.00	5.00	0.00
框架3 偏倚風險評價
3.1 偏倚風險評價開始之前研究者首先勾選條目順序偏好：A（根據COSMIN-RoB清單原始版本順序）；B（根據工具推薦的盡可能協助研究者減輕評價負擔的順序）；C（根據研究者自身評價偏好）。	5.00	0.00	5.00	0.00
3.2 工具推薦順序原則一：按照評價難度重新排序。由于COSMIN-RoB所有維度遵循最低計分原則，有一個條目被評為“不合格”則整個維度也將被評為“不合格”。工具將呈現每個維度按照難度排序后的條目，優先呈現較少需要研究者主觀推理判斷的條目。如在“PROM開發”模塊中，將“訪談是否錄音并逐字轉錄”的順序提前。若難度低的條目被評為“不合格”，剩余難度高的條目將不再呈現，直接返回維度“不合格”的結果。	5.00	0.00	5.00	0.00
3.3 工具推薦順序原則二：利用維度內條目的跳轉規則以及維度間的邏輯關系盡可能減少研究者的評估負擔。如果在結構效度維度中“項目反應理論”條目勾選了“不適用”，那么內在一致性維度中與項目反應理論相關的條目自動關聯“不適用”；如果內部一致性維度中“二分類分數”這個條目勾選了“不適用”，那么信度、測量誤差、校標效度、反應度維度中統計方法中的“二分類分數”條目全部自動關聯“不適用”。	5.00	0.00	5.00	0.00
3.4 根據研究者自身評價偏好：工具提供每個模塊條目池的搜索框，輸入關鍵字即可快速匹配想要優先評價的條目。（這種情況尤其適合研究者在閱讀方法部分后十分確定維度的某一個條目屬于“不合格”，評完該條目后其他條目自動變灰無需繼續評價）。	4.89±0.33	0.07	4.89±0.33	0.07
3.5 每個條目評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架4 測量屬性結果分級
4.1 偏倚風險評價過程中變灰的維度結果分級部分自動變灰。	5.00	0.00	5.00	0.00
4.2 能夠影響測量屬性結果分級的偏倚風險條目在本階段的評價中自動關聯。如果結構效度“項目反應理論”的偏倚風險條目勾選了“不適用”，那么在結果分級過程中與“IRT/Rasch”相關的條目不再顯示；內容效度的評分過程中自動呈現相關偏倚風險條目的結果，供研究者判斷各條質量準則給與“+”、“?”、“？”等結果。	5.00	0.00	5.00	0.00
4.3 內容效度結果分級過程中充分利用各質量準則結果的關聯規則，例如若相關性、全面性、可理解性均被評為“+”，那么PROM的內容效度自動評為“+”。	5.00	0.00	5.00	0.00
4.4 每個維度結果分級評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架5 改良版GRADE分級
5.1 PROM每個測量屬性維度的偏倚風險降級因素關聯2.2中每個PROM納入的一篇或多篇文獻以及文獻對應的偏倚風險評價結果。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。如關聯結果顯示，該測量屬性只有一項研究，且偏倚風險評價結果為“不合格”，那么該測量屬性的偏倚風險即為“非常嚴重”，需要降3分，此時該測量屬性的證據質量已直接從“高”降為“非常低”，那么也無需繼續考量其余方面的降級因素，直接輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.2 PROM每個測量屬性維度的不一致性降級因素自動關聯2.2中每個工具納入研究的數量，若工具相關的文獻只有1篇，則不存在不一致性的降級因素，直接跳過該條目，若識別出多篇文獻，再由研究者自行判斷是否存在不一致性的降級因素。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.3 PROM每個測量屬性維度的不精確性降級因素直接關聯2.1中納入研究的一般情況描述表中的樣本量信息。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.4 PROM每個測量屬性維度的間接性降級因素由研究者自行主觀判斷。	5.00	0.00	5.00	0.00
5.5 PROM每個降級因素評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
5.6 PROM的推薦強度（A/B/C類）關聯測量屬性結果分級和GRADE分級的結果，如某個PROM的內容效度顯示“+”，內部一致性顯示“+”同時至少為低質量證據，沒有高質量證據證明其他測量屬性“不充分”（“?”），那么工具自動建議給予該PROM“A類推薦”。	5.00	0.07	4.89±0.33	0.07
框架6 資料鏈接
6.1 COSMIN系統評價方法學手冊（2018年1.0版本）。	5.00	0.00	5.00	0.00
6.2 COSMIN RoB清單中英文版本。	5.00	0.00	5.00	0.00
6.3 COSMIN 測量屬性結果分級標準中英文版本。	5.00	0.00	5.00	0.00
6.4 經過AMSTAR Ⅱ工具評價過的高質量COSMIN系統評價例文一篇，并附上兩名研究者獨立評價結果的報告。	4.89±0.33	0.07	4.89±0.33	0.07
框架7 表格自動輸出
7.1 自動輸出納入研究一般信息提取表。	5.00	0.00	5.00	0.00
7.2 自動輸出納入PROM一般信息提取表。	5.00	0.00	5.00	0.00
7.3 自動輸出偏倚風險評估表。	5.00	0.00	5.00	0.00
7.4 自動輸出測量屬性結果分級表。	5.00	0.00	5.00	0.00
7.5 自動輸出改良版GRADE分級評估表。	5.00	0.00	5.00	0.00
7.6 自動輸出研究者評價過程中的所有筆記。	4.89±0.33	0.07	4.78±0.44	0.09

2.4 書面意見關鍵提取

3 討論

表1 結局指標測評工具系統評價科研輔助工具框架與功能條目

框架及條目	適宜性（均數±標準差）	變異系數	重要性（均數±標準差）	變異系數
框架1 納入文獻信息提取和評價流程建議（指導語，提供中英文版本）
1.1 對納入的文獻首先填寫一般情況提取表（研究一般情況描述和PROM的一般情況描述）。	4.78±0.67	0.14	5.00	0.00
1.2 對納入的文獻完成所有測量屬性偏倚風險評價后，再完成所有測量屬性的質量評價，最后進行測量工具每個測量屬性GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.3 完成所有文獻的信息提取、偏倚風險評價以及質量評價后，進行每個PROM所有測量屬性的GRADE分級。	4.78±0.67	0.14	5.00	0.00
1.4 每個PROM的推薦意見在1.3所有工作完成后進行。	4.67±0.70	0.15	4.89±0.33	0.07
框架2 一般信息提取
2.1 提供中英文版本納入研究的一般情況描述表模板，具體包括：英文版：Author (year)，PROM，Country/Region，PROM language，Study design，Sample size and participants，Year of development/validation；中文版：納入文獻，PROM，研究場所，PROM語言版本，研究設計，研究對象，工具開發/發展年份。	5.00	0.00	5.00	0.00
2.2 提供中英文版本納入PROM一般情況描述表模板，具體包括：英文版：RROM，References，Target population，Mode of administration，Recall period，Subscale and item number，Range of scores，Original language；中文版：PROM，參考文獻，目標人群，報告類型，回憶周期，維度和條目數，分數范圍，原量表語言版本。	5.00	0.00	5.00	0.00
框架3 偏倚風險評價
3.1 偏倚風險評價開始之前研究者首先勾選條目順序偏好：A（根據COSMIN-RoB清單原始版本順序）；B（根據工具推薦的盡可能協助研究者減輕評價負擔的順序）；C（根據研究者自身評價偏好）。	5.00	0.00	5.00	0.00
3.2 工具推薦順序原則一：按照評價難度重新排序。由于COSMIN-RoB所有維度遵循最低計分原則，有一個條目被評為“不合格”則整個維度也將被評為“不合格”。工具將呈現每個維度按照難度排序后的條目，優先呈現較少需要研究者主觀推理判斷的條目。如在“PROM開發”模塊中，將“訪談是否錄音并逐字轉錄”的順序提前。若難度低的條目被評為“不合格”，剩余難度高的條目將不再呈現，直接返回維度“不合格”的結果。	5.00	0.00	5.00	0.00
3.3 工具推薦順序原則二：利用維度內條目的跳轉規則以及維度間的邏輯關系盡可能減少研究者的評估負擔。如果在結構效度維度中“項目反應理論”條目勾選了“不適用”，那么內在一致性維度中與項目反應理論相關的條目自動關聯“不適用”；如果內部一致性維度中“二分類分數”這個條目勾選了“不適用”，那么信度、測量誤差、校標效度、反應度維度中統計方法中的“二分類分數”條目全部自動關聯“不適用”。	5.00	0.00	5.00	0.00
3.4 根據研究者自身評價偏好：工具提供每個模塊條目池的搜索框，輸入關鍵字即可快速匹配想要優先評價的條目。（這種情況尤其適合研究者在閱讀方法部分后十分確定維度的某一個條目屬于“不合格”，評完該條目后其他條目自動變灰無需繼續評價）。	4.89±0.33	0.07	4.89±0.33	0.07
3.5 每個條目評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架4 測量屬性結果分級
4.1 偏倚風險評價過程中變灰的維度結果分級部分自動變灰。	5.00	0.00	5.00	0.00
4.2 能夠影響測量屬性結果分級的偏倚風險條目在本階段的評價中自動關聯。如果結構效度“項目反應理論”的偏倚風險條目勾選了“不適用”，那么在結果分級過程中與“IRT/Rasch”相關的條目不再顯示；內容效度的評分過程中自動呈現相關偏倚風險條目的結果，供研究者判斷各條質量準則給與“+”、“?”、“？”等結果。	5.00	0.00	5.00	0.00
4.3 內容效度結果分級過程中充分利用各質量準則結果的關聯規則，例如若相關性、全面性、可理解性均被評為“+”，那么PROM的內容效度自動評為“+”。	5.00	0.00	5.00	0.00
4.4 每個維度結果分級評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
框架5 改良版GRADE分級
5.1 PROM每個測量屬性維度的偏倚風險降級因素關聯2.2中每個PROM納入的一篇或多篇文獻以及文獻對應的偏倚風險評價結果。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。如關聯結果顯示，該測量屬性只有一項研究，且偏倚風險評價結果為“不合格”，那么該測量屬性的偏倚風險即為“非常嚴重”，需要降3分，此時該測量屬性的證據質量已直接從“高”降為“非常低”，那么也無需繼續考量其余方面的降級因素，直接輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.2 PROM每個測量屬性維度的不一致性降級因素自動關聯2.2中每個工具納入研究的數量，若工具相關的文獻只有1篇，則不存在不一致性的降級因素，直接跳過該條目，若識別出多篇文獻，再由研究者自行判斷是否存在不一致性的降級因素。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.3 PROM每個測量屬性維度的不精確性降級因素直接關聯2.1中納入研究的一般情況描述表中的樣本量信息。若自動降級到“非常低”，則自動中止該維度的GRADE分級，輸出“非常低”的結果。	5.00	0.00	5.00	0.00
5.4 PROM每個測量屬性維度的間接性降級因素由研究者自行主觀判斷。	5.00	0.00	5.00	0.00
5.5 PROM每個降級因素評價后提供筆記功能幫助研究者記錄評價結果的理由。	4.89±0.33	0.07	4.78±0.44	0.09
5.6 PROM的推薦強度（A/B/C類）關聯測量屬性結果分級和GRADE分級的結果，如某個PROM的內容效度顯示“+”，內部一致性顯示“+”同時至少為低質量證據，沒有高質量證據證明其他測量屬性“不充分”（“?”），那么工具自動建議給予該PROM“A類推薦”。	5.00	0.07	4.89±0.33	0.07
框架6 資料鏈接
6.1 COSMIN系統評價方法學手冊（2018年1.0版本）。	5.00	0.00	5.00	0.00
6.2 COSMIN RoB清單中英文版本。	5.00	0.00	5.00	0.00
6.3 COSMIN 測量屬性結果分級標準中英文版本。	5.00	0.00	5.00	0.00
6.4 經過AMSTAR Ⅱ工具評價過的高質量COSMIN系統評價例文一篇，并附上兩名研究者獨立評價結果的報告。	4.89±0.33	0.07	4.89±0.33	0.07
框架7 表格自動輸出
7.1 自動輸出納入研究一般信息提取表。	5.00	0.00	5.00	0.00
7.2 自動輸出納入PROM一般信息提取表。	5.00	0.00	5.00	0.00
7.3 自動輸出偏倚風險評估表。	5.00	0.00	5.00	0.00
7.4 自動輸出測量屬性結果分級表。	5.00	0.00	5.00	0.00
7.5 自動輸出改良版GRADE分級評估表。	5.00	0.00	5.00	0.00
7.6 自動輸出研究者評價過程中的所有筆記。	4.89±0.33	0.07	4.78±0.44	0.09

表選項

下載CSV

1.	陳祎婷, 彭健, 沈藍君, 等. COSMIN方法介紹: 制作患者報告結局測量工具的系統評價. 護士進修雜志, 2021, 36(8): 699-703.
2.	U. S. Department of Health and Human Services FDA Center for Drug Evaluation and Research. Guidance for industry: patient-reported outcome measures: use in medical product development to support labeling claims: draft guidance. Health Qual Life Outcomes, 2006, 4: 79.
3.	LeBlanc TW, Abernethy AP. Patient-reported outcomes in cancer care - hearing the patient voice at greater volume. Nat Rev Clin Oncol, 2017, 14(12): 763-772.
4.	Prinsen CA, Vohra S, Rose MR, et al. How to select outcome measurement instruments for outcomes included in a "Core Outcome Set" - a practical guideline. Trials, 2016, 17(1): 449.
5.	Terwee CB, Prinsen CAC, Chiarotto A, et al. COSMIN methodology for evaluating the content validity of patient-reported outcome measures: a Delphi study. Qual Life Res, 2018, 27(5): 1159-1170.
6.	Joanna Briggs Institute (JBI). Chapter 12: systematic reviews of measurement properties. 2022.
7.	Prinsen CAC, Mokkink LB, Bouter LM, et al. COSMIN guideline for systematic reviews of patient-reported outcome measures. Qual Life Res, 2018, 27(5): 1147-1157.
8.	Mokkink LB, Prinsen CA, Patrick DL, et al. COSMIN methodology for systematic reviews of patient-reported outcome measures (PROMs). 2018.
9.	Han S, Zhou J, Ji M, et al. Psychometric properties of measurement tools of active aging: a systematic review. Int J Nurs Stud, 2023, 137: 104388.
10.	張宜竹. 基于COSMIN的HIV/AIDS患者歧視測量工具心理學測量屬性的系統評價. 北京: 北京大學, 2022.
11.	Mitchell VW. The Delphi technique: an exposition and application. Tech Ana Strat Manag J, 1991, (3): 333-358.
12.	吳明隆. SPSS統計應用實務. 北京: 科學出版社, 2003.
13.	張文彤, 董偉. SPSS統計分析高級教程. 北京: 高等教育出版社, 2013.
14.	沈藍君, 彭健, 陳祎婷, 等. COSMIN方法介紹: 評價患者報告結局測量工具內容效度的評分系統. 循證護理, 2021, 7(5): 609-614.
15.	Mokkink LB, Prinsen CA, Bouter LM, et al. The consensus-based standards for the selection of health measurement instruments (COSMIN) and how to select an outcome measurement instrument. Braz J Phys Ther, 2016, 20(2): 105-113.
16.	Risk-of-bias. Current version of RoB 2. 2019.
17.	胡雁, 王志穩. 護理研究(第六版). 北京: 人民衛生出版社, 2022.

1. 陳祎婷, 彭健, 沈藍君, 等. COSMIN方法介紹: 制作患者報告結局測量工具的系統評價. 護士進修雜志, 2021, 36(8): 699-703.
2. U. S. Department of Health and Human Services FDA Center for Drug Evaluation and Research. Guidance for industry: patient-reported outcome measures: use in medical product development to support labeling claims: draft guidance. Health Qual Life Outcomes, 2006, 4: 79.
3. LeBlanc TW, Abernethy AP. Patient-reported outcomes in cancer care - hearing the patient voice at greater volume. Nat Rev Clin Oncol, 2017, 14(12): 763-772.
4. Prinsen CA, Vohra S, Rose MR, et al. How to select outcome measurement instruments for outcomes included in a "Core Outcome Set" - a practical guideline. Trials, 2016, 17(1): 449.
5. Terwee CB, Prinsen CAC, Chiarotto A, et al. COSMIN methodology for evaluating the content validity of patient-reported outcome measures: a Delphi study. Qual Life Res, 2018, 27(5): 1159-1170.
6. Joanna Briggs Institute (JBI). Chapter 12: systematic reviews of measurement properties. 2022.
7. Prinsen CAC, Mokkink LB, Bouter LM, et al. COSMIN guideline for systematic reviews of patient-reported outcome measures. Qual Life Res, 2018, 27(5): 1147-1157.
8. Mokkink LB, Prinsen CA, Patrick DL, et al. COSMIN methodology for systematic reviews of patient-reported outcome measures (PROMs). 2018.
9. Han S, Zhou J, Ji M, et al. Psychometric properties of measurement tools of active aging: a systematic review. Int J Nurs Stud, 2023, 137: 104388.
10. 張宜竹. 基于COSMIN的HIV/AIDS患者歧視測量工具心理學測量屬性的系統評價. 北京: 北京大學, 2022.
11. Mitchell VW. The Delphi technique: an exposition and application. Tech Ana Strat Manag J, 1991, (3): 333-358.
12. 吳明隆. SPSS統計應用實務. 北京: 科學出版社, 2003.
13. 張文彤, 董偉. SPSS統計分析高級教程. 北京: 高等教育出版社, 2013.
14. 沈藍君, 彭健, 陳祎婷, 等. COSMIN方法介紹: 評價患者報告結局測量工具內容效度的評分系統. 循證護理, 2021, 7(5): 609-614.
15. Mokkink LB, Prinsen CA, Bouter LM, et al. The consensus-based standards for the selection of health measurement instruments (COSMIN) and how to select an outcome measurement instrument. Braz J Phys Ther, 2016, 20(2): 105-113.
16. Risk-of-bias. Current version of RoB 2. 2019.
17. 胡雁, 王志穩. 護理研究(第六版). 北京: 人民衛生出版社, 2022.

《中國循證醫學雜志》

優先發表基于COSMIN方法的結局指標測評工具系統評價科研輔助工具框架與功能條目的構建研究

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料與方法

1.1 咨詢問卷制訂

1.2 咨詢過程

1.3 咨詢數據處理

2 結果

2.1 專家一般資料與積極性

2.2 專家權威程度與意見協調程度

2.3 框架與條目篩選

2.4 書面意見關鍵提取

3 討論

1 資料與方法

1.1 咨詢問卷制訂

1.2 咨詢過程

1.3 咨詢數據處理

2 結果

2.1 專家一般資料與積極性

2.2 專家權威程度與意見協調程度

2.3 框架與條目篩選

2.4 書面意見關鍵提取

3 討論

Format

Content

《中國循證醫學雜志》

優先發表基于COSMIN方法的結局指標測評工具系統評價科研輔助工具框架與功能條目的構建研究

摘要 全文 圖表 視頻 參考文獻 施引文獻 補充材料

1 資料與方法

1.1 咨詢問卷制訂

1.2 咨詢過程

1.3 咨詢數據處理

2 結果

2.1 專家一般資料與積極性

2.2 專家權威程度與意見協調程度

2.3 框架與條目篩選

2.4 書面意見關鍵提取

3 討論

1 資料與方法

1.1 咨詢問卷制訂

1.2 咨詢過程

1.3 咨詢數據處理

2 結果

2.1 專家一般資料與積極性

2.2 專家權威程度與意見協調程度

2.3 框架與條目篩選

2.4 書面意見關鍵提取

3 討論

Format

Content

摘要全文圖表視頻參考文獻施引文獻補充材料