患者報告結局(patient-reported outcomes,PRO)是指患者未經他人解釋直接對自身健康狀態進行評估報告的結局[1]。隨著對患者感受、體驗關注的日益提升,PRO也被美國食品藥品安全管理局列為臨床療效評價及藥物臨床試驗的必要報告項目[2]。該結局一般通過自填問卷開展,即患者報告結局測量(patient-reported outcome measures,PROM)量表[3]。正確選擇PROM是準確測量PRO、捕捉患者真實感受和提升研究質量的重要前提[4-5],然而同一構念往往有多個PROM,這為研究者如何選擇最佳測評工具帶來困擾。因此,開展PROM系統評價成為幫助研究者選擇良好心理測量屬性測評工具的重要方式[6]。目前國際上公認開展結局指標測評工具系統評價需要遵循COSMIN(consensus-based standards for the selection of health measurement instruments)方法[7-8]。雖然COSMIN方法為規范制作結局指標測評工具系統評價步驟和提升系統評價研究質量做出了突出貢獻,但其復雜的步驟和評估方法也為研究者帶來困擾。本研究團隊擬研發一款基于COSMIN方法的結局指標測評工具系統評價科研輔助工具。該輔助工具可以幫助所有需要開展結局指標測評工具系統評價的研究者在制作系統評價時優化評價步驟,提高選擇高質量PROM的效率,助力滿足臨床工作和科研中對PRO的評估需求。基于研究團隊前期開展的兩項結局指標測評工具系統評價的研究基礎和工作經驗[9-10],本研究初步構建了該科研輔助工具的框架與功能條目,并開展了兩輪德爾菲專家函詢來確定該輔助工具體系的具體內容。
1 資料與方法
1.1 咨詢問卷制訂
初步擬定科研輔助工具的框架與功能條目的專家咨詢問卷,問卷包括3個部分:① 研究背景和研究目的介紹;② 科研輔助工具的具體框架與功能條目;③ 專家基本情況調查和權威程度評估。初步擬定的框架與功能條目中包括7個框架和25個條目。采用Likert 5級評分標準對各項指標的適宜性和重要性進行評分,得分越高則適宜性和重要性越高。每個條目設置修改建議欄以收集專家的書面意見。專家基本信息調查表中包括姓名、年齡、學歷、職稱、工作年限、已發表COSMIN方法相關文章數量等。專家權威程度用專家權威系數(Cr)表示,判斷依據包括制作COSMIN系統評價的工作經驗、COSMIN方法學的相關理論知識、參考國內外文獻、直覺判斷4個方面。
1.2 咨詢過程
本研究專家的入選標準為:① 曾經發表過COSMIN方法相關代表作;② 具有碩士及以上學歷;③ 自愿參與本研究。研究者在PubMed和CNKI兩個數據庫中進行檢索,擬定符合專家入選標準的名單,并通過電子郵件發放咨詢問卷。由于COSMIN方法2018年才誕生,開展研究時符合本研究入選標準的國內研究者較少,最終研究團隊發放專家咨詢問卷10份,10位專家6位來自北京,3位來自上海,1位來自武漢。本研究專家人數滿足Mitchell提出的德爾菲專家咨詢專家人數不少于8~10人的標準[11]。
第一輪咨詢問卷回收后,研究者進行數據整理與統計分析,根據專家評分、修改建議結合研究團隊討論的結果,對相應條目進行修訂。如果條目適宜性、重要性程度均數≤4分、變異系數>0.25,那么研究團隊將針對專家提出增加或修改的內容開會確定是否修訂或刪除,然后形成下一輪專家咨詢問卷,并且附上各個條目的適宜性、重要性評分均值與專家意見匯總等,請專家結合反饋信息對第二輪問卷再次進行評價。當下一次專家咨詢問卷全部回收后,研究團隊再次對咨詢結果進行整理與統計分析,直至形成最終的框架與功能條目。
1.3 咨詢數據處理
采用SPSS 25.0軟件對問卷獲得的數據進行錄入和統計分析。以專家咨詢表的回收率來計算專家積極程度;以專家對各個條目的適宜性、重要性程度均數和滿分率來表示專家意見的集中程度;以肯德爾和諧系數(W)和變異系數來反應專家意見協調程度;以專家對內容的熟悉程度(Cs)和專家意見的判斷依據(Ca)計算獲得的Cr來反映專家意見的權威程度[12-13]。對專家反饋的所有書面意見進行主題提取。
2 結果
2.1 專家一般資料與積極性
本研究共發放兩次專家咨詢問卷,第一輪咨詢發放問卷10份,回收有效問卷9份,有效回收率為90%;第二輪發放問卷9份,回收有效問卷9份,有效回收率為100%。9名專家的年齡為25~38歲,平均年齡30歲;其中6名是碩士學歷,3名是博士學歷;工作年限在0~8年之間,3年以上有5人;發表COSMIN方法相關文章數量為1~12篇,7名發表2篇及以上。第一輪咨詢問卷中8名專家提出修改建議,其中5名專家提出5條以上修改建議;第二輪咨詢問卷中7名專家提出修改建議,其中3名專家提出2條及以上修改建議。
2.2 專家權威程度與意見協調程度
兩輪咨詢有效回收問卷專家情況相同,專家咨詢的Ca值為0.956,Cs值為0.722,Cr值為0.839。第一輪咨詢的25個條目有3個條目中變異系數在0.25~0.30之間,其余條目變異系數均<0.25;第二輪咨詢中31個條目變異系數均<0.25。第一輪條目適宜性、重要性W系數分別為0.105、0.158。第二輪條目適宜性、重要性W系數分別為0.165、0.177。
2.3 框架與條目篩選
第一輪咨詢時,問卷中含有7個框架25個條目,框架具體內容為納入文獻評價流程建議(指導語)、一般情況描述表、偏倚風險評價、測量屬性結果分級、改良版GRADE分級、資料鏈接和表格自動輸出。對第一輪問卷進行分析后發現,3個條目變異系數偏高(>0.25),專家共提出42條修改建議。經研究團隊討論后,基于第一輪咨詢問卷新增了6個功能條目,修改了14個條目內容,最終形成7個框架31個條目。
第二輪咨詢問卷發放后,對問卷結果分析發現,31個條目適宜性程度均數和重要性程度均數均在4.78~5.00之間,并且變異系數均<0.25。專家共提出10條書面建議,且10條書面意見中沒有實質性修改建議。最終版科研輔助工具框架和功能條目如表1所示。基于本研究最終形成的結局指標測評工具系統評價科研輔助工具框架與功能條目的COSMIN方法評估方式也已獲得中華人民共和國發明專利授權(ZL202211609134.4)。

2.4 書面意見關鍵提取
專家對輔助工具形式上的建議主要有以下4點:① 研發科研輔助工具中、英文雙語版本。② 為做好交互和信息聯動,建議植入結局指標測評工具系統評價流程圖,并用文字替代符號,如用“充分、不充分”代替“+、?”。③ 資源鏈接中明確鏈接的方法學手冊的版本。④ 建議添加2~3篇不同質量的例文,尤其是存在常見問題的例子。
對內容上的建議主要有以下5點:① 納入研究一般信息提取表和納入PROM一般信息提取表的表格設計需要參考COSMIN官網提供的模板。② 除了輔助工具推薦的偏倚風險條目順序,COSMIN方法原始的條目評估順序也保留,用戶可以根據自己情況選擇評價方式。③ 由于內容效度的結果分級方法與其他測量屬性維度不同[14],建議基于其分級條目和跳轉規則設計單獨的功能按鈕。④ 雖然PROM研發和翻譯的原始研究往往不會在同一研究情境中有很多相似的研究,即證據體往往是單一研究,然而專家提醒也不排除包含多項研究作為證據體的情況,因此GRADE分級的功能設計不應只有針對單篇文章證據體的跳轉。⑤ 建議增加自動輸出評價結果的筆記的功能。
3 討論
同一核心概念往往有多個PROM,不同PROM之間質量層次不齊,如何選擇合適的結局測量工具成為評估健康狀態的重點和難點[15]。開展高質量的結局指標測評工具系統評價是幫助選擇研究者和臨床實踐者選擇最優PROM的重要方式。目前開展結局指標測評工具系統評價公認的COSMIN方法評估工具條目較多,研究團隊擬研發的基于COSMIN方法的結局指標測評工具系統評價科研輔助工具有望幫助研究者提高制作結局指標測評工具系統評價的工作效率。本研究開展了兩輪德爾菲專家咨詢,確定了該科研輔助工具的框架與功能條目,為科研輔助工具的研發奠定了基礎。
雖然2018年COSMIN方法才誕生,潛在符合本研究納入標準的專家較少,然而本研究納入的專家權威性較高,有的專家發表COSMIN相關文章數目高達12篇。且專家咨詢過程中專家的積極性較高,返回的書面意見條數也較多。經過2輪的咨詢,最終所有的功能條目適宜性和重要性評分均達標。基于本研究功能條目研發的科研輔助工具在功能上具有以下優勢:① 利用偏倚風險評價的“最差分數計分”原則,維度內和維度間的跳轉規則提高研究者進行偏倚風險評價的效率。② 進行各評價步驟之間的信息聯動,盡可能實現條目的自動化評價,如納入研究的一般信息表中填寫的樣本量小于50,則在改良版GRADE分級的環節自動進行不精確性的降級。③ 幫助研究者自動輸出論文撰寫需要提供的表格。以上優勢能幫助科研工作者在制作結局指標測評工具系統評價的過程中提高效率、減少工作失誤、提高論文寫作的規范性。此外,該工具在形式上參考RCT偏倚風險評價工具RoB2的評價輔助工具[16],利用Excel的宏功能研發該輔助工具,工具操作界面簡潔、通俗易懂,且操作不依賴網絡環境,內存小,這些優勢也為該工具的普及打下了基礎。
本研究的局限性:① 雖然咨詢專家的樣本量滿足最低標準,但仍少于15~50人的理想標準[17]。② 雖然科研輔助工具不依賴網絡環境,然而需要用戶具有正版的Office Excel軟件,這可能會在一定程度限制工具的應用。
綜上所述,本研究邀請了目前國內COSMIN方法的一線和資深研究者進行德爾菲專家咨詢,經過兩輪的咨詢確定了基于COSMIN方法的結局指標測評工具系統評價科研輔助工具的功能條目。研究團隊正基于功能條目研發科研輔助工具,該工具有望大幅提高制作結局指標測評工具系統評價的效率,助力科研工作者和臨床實踐者選擇高質量PROM,準確評估PRO。
患者報告結局(patient-reported outcomes,PRO)是指患者未經他人解釋直接對自身健康狀態進行評估報告的結局[1]。隨著對患者感受、體驗關注的日益提升,PRO也被美國食品藥品安全管理局列為臨床療效評價及藥物臨床試驗的必要報告項目[2]。該結局一般通過自填問卷開展,即患者報告結局測量(patient-reported outcome measures,PROM)量表[3]。正確選擇PROM是準確測量PRO、捕捉患者真實感受和提升研究質量的重要前提[4-5],然而同一構念往往有多個PROM,這為研究者如何選擇最佳測評工具帶來困擾。因此,開展PROM系統評價成為幫助研究者選擇良好心理測量屬性測評工具的重要方式[6]。目前國際上公認開展結局指標測評工具系統評價需要遵循COSMIN(consensus-based standards for the selection of health measurement instruments)方法[7-8]。雖然COSMIN方法為規范制作結局指標測評工具系統評價步驟和提升系統評價研究質量做出了突出貢獻,但其復雜的步驟和評估方法也為研究者帶來困擾。本研究團隊擬研發一款基于COSMIN方法的結局指標測評工具系統評價科研輔助工具。該輔助工具可以幫助所有需要開展結局指標測評工具系統評價的研究者在制作系統評價時優化評價步驟,提高選擇高質量PROM的效率,助力滿足臨床工作和科研中對PRO的評估需求。基于研究團隊前期開展的兩項結局指標測評工具系統評價的研究基礎和工作經驗[9-10],本研究初步構建了該科研輔助工具的框架與功能條目,并開展了兩輪德爾菲專家函詢來確定該輔助工具體系的具體內容。
1 資料與方法
1.1 咨詢問卷制訂
初步擬定科研輔助工具的框架與功能條目的專家咨詢問卷,問卷包括3個部分:① 研究背景和研究目的介紹;② 科研輔助工具的具體框架與功能條目;③ 專家基本情況調查和權威程度評估。初步擬定的框架與功能條目中包括7個框架和25個條目。采用Likert 5級評分標準對各項指標的適宜性和重要性進行評分,得分越高則適宜性和重要性越高。每個條目設置修改建議欄以收集專家的書面意見。專家基本信息調查表中包括姓名、年齡、學歷、職稱、工作年限、已發表COSMIN方法相關文章數量等。專家權威程度用專家權威系數(Cr)表示,判斷依據包括制作COSMIN系統評價的工作經驗、COSMIN方法學的相關理論知識、參考國內外文獻、直覺判斷4個方面。
1.2 咨詢過程
本研究專家的入選標準為:① 曾經發表過COSMIN方法相關代表作;② 具有碩士及以上學歷;③ 自愿參與本研究。研究者在PubMed和CNKI兩個數據庫中進行檢索,擬定符合專家入選標準的名單,并通過電子郵件發放咨詢問卷。由于COSMIN方法2018年才誕生,開展研究時符合本研究入選標準的國內研究者較少,最終研究團隊發放專家咨詢問卷10份,10位專家6位來自北京,3位來自上海,1位來自武漢。本研究專家人數滿足Mitchell提出的德爾菲專家咨詢專家人數不少于8~10人的標準[11]。
第一輪咨詢問卷回收后,研究者進行數據整理與統計分析,根據專家評分、修改建議結合研究團隊討論的結果,對相應條目進行修訂。如果條目適宜性、重要性程度均數≤4分、變異系數>0.25,那么研究團隊將針對專家提出增加或修改的內容開會確定是否修訂或刪除,然后形成下一輪專家咨詢問卷,并且附上各個條目的適宜性、重要性評分均值與專家意見匯總等,請專家結合反饋信息對第二輪問卷再次進行評價。當下一次專家咨詢問卷全部回收后,研究團隊再次對咨詢結果進行整理與統計分析,直至形成最終的框架與功能條目。
1.3 咨詢數據處理
采用SPSS 25.0軟件對問卷獲得的數據進行錄入和統計分析。以專家咨詢表的回收率來計算專家積極程度;以專家對各個條目的適宜性、重要性程度均數和滿分率來表示專家意見的集中程度;以肯德爾和諧系數(W)和變異系數來反應專家意見協調程度;以專家對內容的熟悉程度(Cs)和專家意見的判斷依據(Ca)計算獲得的Cr來反映專家意見的權威程度[12-13]。對專家反饋的所有書面意見進行主題提取。
2 結果
2.1 專家一般資料與積極性
本研究共發放兩次專家咨詢問卷,第一輪咨詢發放問卷10份,回收有效問卷9份,有效回收率為90%;第二輪發放問卷9份,回收有效問卷9份,有效回收率為100%。9名專家的年齡為25~38歲,平均年齡30歲;其中6名是碩士學歷,3名是博士學歷;工作年限在0~8年之間,3年以上有5人;發表COSMIN方法相關文章數量為1~12篇,7名發表2篇及以上。第一輪咨詢問卷中8名專家提出修改建議,其中5名專家提出5條以上修改建議;第二輪咨詢問卷中7名專家提出修改建議,其中3名專家提出2條及以上修改建議。
2.2 專家權威程度與意見協調程度
兩輪咨詢有效回收問卷專家情況相同,專家咨詢的Ca值為0.956,Cs值為0.722,Cr值為0.839。第一輪咨詢的25個條目有3個條目中變異系數在0.25~0.30之間,其余條目變異系數均<0.25;第二輪咨詢中31個條目變異系數均<0.25。第一輪條目適宜性、重要性W系數分別為0.105、0.158。第二輪條目適宜性、重要性W系數分別為0.165、0.177。
2.3 框架與條目篩選
第一輪咨詢時,問卷中含有7個框架25個條目,框架具體內容為納入文獻評價流程建議(指導語)、一般情況描述表、偏倚風險評價、測量屬性結果分級、改良版GRADE分級、資料鏈接和表格自動輸出。對第一輪問卷進行分析后發現,3個條目變異系數偏高(>0.25),專家共提出42條修改建議。經研究團隊討論后,基于第一輪咨詢問卷新增了6個功能條目,修改了14個條目內容,最終形成7個框架31個條目。
第二輪咨詢問卷發放后,對問卷結果分析發現,31個條目適宜性程度均數和重要性程度均數均在4.78~5.00之間,并且變異系數均<0.25。專家共提出10條書面建議,且10條書面意見中沒有實質性修改建議。最終版科研輔助工具框架和功能條目如表1所示。基于本研究最終形成的結局指標測評工具系統評價科研輔助工具框架與功能條目的COSMIN方法評估方式也已獲得中華人民共和國發明專利授權(ZL202211609134.4)。

2.4 書面意見關鍵提取
專家對輔助工具形式上的建議主要有以下4點:① 研發科研輔助工具中、英文雙語版本。② 為做好交互和信息聯動,建議植入結局指標測評工具系統評價流程圖,并用文字替代符號,如用“充分、不充分”代替“+、?”。③ 資源鏈接中明確鏈接的方法學手冊的版本。④ 建議添加2~3篇不同質量的例文,尤其是存在常見問題的例子。
對內容上的建議主要有以下5點:① 納入研究一般信息提取表和納入PROM一般信息提取表的表格設計需要參考COSMIN官網提供的模板。② 除了輔助工具推薦的偏倚風險條目順序,COSMIN方法原始的條目評估順序也保留,用戶可以根據自己情況選擇評價方式。③ 由于內容效度的結果分級方法與其他測量屬性維度不同[14],建議基于其分級條目和跳轉規則設計單獨的功能按鈕。④ 雖然PROM研發和翻譯的原始研究往往不會在同一研究情境中有很多相似的研究,即證據體往往是單一研究,然而專家提醒也不排除包含多項研究作為證據體的情況,因此GRADE分級的功能設計不應只有針對單篇文章證據體的跳轉。⑤ 建議增加自動輸出評價結果的筆記的功能。
3 討論
同一核心概念往往有多個PROM,不同PROM之間質量層次不齊,如何選擇合適的結局測量工具成為評估健康狀態的重點和難點[15]。開展高質量的結局指標測評工具系統評價是幫助選擇研究者和臨床實踐者選擇最優PROM的重要方式。目前開展結局指標測評工具系統評價公認的COSMIN方法評估工具條目較多,研究團隊擬研發的基于COSMIN方法的結局指標測評工具系統評價科研輔助工具有望幫助研究者提高制作結局指標測評工具系統評價的工作效率。本研究開展了兩輪德爾菲專家咨詢,確定了該科研輔助工具的框架與功能條目,為科研輔助工具的研發奠定了基礎。
雖然2018年COSMIN方法才誕生,潛在符合本研究納入標準的專家較少,然而本研究納入的專家權威性較高,有的專家發表COSMIN相關文章數目高達12篇。且專家咨詢過程中專家的積極性較高,返回的書面意見條數也較多。經過2輪的咨詢,最終所有的功能條目適宜性和重要性評分均達標。基于本研究功能條目研發的科研輔助工具在功能上具有以下優勢:① 利用偏倚風險評價的“最差分數計分”原則,維度內和維度間的跳轉規則提高研究者進行偏倚風險評價的效率。② 進行各評價步驟之間的信息聯動,盡可能實現條目的自動化評價,如納入研究的一般信息表中填寫的樣本量小于50,則在改良版GRADE分級的環節自動進行不精確性的降級。③ 幫助研究者自動輸出論文撰寫需要提供的表格。以上優勢能幫助科研工作者在制作結局指標測評工具系統評價的過程中提高效率、減少工作失誤、提高論文寫作的規范性。此外,該工具在形式上參考RCT偏倚風險評價工具RoB2的評價輔助工具[16],利用Excel的宏功能研發該輔助工具,工具操作界面簡潔、通俗易懂,且操作不依賴網絡環境,內存小,這些優勢也為該工具的普及打下了基礎。
本研究的局限性:① 雖然咨詢專家的樣本量滿足最低標準,但仍少于15~50人的理想標準[17]。② 雖然科研輔助工具不依賴網絡環境,然而需要用戶具有正版的Office Excel軟件,這可能會在一定程度限制工具的應用。
綜上所述,本研究邀請了目前國內COSMIN方法的一線和資深研究者進行德爾菲專家咨詢,經過兩輪的咨詢確定了基于COSMIN方法的結局指標測評工具系統評價科研輔助工具的功能條目。研究團隊正基于功能條目研發科研輔助工具,該工具有望大幅提高制作結局指標測評工具系統評價的效率,助力科研工作者和臨床實踐者選擇高質量PROM,準確評估PRO。