首页 >> 中医推拿

周末文摘 | 《使用非结构化电子健康数据开展真实世界比较效果和安全性研究的报告标准》要点解读及思考

发布时间:2025年09月01日 12:18

大学自建南京医疗医疗中心发达国家自然科学知识基金培育基金(GPQN202005)

摘要 | Abstract

近些年来,为了让地方政府管理和患病毒适度学医疗个人信息库等如以前所述得来的卫生个人信息积极开展比如说并不极端度与有效率率适度的研究工作越来越多地受到影响食品税务、报销和其他照护议程。电子产品肥胖记事(Electronic Health Records, EHR),尤其是电子产品指纹个人信息里的非一个通用个人信息蕴含大使用量呕吐、体征、临床方面个人信息,建构很高效难以实现的患病毒适度学比如说个人信息采集来进行,将其搜集为部份统计数字分析的一个通用个人信息,可以更很高地为了让这些个人信息积极开展研究工作。目以前已刊载的多个研究工作报告标准化简略说明了关于如何标准化研究工作报告用作如以前所述得来卫生个人信息积极开展掩蔽适度研究工作。然而,现有研究工作报告标准化未对电子产品医疗医疗记事、提出申劝个人信息或其他照护个人信息源里所包括的一个通用和非一个通用个人信息加以分辨。如何更紫色、标准化地研究工作报告,即将非一个通用句法提炼出,搜集成为可以积极开展并不极端度研究工作和有效率率适度研究工作统计数字分析的一个通用字段,对于此类本质推算研究工作、结果理解有决定适度适度意义。鉴于此,哈佛大学现代药学院Shirley V. Wang 教授追随的研究工作设计者团队设想并规章《用作非一个通用电子产品肥胖个人信息积极开展比如说并不极端度和有效率率适度研究工作的研究工作报告标准化》。本文对基于非一个通用EHR 积极开展比如说并不极端度和有效率率适度研究工作反复里限于的专业人士术语和方面很高效率透过单纯归纳,着重于参阅业已刊载的研究工作报告标准化里对于非一个通用句法处理事件,如用作自然语言处理事件或人工神经网络分析方法时需重点项目研究工作报告的框架应以,以期为研究工作执法人员今后更很高地积极开展和研究工作报告此类研究工作给予参考资料。

Research that makes secondary use of administrative and clinical healthcare databases is increasingly influential for regulatory, reimbursement, and other healthcare decision-making. Electronic health records (EHRs), especially electronic medical records, contain unstructured data that record information on symptoms, signs and diagnoses. With the help of efficient and practical clinical real-world data collection models, unstructured data can be cleaned and put to better use.Several guidance documents have been published to improve transparency, reproducibility of observational studies using routinely collected health data. However, existing guidance does not differentiate between structured and unstructured information contained in EHRs, registries, or other healthcare data sources. More transparent and standardized reporting on the extraction and organization of unstructured text into structured fields that can be used for comparative effectiveness and safety studies is of great significance to such causal inference research and interpretation. To this end, a research team led by Professor Shirley V. Wang of Harvard Medical School proposed and developed the Transparent Reporting on Research Using Unstructured Electronic Health Record Data to Generate Real World Evidence of Comparative Effectiveness and Safety. This paper summarizes the terminology and technologies involved in real-world comparative effectiveness and safety research based on unstructured EHRs, with a focus on the core points for the transparent reporting of unstructured text processing involving use of natural language processing- or machine learning-derived data fields, to provide reference for future research.

决定适度词 | Key words

食品税务;电子产品肥胖个人信息;非一个通用句法;比如说研究工作;研究工作报告标准化

drug administration; electronic health records; unstructured text; real-world study; reporting guidance

01

为了让非一个通用句法积极开展比如说研究工作的价值与现状

随着个人信息很高效率的不断的发展和如以前所述得来卫生个人信息个人信息电子产品化不断更新,越来越多的历史学者或决定适度因素非议并为了让包括在电子产品肥胖记事(electronic health records,EHR) 如社会保障个人信息、申领提出申劝个人信息和电子产品指纹个人信息等里多样化的患病毒适度学个人信息显现出的有关医疗医疗干预有效率率适度、持续适度或卫生经济学的比如说结论(real-world evidence,RWE)[1-3]。申领提出申劝研究工作或其他医疗医疗个人信息源里包括的一个通用和非一个通用个人信息,引人注意是医疗医疗电子产品指纹里非一个通用个人信息蕴含大使用量呕吐、体征、临床方面个人信息,建构很高效难以实现的患病毒适度学比如说个人信息采集来进行[4],将其搜集为部份统计数字分析的一个通用个人信息,从而可以更很高地在并不持续适度或有效率率适度方面本质推算疑虑的研究工作和用药患病毒适度或用药为了让研究工作等科技领域为了让这些个人信息[5]。American酒类食品监督管理局(Food and Drug Administration,FDA)于2021年9 月末发布的RWE 方面的读物草案《比如说个人信息:审核电子产品肥胖记事和医疗医疗保险个人信息,以反对食品和生物制品税务议程》里提及多种电子产品肥胖个人信息可作为比如说研究工作的决定适度适度个人信息比如说,其里也忽略了非一个通用句法在此类研究工作里的决定适度适度价值[6]。

基于比如说个人信息(real world data,RWD)在税务科技领域积极开展的掩蔽适度研究工作,以及社会保障支付和其他医疗医疗卫生议程里的决定适度适度功用,目以前国部份部份有关历史学者业已开发计划和发布多个关于掩蔽适度研究工作的研究工作报告标准化[7,8] 以及针对既有个人信息透过研究工作的具体研究工作报告促请[9-13]。这些导师文件旨在大幅提很高短文研究工作报告的紫色化、可重复适度以及审核设计者和统计数字分析议程的持续适度、方面适度的能力。然而,上述提及的方面读物并未分辨EHR 里一个通用个人信息和非一个通用句法个人信息在研究工作反复里限于多个环节的搜索算法和研究工作处理过程等方面的差异。

为了在研究工作里可以精确、有效率率地对EHR 里的暴露、紧密建构到/回避新近标准、宏请注意达式和整部透过分类学和鉴别, 越来越多的研究工作全心投入于开发计划和为了让自然语言处理事件(natural language processing,NLP) 和人工神经网络(machine learning,ML)等很高效率与分析方法 [14]。许多学术民间组织、卫生该系统和商业民间组织为了让基于NLP 和ML 分析方法相异的个人信息反对基于EHR 的研究工作和患病毒适度学实践里。目以前,NLP 和权利句法统计数字分析分析方法已被用作多种特殊任务,以部份提炼出患病毒适度学基本概念如二手烟状况和其他可能适度状况[15-17]、用药差异的鉴别[18-20]、检测自发研究工作报告该系统里潜在的用药效应当[20-24] 以及用药-患病因[25] 的关系的审核。

目以前,亚太地区上有多个食品上市后评论者的大改型分布式个人信息网络平台[26],如PCORnet [27] 和FDA 哨点行动[28-29]。现阶段,许多历史学者聚焦积极开展并不极端度和有效率率适度研究工作,其研究工作热点为在通用个人信息模改型里不足之处用作NLP 和ML 分析方法,即实现从非一个通用个人信息得到能用作统计数字分析的变异和患病毒适度学惨案[30-34]。其他分布式个人信息网络平台,如拉丁美洲的EU-ADR和AsianDURG(亚洲用药为了让研究工作组),也已在网络平台上独立实施通用个人信息模改型方案。通过并不上述分布式网络平台研究工作结果,注意到方面研究工作结果意味著因个人信息源的差异以及非一个通用个人信息提炼出个人信息反复而有所有所不同[35-37]。

02

为了让NLP 或ML 搜索算法积极开展用药并不极端度和有效率率适度研究工作的主要特殊任务及应以

从非一个通用的句法个人信息里挖掘潜在的规律需要鉴别大使用量专业人士用词,以及患病因-呕吐等特定的单一的关系。随着NLP 和ML 很高效率的的发展,对这类句法个人信息透过个人信息挖掘的主要特殊任务以部份:名为单一鉴别、的关系放入和句法分类学。个人信息科学知识很高效率的的发展对电子产品指纹个人信息的分类学特殊任务和问答特殊任务也有了一定的突破[38]。

2.1 名为单一鉴别

名为单一鉴别(named entity recognition,NER)也叫做基本概念放入,即从指定的权利句法里放入出方面的不具特定意义的词语,其在现代医学句法研究工作里被叫做生物现代医学名为单一鉴别(biomedicalnamed entity recognition,BioNER)。电子产品指纹名为单一鉴别是BioNER 的子科技领域,其主要特殊任务是鉴别患病人的电子产品指纹里不具特定意义的单一,并对其透过上面,这些单一根据研究工作目地有所不同而都和。往往里文电子产品指纹里的单一类改型以部份患病因、患病因、患病毒适度学请注意现、定期检查分析方法、食品英文名称、疗程、身体部位等。电子产品指纹被上面单一再次可以大幅提很高药剂师检视指纹的生产率。同时,上面的结果也将辅助紧接著的如的关系放入和知识研究成果紧密建构等研究工作。

2.2 的关系放入

的关系放入(relation extraction,RE)往往基于名为单一鉴别的结果之上,也是NLP 里一个决定适度适度的子特殊任务,但是由于深度学习的的发展,也有不少深度神经网络平台将名为单一鉴别和单一的关系放入视作一个完备的特殊任务。意味著,的关系放入特殊任务总称2步,首先断定一个单一对有否依赖于的关系,都只的关系,则进一步断定的关系类改型。在实际模改型设计者里,往往把无的关系当作一种特殊的的关系,并实质上将的关系放入视作是多类别分类学特殊任务。的关系放入是医疗医疗肥胖知识库组织起来管理的典范。在现代医学科技领域,有所不同单一间的的关系不具有所不同的定义新近标准,根据I2B2 2010 审核会议[39],电子产品指纹里的单一的关系可以总称3类,以部份患病因密切关系的的关系、患病因与现代医学定期检查的的关系以及患病因与治疗密切关系的的关系。在现代医学科技领域,往往采用基于共生、传统人工神经网络和深度学习分析方法透过的关系放入。

时序适度是电子产品指纹个人信息的便是特点,因为电子产品指纹往往不仅以部份患病人现阶段的治疗状况和很高效率,还以部份患病人过去所经历的患病毒适度学惨案。为了自动紧密建构这些惨案密切关系的短时间线,就需要放入患病毒适度学记事里惨案和短时间的的关系。

2.3 句法分类学

句法分类学是元数据级的NLP 特殊任务,目标是为元数据上面原计划义的元数据级标签。电子产品指纹里的现代医学研究工作报告是一种不具多样化个人信息的教育资源,引人注意是其里主要用自然语言阐述的权利句法其余部分。这其余部分句法以部份药剂师的患病毒适度学推理个人信息及思维反复,并能通过患病人情形的简略资料希望药剂师解决问题有所不同的患病毒适度学疑虑,而且其往往不能被其他一个通用个人信息所代替。元数据分类学有助处理事件和提炼出这类个人信息,辅助紧接著的分类学预见特殊任务,并大幅提很高叙述适度患病毒适度学笔记的为了让效率,因此元数据分类学也成为了患病毒适度学预见统计数字分析的一个决定适度适度研究工作科技领域。

2.4 应以

用作NLP 或ML 搜索算法在有所不同个人信息该系统、短时间和基于有所不同目地透过变异或患病毒适度学惨案提炼出时有几个决定适度适度的应以。首先,在有所不同的医疗该医院里,患病毒适度学元数据记事和术语意味著有所有所不同。当患病毒适度学记事反复和术语有所不同时,用作某一个电子产品指纹该系统里句子个人信息紧密建构的很高效能NLP 和ML 搜索算法意味著不适用作其他该系统。第二,虽然NLP 和ML 很高效率分析方法在精确测使用量暴露、回避新近标准、宏请注意达式和整部时是并不有用的工具,但透过本质归纳时还必须应当用领域其他设计者和统计数字分析分析方法。例如,宏请注意达式审核短时间窗和转入描述符后的随访短时间对本质推算研究工作并不决定适度适度,但与转入描述符方面的短时间意味著并不是针对开发计划NLP 或ML 搜索算法并用分辨患病人、惨案或记事这类研究工作主要重新近考虑的状况。NLP 或ML 建模反复限于的素材和细节对于推算研究工作者和政策规章者(例如卫生很高效率审核、支付和税务执法人员)评论者给予的变异、整部或其他患病毒适度学惨案有否与其非议的疑虑方面是至关决定适度适度的。

从电子产品指纹提炼出和可验证个人信息的一般反复是实质上的,往往都是研究工作的设计者和定义组织起来的参考资料新近标准。本文除此以部份用作“参考资料新近标准”这个术语,而不是“金新近标准”或“单纯情形”,并用忽略由甄别员做出的决定并非都是固定不变的而是甄别员基于依赖于固有即便如此的电子产品指纹个人信息记事的患病毒适度学护理情形(往往指一个已商定的新近标准,例如一个已刊载公开的个案定义)而作出的理解。在参见研究工作设计者和参考资料新近标准后,研究工作执法人员往往可给予电子产品指纹个人信息,并创建一个上面的个人信息词组(其里参考资料新近标准由人工评判员已确定),然后日后开发计划和审核NLP 或ML 搜索算法。上述时序虽然单纯明了,但所限于的细节并不简略复杂,且决定适度适度的科学知识细节往往未被公开报道[40]。但事实上,研究工作执法人员若能针对这一反复的每一步给予模糊不清的研究工作报告,将有利于审稿人和决定适度因素对NLP 和ML 搜索算法的持续适度和方面适度透过评论者,同时对其结果在有所不同的研究工作核查里(例如变异库)重复用作并透过审核。

鉴于此,哈佛大学现代药学院ShirleyV. Wang 教授追随的研究工作设计者团队设想并规章《用作非一个通用电子产品肥胖个人信息积极开展比如说并不极端度和有效率率适度研究工作的研究工作报告标准化》[41]。该标准化由多位为了让基于包括非一个通用电子产品指纹句法个人信息的比如说研究工作透过议程的利益方面者共同撰写而成,以部份研究工作历史学者(用药患病毒适度学家和个人信息学家)、税务执法人员、工业和卫生很高效率审核执法人员等。为有效率传布结论的显现出反复,该标准化参见应当在研究工作里刊载或其他NLP 或ML 搜索算法方面研究工作公开研究工作报告的9 项素材。通过给予关于本质并不持续适度和有效率率适度研究工作里用作非一个通用句法个人信息反复时所需研究工作报告的一般适度促请,为医疗医疗卫生决定适度因素增加研究工作的紫色化。这些促请旨在用作对现有研究工作报告、读物的不足之处, 如拉丁美洲用药患病毒适度学、用药警戒里心网络平台、FDA两个专业人士物理学会密切关系的联合工作组编写的研究工作报告读物。该标准化基于如以前所述得来卫生个人信息积极开展掩蔽适度研究工作的RECORD 标准化,组织起来多请注意达式预见模改型预见幼体预后或临床的TRIPOD 标准化等[9-12]。其具体的促请为希望在今后为了让RWD 透过本质推理研究工作时,为重复用作NLP 或ML 搜索算法显现出的个人信息字段的研究工作执法人员和照护决定适度因素给予文化背景和个人信息显现出反复里的反对细节,使其对显现出的暴露精确测使用量、紧密建构到/ 回避新近标准、宏请注意达式以及研究工作疑虑整部的持续适度和方面适度不具权威适度。

03

《用作非一个通用电子产品肥胖个人信息积极开展比如说并不极端度和有效率率适度研究工作的研究工作报告标准化》应以解读

该研究工作报告标准化的9 项关于大幅提很高研究工作研究工作报告紫色化的素材,主要围绕基于RWD 积极开展比如说研究工作反复里所限于提炼出个人信息的运动速度、方面适度和持续适度等评论者方面的素材展开。针对将非一个通用句法个人信息用作并不极端度和有效率率适度研究工作时所采用的处理过程设想研究工作报告的一般适度促请,其可为照护决定适度因素和本质推算研究工作者给予可审核的结论,例如为限于用作NLP 或ML搜索算法相异的个人信息字段的本质推算研究工作给予足够的句子和反对个人信息,以便研究工作执法人员、审稿人和决定适度因素很难精确地审核暴露的相异精确测使用量、紧密建构到/ 回避新近标准、宏请注意达式和所非议疑虑整部的持续适度和方面适度。研究工作研究工作报告的紫色化将有益于审稿人对此类研究工作运动速度透过审核,但需要忽略的是,该自荐非议NLP 或ML 搜索算法方面的研究工作研究工作报告紫色化,并不等同于如何更很高地积极开展NLP 或ML 搜索算法研究工作的程序设计者敦促。

3.1 个人信息

3.1.1 阐述研究工作执法人员所获取的个人信息特点(以部份个人信息比如说和类改型)

给予研究工作执法人员可获取或能用个人信息类改型的个人信息为研究工作执法人员给予研究工作文化背景、搜索算法效能和可推广适度个人信息。例如,个人信息是只基于叙述适度研究工作报告或是研究工作执法人员还为了让疑虑列请注意、实验室结果、食品库存及发放记事和其他一个通用字段个人信息。

EHR 个人信息在穿过评判员在此之后意味著要经过基于NLP 或ML 搜索算法反馈该系统的多次切换。当评判员从原始的EHR 里看到可紧密建构上面语言(extensible markup language,XML)将医疗医疗指纹从电子产品指纹记事导出或回顾,并已被光学字符鉴别操作系统切换为机器可读的格式的医疗医疗记事研究工作报告的扫描图片时其意味著会失去了原本的单纯适度。去履历鉴别操作系统也会导致噪音,例如去履历鉴别操作系统可以打乱名字,值得注意可以打乱看似是名字的患病因英文名称(如克罗恩患病、帕金森综合征、桥本甲状腺炎)。

3.1.2 阐述研究工作者获取个人信息在生成以前积极开展的程序中事件或个人信息除去

在获取用作研究工作的EHR 个人信息后,核查执法人员意味著在积极开展研究工作以前透过适当的个人信息切换,为透过个人信息清理或以其他方式程序中事件个人信息。简略阐述创建为积极开展人工审阅或与NLP 或ML 搜索算法兼容的元数据词组制作的处理过程,以部份所用作的操作系统及在每一步有否积极开展持续适度单纯适度的可验证等个人信息,将有助理解EHR 个人信息程序中事件和个人信息除去等个人信息操作反复。

3.2 分析方法

3.2.1 给予研究工作设计者的决定适度细节,以已确定研究工作描述符和(或)量化基本基本概念

指明研究工作描述符或量化基本基本概念对于理解NLP 或ML 搜索算法请注意现很高效率的文化背景是极为适当的。例如,在开发计划鉴别整部的搜索算法时,并不决定适度适度的一点为整部惨案应当频发在随访开始后。另部份,对紧密建构到研究工作的患病人选取的分析方法透过阐述极为决定适度适度,以部份待审核已确定研究工作对象搜索算法的短时间基本基本概念,以及指纹是如何量化给予的反复。需研究工作报告的细节个人信息已包括在已有的研究工作报告读物里,如RECORD [10]、亚太地区用药患病毒适度学物理学会、亚太地区用药经济学与结果研究工作物理学会联合工作组[9] 规章的读物。此部份,简略的细节也能用作如图所示透过描绘出[42]。

3.2.2 为指纹甄别执法人员给予并用已确定整部惨案或参考资料新近标准的以前提

指纹甄别执法人员根据既定的以前提导师供甄别员用作参考资料新近标准的已确定,例如患病人有否依赖于某种特定的患病因变异或患病毒适度学惨案。当患病毒适度学变异或患病毒适度学惨案并不复杂,亦或在电子产品医疗医疗记事里模糊不清时,规章这些断定以前提新近标准过分更为决定适度适度。当甄别执法人员设想不相符的审核结果时,研究工作报告断定新近标准、指纹甄别执法人员的培训情形、有否为科技领域专业人士人士或患病毒适度学专业人士人士、以及裁定反复里对参考资料新近标准有否被正确精确测使用量等个人信息,在一定持续适度上大幅提很高了研究工作研究工作报告的紫色化。指明用作从EHR 元数据里已确定参考资料新近标准的以前提对于审核NLP 或ML 搜索算法提炼出个人信息的方面适度极为决定适度适度。

刊载供指纹甄别执法人员用作的参考资料新近标准对于进一步提高研究工作研究工作报告紫色化不具至关决定适度适度的功用。若短文没指明地研究工作报告已定义的参考资料新近标准的以前提,基于非议疑虑获取变异的方面适度以及决定适度适度研究工作请注意达式(例如暴露、纳除新近标准、宏请注意达式、整部)的差错分类学持续适度有意味著被掩盖。例如,研究工作执法人员可以用作从权利句法EHR 批注里鉴别“糖尿患病”患病人的搜索算法,以用作防糖尿患病用药的并不审核。然而,由于没简略的变异定义方式以及该定义意味著的即便如此,因此对于甄别者或决定适度因素来说不易探究该搜索算法是极端的还是防原的,以及有否能鉴别新近发或现患糖尿患病。此部份,该搜索算法如何重新近考虑短时间窗(如果有的话)以及如何分辨1 改型、2改型和妊娠糖尿患病也是有一点非议的疑虑[43-44]。

3.2.3 阐述部份甄别执法人员用作和操作系统会面时的个人信息

当评判执法人员和操作系统可以检视的EHR 个人信息全面且相符时,即可审核NLP 或ML 搜索算法在理想以前提下变异分类学或鉴别患病毒适度学惨案的“持续适度”。例如,当参考资料新近标准和NLP 基于并不相同的个人信息源时,批注者的相符适度被当作待审核的NLP 效能上限。但是,当甄别执法人员和操作系统与可以用作的个人信息仅有其余部分重叠时,审核的重点项目基本上将在NLP 或ML 搜索算法的“持续适度”上。以后者为例,意味著会出现甄别员可以人工会面时或定期检查整个医疗该医院并检视某种情形下有否依赖于或缺失,但如果用作NLP 或ML搜索算法根本无法通过一个通用个人信息或其余部分句法记事会面时个人信息库。

为方面甄别执法人员给予其应当用领域操作系统能用的EHR 个人信息类改型的个人信息,可为获取参考资料新近标准的个人信息运动速度和完备适度给予决定适度适度的文化背景个人信息。不完全给予患病人记事或评判执法人员和(或)操作系统能用的个人信息不相符,均意味著会受到影响NLP 或ML 搜索算法的效能、持续适度和亦然适度的审核。

3.2.4 给予自然语言处理事件或人工神经网络搜索算法的完备阐述,以部份匹配和转换成个人信息的简略资料(用作主要、次要和极端适度统计数字分析)

该标准化进一步紧密建构了TRIPOD [13] 关于预见模改型研究工作报告标准化的促请,并用解决问题NLP 或ML搜索算法里用作非一个通用个人信息所导致的其他复杂情形。

为大幅提很高全部统计数字分析复现适度,促请方面联编译器和个人信息。然而,往往出于对隐私和知识产权的重新近考虑,研究工作执法人员会消除个人信息、便是个人信息或编译器的方面联。此部份,即使可以分享,在没模糊不清简略详述的不足之处材料下,对于许多决定适度因素和其他利益方面者而言也意味著还是缺少对于研究工作报告NLP 或ML 搜索算法复杂适度的紫色化。此部份,在缺少方面联个人信息和编译器能力的情形下,仍然可以研究工作报告决定适度细节并用促进对NLP 或ML 搜索算法里参数设置议程的理解,从而有助对研究工作疑虑的持续适度和适合适度透过审核。

另部份,该标准化提倡可以用有所不同的格式给予匹配和转换成的细节,例如,匹配- 转换成如图所示、去标识化的抽取图,其应当包括时序每个处理过程里方面其余部分的重点项目和(或)自然语言编译器执行的每个处理过程的汇总结果。一些有助大幅提很高个人信息提炼出该系统的紫色化和可重复适度的细节, 以部份操作系统包的英文名称和发行版,带有用作同构患病毒适度学基本概念的本体释义或参考资料( 例如RxNorm、SNOMED-CT 或研究工作者图标的同构参考资料),选取用作NLP 或ML 搜索算法里包括的匹配和微调参数(例如剪枝、字词歧义消除、词序等),以及转换成的简略资料(例如搜索算法、规范、模改型、系数等)研究工作报告用作的NLP 或ML 搜索算法或操作系统英文名称,阐述或参见搜索算法、配有设置和计算环境的标准化对于评判执法人员和其他研究工作执法人员探究如何从非一个通用个人信息里提炼出请注意达式值得注意极为决定适度适度。

3.3 整部

3.3.1 研究工作年轻人的阐述

许多其他读物研究工作报告文件里也提及需要研究工作报告研究工作年轻人特质的基本原理[14-18],其里以部份个人信息请注意(显示紧密建构到合理以前提的患病人编号),提炼出年轻人的基线特质以及研究工作结果数使用量和短时间基本基本概念。该自荐为便于研究工作执法人员和评判执法人员很难阐述、审核所给予请注意达式的高频率有否与预期相符。这一自荐值得注意也适用作开发计划或用作从NLP 或ML 搜索算法获取个人信息的研究工作里。

3.3.2 给予相符适度/ 等级间有效率率适度的请注意现情形

人工甄别意味著依赖于一定紧接著适度。如果评判执法人员密切关系相符适度差,则会减低对用作典范训练NLP 或ML搜索算法参考资料新近标准的有效率率适度的信心[45]。评判执法人员密切关系的信度评论者很高效率以部份Kappa 值、组内相的关系数、F值等其他很高效率[46]。

3.3.3 给予多种精确测使用量/ 审核典范训练搜索算法和可验证个人信息的分析方法(用作主要、次要和极端适度统计数字分析)

给予审核NLP 或ML 搜索算法正确鉴别患病毒适度学惨案变异的效能很高效率,对于审核预期的差错分类学持续适度以及搜索算法效能有否适合目以前的研究工作是极为适当的。为了透过此类审核,除了研究工作报告阳适度预见值部份(PPV :是指搜索算法审核某种情形的依赖于,该情形实际单纯依赖于的标准差,也叫做“精确度”),还需给予其他很高效率(有适度预见值NPV :即意味著搜索算法审核为不属于某种情形,且基本上确有不依赖于该情形的标准差),极端适度(通过搜索算法正确鉴别的单纯阳适度比例,也叫做“描绘出适度”),以及防原(由搜索算法正确鉴别的单纯有适度的比例)[47]。为了消除偏很高模改型的效能,应当针对未用作典范训练搜索算法的测试(可验证)个人信息抽取研究工作报告上述很高效率情形。

PPV 和NPV 均远大于所审核患病因的患患病率[47]。如果已知典范描述符的量化基本基本概念,则在审核请注意现很高效率时,可以通过量化比例对量化的频发率和对照透过加权[48]。尽管极端适度和防原不远大于患病因的患患病率,但这些很高效率在有所不同年轻人里意味著有所有所不同。对于搜索算法而言,其不具的很高防原与很高极端适度意味著会根据精确测使用量方式有所不同而巨大变化。例如,当用作败血症患病亡里的搜索算法作为回避新近标准时,为确保研究工作年轻人不以部份患上里风的患病人,很高灵敏度意味著比很高PPV 更决定适度适度。相反,当透过一项并不极端度研究工作,用作与极端度方面的精确测使用量分析方法审核败血症患病亡里可能适度整部频发可能适度,很高防原意味著更优。

分类学研究工作里意味著限于的其他很高效率以部份C 统计数字使用量(工作特适度直线下的面积)和综合判别改善统计数字使用量[49]。校准微调措施也意味著与预见研究工作有关[50]。

04

理适度与研究工作展望

新近结论对决定适度因素减低议程的不已确定适度功用引人注意是在。紫色的个人信息比如说和研究工作反复的简略研究工作报告可一定持续适度大幅提很高研究工作可信度以及对于研究工作运动速度的信心[9,51]。模糊不清地研究工作报告研究工作时序、方案和其他科学知识议程,在应当用领域作不具有所不同个人信息源和总体的其他研究工作时,有助大幅提很高NLP 或ML 搜索算法的描绘出适度、单纯适度和方面适度[9,51]。当研究工功用作以NLP 或ML 搜索算法获取的变异或患病毒适度学惨案,或将其作为可重复用作的一个通用元素能用于个人信息库里时,本文促请应当注重重新近考虑以前述9 方面素材的决定适度适度适度。这些具体个人信息可以通过互联网决定适度字,释义或经过同行评判的读物以及研究工作报告里的参考资料公开方面联。未来的研究工作重点项目将为如何更很高举出已刊载研究工作的方面元个人信息移去个人信息源决定适度字。

为了让NLP 或ML 搜索算法基于非一个通用电子产品肥胖个人信息积极开展比如说并不极端度和有效率率适度研究工作反复里仍依赖于一些挑战。例如,在分布式网络平台里需非议:①将非一个通用个人信息里的NLP 或ML 搜索算法编码元素磁盘在的关系请注意里作为方面联教育资源;②移去非一个通用原始个人信息,并磁盘NLP 或ML 搜索算法库以给予所需的元素。尽管某单一研究工作建筑工程项目可以根据研究工作目地开发计划、审核和选取经过优化的搜索算法,这些搜索算法在用作分布个人信息网络平台透过计算个人信息模改型时(即搜索算法作为多个研究工作执法人员的方面联教育资源)意味著出于许多患病毒适度学状况的重新近考虑, 不能已确定一个适用所有里心情形的搜索算法。合理单纯研究工作环境的“ 最佳” 搜索算法意味著远大于许多状况,以部份具体用作的频发率、医院该系统和短时间的巨大变化等。例如, 一个医院该系统里的很高效能搜索算法意味著很好地用作另一医院该系统, 并且随着实践里来进行和EHR 该系统的巨大变化,同一该系统里搜索算法的效能意味著会随短时间而减低。一段短时间内,在多个研究工作执法人员用作的卫生该系统个人信息磁盘里,意味著依赖于多个用作多种有所不同基本概念的搜索算法发行版。分布式个人信息网络平台里的框架成员用来定义变异或患病毒适度学惨案的搜索算法在其他框架成员持有的EHR个人信息里不一定很难很好地执行。因此, 对于在分布式个人信息网络平台里透过的研究工作, 其决定适度操作应以之一应当及时保存个人信息提炼出反复的模糊不清元数据记事, 以及在马上应当用领域这些搜索算法的个人信息该系统里对这些搜索算法的效能透过审核。

NLP 或ML 搜索算法的细节差异及其在有所不同年轻人里的效能差异,意味著会对研究工作结果显现出实质适度受到影响[52]。在越来越非议分布式个人信息网络平台和重复用作现在开发计划的NLP 或ML 搜索算法给予个人信息元素的研究工作环境里, 指明这些个人信息请注意达式是如何创建以及其在有所不同个人信息该系统里的持续适度证明,对于从分布式EHR 网络平台提炼出个人信息生成有价值的比如说结论都至关决定适度适度。

05

结 论

本文参阅的研究工作报告标准化旨在希望适当用作HER 个人信息基于NLP或ML 搜索算法提炼出的个人信息,大幅提很高研究工作研究工作报告的紫色化,更很高地并用反对比如说结论的显现出。鉴于刊载短文文句限制,促请方面历史学者、研究工作执法人员可以在方面很高效率参考资料或以实质上刊载方案给予简略资料。诚然,一些期出刊已经开始对个人信息、统计数字分析、设计者和研究工作反复里其他要素的研究工作报告标准化设想了更严格的敦促[53]。本文对于研究工作报告标准化的解读推广,可以使观看者强化对现阶段研究工作报告里缺失素材的认识,以及如果紫色地研究工作报告方面素材,可以使决定适度因素更很高地探究来自于管理和患病毒适度学医疗个人信息库里显现出的比如说结论的运动速度、持续适度和方面适度。

第一作者简介

聂晓璐,政治学,发达国家幼儿现代医学里心/ 首都医科大学自建南京医疗医疗中心患病毒适度学患病毒适度与循证现代医学里心。专业人士方向:用药患病毒适度学与循证现代医学

通讯作者简介

彭晓霞,助手,发达国家幼儿现代医学里心/ 首都医科大学自建南京医疗医疗中心患病毒适度学患病毒适度与循证现代医学里心,研究工作员。专业人士方向:患病毒适度学患病毒适度学与循证现代医学

《里国酒类食品税务》Magazine

亚太地区新近标准紧接著读物号:

ISSN 1673-5390

国部份统一紧接著读物号:

CN 11-5362/D

期出刊最很高级别: 发达国家级

出刊期:月末出刊

《里国酒类食品税务》作为发达国家食品监督管理局机关出刊,创出刊于1998年,目以前是发达国家食品监督管理局经理的隶属于里国肥胖香港传媒该集团的科学知识适度、专业人士适度框架期出刊;更是研究工作和宣传里国酒类食品税务政策、组织起来科学知识税务理念、大幅提很高税务准确度、服务我国食药产业肥胖的发展的决定适度适度平台。

点击封面订阅Magazine

喜欢就劝点个"在看"吧~

达霏欣米诺地尔搽剂功效
孩子厌食
安必丁能长期服用吗

上一篇: 仅1199元 九号平衡车L正式新鸿基:小白老手都能玩

下一篇: iPhone 13零部件订单并未削减 5G iPhone SE零部件也已准备单价

友情链接