[目的/意义]社交媒体的出现为医疗健康数据的收集提供了新的途径,应用自然语言处理技术从社交媒体中抽取患者报告的ADR(Adverse Drug Reaction,药物不良反应)信号对于改善药物不良反应监测的临床和科学知识具有很大的潜力。然而,从社会媒体中提取患者报告的ADR信号仍然面临重大挑战。为此,开发一个利用高级自然语言处理技术从健康主题社交媒体中抽取ADR信号的研究模型。[方法/过程]该模型首先采用基于多词典源匹配的方法,从嘈杂的社交媒体中识别医学实体;然后采用最短依存路径核函数为基础的统计学习方法提取药物不良事件;并利用药品安全数据库的语义知识过滤药物的治疗和适用症信息以及否定的药物不良事件;最后,对报告源进行分类剔除传闻等噪音信息。[结果/结论]通过收集糖尿病论坛上的数据对模型的有效性进行验证,结果显示该模型的每一部分都有助于其整体性能的提升。
关键词:医学实体识别|药物不良事件抽取|健康社交媒体|统计学习|语义过滤