设为首页加入收藏

微信关注
官方微信号:天下财经网
加关注获取每日精选资讯
搜公众号“天下财经网”即可,欢迎加入!
广告服务联系我们网站地图

微软研究人员声称最先进的生物医学NLP模型

日期:2022-01-27 23:52:39 来源:

在预印本服务器Arxiv.org上发表的一篇论文中,微软研究人员提出了一种AI技术,他们将其称为针对领域的语言模型预训练,用于生物医学自然语言处理(NLP)。通过从公开可用的数据集编制“综合性”生物医学(NLP)基准,合著者声称他们设法在包括命名实体识别,循证医学信息提取,文档分类和任务在内的任务上取得了最新的成果。更多。

在像生物医学这样的专业领域中,当训练NLP模型时,以前的研究表明,特定领域的数据集可以提高准确性。但是一个普遍的假设是,“域外”文本仍然有帮助;研究人员质疑这一假设。他们认为,“混合域”预培训可以看作是转移学习的一种形式,其中源域是通用文本(例如新闻通讯社和网络),而目标域是专用文本(例如生物医学论文)。在此基础上,他们显示出生物医学NLP模型的特定领域预训练优于通用语言模型的预训练,表明混合域预训练并不总是正确的方法。

为了促进他们的工作,研究人员通过对预训练和特定任务的微调对生物医学NLP应用的影响进行了建模比较。首先,他们创建了一个称为“生物医学语言理解与推理基准”(BLURB)的基准,该基准侧重于PubMed提供的出版物,涵盖了诸如关系提取,句子相似性和问题解答之类的任务,以及是/否问题-接听。为了计算汇总分数,BLURB中的语料库按任务类型分组在一起并分别计分,然后对所有分数进行平均。

为了评估他们的预训练方法,该研究的合著者生成了词汇表,并根据最新的PubMed文档集合训练了模型:1400万个摘要和32亿个单词,总计21GB。一台配备16个V100图形卡的Nvidia DGX-2机器的培训耗时约5天,具有62,500个步骤,并且批次大小可与之前的生物医学预训练实验中使用的计算结果相提并论。(此处,“批量大小”是指一次迭代中使用的训练示例的数量。)

与生物医学基准模型相比,研究人员说,他们的模型-建立在Google的BERT之上的PubMedBERT-在大多数生物医学NLP任务中“始终如一”地胜过所有其他模型。有趣的是,将PubMed文章的全文添加到预训练文本(168亿个单词)后,性能会稍有下降,有趣的是,研究人员将其部分归因于数据中的噪声。

“在本文中,我们挑战了神经语言模型预训练中的一个普遍假设,并表明从零开始的特定于域的预训练可以大大胜过混合域的预训练,例如从通用域语言模型进行的连续预训练,从而导致新的状态研究人员写道。“今后的方向包括:进一步探索特定领域的预培训策略;将更多任务纳入生物医学NLP;将BLURB基准扩展到临床和其他高价值领域。”

为了鼓励对生物医学NLP的研究,研究人员创建了以BLURB基准为基准的排行榜。他们还以开源形式发布了他们的预训练和特定于任务的模型。

免责声明:新闻资讯来源于合作媒体等,不代表本网观点,仅供参考,并不构成投资建议,风险自担。如涉版权,联系处理。

官方微信