PubMed GPT : 用于生物医学文本的特定领域大型语言模型

发布时间:2023-04-23 09:44:32

“我们很高兴在Pubmed上发布一种新的生物医学模型,这是构建可以支持生物医学研究的基本模型的第一步。”-CRFM主任Percy Liang

最近,斯坦福基础模型研究中心(CRFM)Pubmeded与MosaicML联合开发 GPT模型是一种大型语言模型,可以通过训练来解释生物医学语言。

PubMed GPT : 用于生物医学文本的特定领域大型语言模型_深度学习

目前的大型语言模型(LLM)它通常用于自然语言合成、图像合成和语音合成,但已知在特定行业的应用很少。本文介绍的Pubmed GPT展示了特定行业特别是生物医学领域的大型语言模型的能力。CRFM的开发者通过Mosaicml云平台,在Pubmed生物医学数据集上训练了一个生成式预训练模型(GPT)。结果表明,特定领域的语言生成模型在实际应用中会有很好的发展前景,LLM也会表现出更好的性能和竞争力。注:目前该模型仅用于研发,不适合生产。

PubMed GPT

模型。PubMed GPT 2.7B基于HugingFace GPT模型具有2.7B参数和1024个标记的最大上下文长度。尽可能简单的设计显示了现有LLM训练方法的强大功能。

数据。部分使用Pile数据集——PubMed Abstracts和PubMed Central。

计算。开发人员选择在50B令牌上多次训练Pubmed GPT,达到较长的计算周期(300B)。结果表明,优秀的LLM模型仍然可以在数据有限的情况下进行训练。

MosaicML云平台

MosaicML云。基于MosaicML云软件栈,开发者拥有128个NVIDIA A100-40GB GPU、Pubmed在节点间1600Gb/s网络带宽的集群上训练 GPT,总训练时间约为6.25天。

Composer库。由于Mosaicml开源Composer库的高效性和包容性,开发者使用Composer库及其FSDP集成进行训练模型。

流数据集。为了快速、灵活、廉价地管理自定义的训练数据集,开发者使用Mosaicml的新StreamingDataset库来管理100GB多个文本的训练数据集。

评估

开发者对Pubmed有几个问答基准 GPT进行了评估。例如,以下医学问题摘要基准:

PubMed GPT : 用于生物医学文本的特定领域大型语言模型_深度学习_02

处理患者的问题查询(包括歧义、拼写错误等信息),并以清晰正确的形式呈现给医生。

PubMed GPT : 用于生物医学文本的特定领域大型语言模型_自然语言处理_03

同时,开发者将结果与5个模型进行了比较(如上图所示):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。结果证明:

1、LLM非常全能,在特定领域从零开始训练时具有与专业设计系统相当的性能;

2、对特定领域数据的预训练胜过一般数据;

3、专注模型可以利用较少的资源获得高质量的结果。

总结

PubMed GPT的结果只是生物医学文本和其他领域研究的第一步,未来仍需要更多的研究人员来开发更先进的结果。目前,这只是一个概念验证。最终的希望是在未来有一个值得信赖的互动人工智能系统,它不仅可以筛选人类专家,还可以促进可靠的互动。

参考资料

https://www.mosaicml.com/blog/introducing-pubmed-gpt

上一篇 重磅!这个生信神器助你文章秒出图——miRNA与基因互作数据库
下一篇 漏斗分析|漏斗分析你真的懂了吗?以淘宝逆向业务为例,诠释漏斗分析全流程...

文章素材均来源于网络,如有侵权,请联系管理员删除。

标签: Java教程Java基础Java编程技巧面试题Java面试题