当前位置：首页 > 图灵资讯 > 技术篇> PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

发布时间：2023-04-23 09:44:32

“我们很高兴在Pubmed上发布一种新的生物医学模型，这是构建可以支持生物医学研究的基本模型的第一步。”-CRFM主任Percy Liang

最近，斯坦福基础模型研究中心（CRFM）Pubmeded与MosaicML联合开发 GPT模型是一种大型语言模型，可以通过训练来解释生物医学语言。

PubMed GPT ：用于生物医学文本的特定领域大型语言模型_深度学习

目前的大型语言模型（LLM）它通常用于自然语言合成、图像合成和语音合成，但已知在特定行业的应用很少。本文介绍的Pubmed GPT展示了特定行业特别是生物医学领域的大型语言模型的能力。CRFM的开发者通过Mosaicml云平台，在Pubmed生物医学数据集上训练了一个生成式预训练模型（GPT）。结果表明，特定领域的语言生成模型在实际应用中会有很好的发展前景，LLM也会表现出更好的性能和竞争力。注：目前该模型仅用于研发，不适合生产。

PubMed GPT

模型。PubMed GPT 2.7B基于HugingFace GPT模型具有2.7B参数和1024个标记的最大上下文长度。尽可能简单的设计显示了现有LLM训练方法的强大功能。

数据。部分使用Pile数据集——PubMed Abstracts和PubMed Central。

计算。开发人员选择在50B令牌上多次训练Pubmed GPT，达到较长的计算周期(300B)。结果表明，优秀的LLM模型仍然可以在数据有限的情况下进行训练。

MosaicML云平台

MosaicML云。基于MosaicML云软件栈，开发者拥有128个NVIDIA A100-40GB GPU、Pubmed在节点间1600Gb/s网络带宽的集群上训练 GPT，总训练时间约为6.25天。

Composer库。由于Mosaicml开源Composer库的高效性和包容性，开发者使用Composer库及其FSDP集成进行训练模型。

流数据集。为了快速、灵活、廉价地管理自定义的训练数据集，开发者使用Mosaicml的新StreamingDataset库来管理100GB多个文本的训练数据集。

评估

开发者对Pubmed有几个问答基准 GPT进行了评估。例如，以下医学问题摘要基准：

PubMed GPT ：用于生物医学文本的特定领域大型语言模型_深度学习_02