当地时间 4 月 12 日,微软宣布开源 DeepSpeed-Chat , 帮助用户轻松训练类 ChatGPT 等大语言模型 。
据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升 15 倍以上,而成本却大大降低 。
如下图 , 一个 130 亿参数的类 ChatGPT 模型,训练时间只需要 1.25 小时 。
【ChatGPT最新动态了解 chatgpt数据模型训练器】
文章插图
简单来说,用户只需要通过 Deep Speed Chat 提供的 “傻瓜式” 操作 , 就能以最短的时间、最高效的成本训练类 ChatGPT 大语言模型 。
开源地址:https://github.com/microsoft/DeepSpeed使 RLHF 训练真正在 AI 社区普及近来,ChatGPT 及类似模型引发了 AI 行业的一场风潮 。ChatGPT 类模型能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优 。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署 ChatGPT 等模型,AI 开源社区进行了各种尝试,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等 。
然而 , 目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难 。
例如,使用现有的开源系统训练一个具有 67 亿参数的类 ChatGPT 模型,通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取 。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常也达不到这些机器最大效率的 5% 。
简而言之 , 即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型 。
与常见的大语言模型的预训练和微调不同,ChatGPT 模型的训练基于 RLHF 技术,这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限 。
微软在 Deep Speed Chat 介绍文档中表示,“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使 RLHF 训练真正在 AI 社区普及,我们发布了 DeepSpeed-Chat 。”
据介绍,为了实现无缝的训练体验,微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程,包括以下三个主要步骤:
文章插图
图|DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图(来源:GitHub)
- 监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;
- 奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW);
- RLHF 训练,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型 。
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- chat聊天软件下载使用 chatgpt付费版如何开通
- 国内封禁chatGPT的原因 chatgpt在国内用不了
- chatgpt使用方法教程 chatgpt手机端注册后找不到对话框
- chatgpt国内版免费使用 chatgpt属于人工智能的什么
- ChatGPT体验网站 chatgpt每次都训练什么内容
- 美国智能机器人chat chatgpt人工智能机器人
- 调用ChatGPT的API chatgpt怎么调用接口
- chat智能机器人的应用 chatgpt可以开发智能机器人吗
- chatgpt试用测评 chatgpt聊天软件应用
- ChatGPT对于各行业影响了解 chatgpt人工智能影响