介绍 TRL——Transformer Reinforcement Learning

AI教程
23年11月24日
编辑

HuggingFace

释放双眼，带上耳机，听听看~！

介绍 TRL——Transformer Reinforcement Learning，一个全面的全栈库，包含了一整套工具用于使用强化学习训练 transformer 语言模型，已与 🤗 transformers 集成，方便直接使用。包括 SFTTrainer, RewardTrainer, PPOTrainer等部分和几个例子供参考。

介绍 TRL——Transformer Reinforcement Learning

我们正式向大家介绍 TRL——Transformer Reinforcement Learning。这是一个超全面的全栈库，包含了一整套工具用于使用强化学习 (Reinforcement Learning) 训练 transformer 语言模型。从监督调优 (Supervised Fine-tuning step, SFT)，到训练奖励模型 (Reward Modeling)，再到近端策略优化 (Proximal Policy Optimization)，实现了全面覆盖！并且 TRL 库已经与 🤗 transformers 集成，方便你直接使用！

介绍 TRL——Transformer Reinforcement Learning

👉 文档地址在这里 hf.co/docs/trl/

小编带大家简单看看 API 文档里各个部分对应了什么需求:

Model Class: 涵盖了每个公开模型各自用途的概述
SFTTrainer: 帮助你使用 SFTTrainer 实现模型监督调优
RewardTrainer: 帮助你使用 RewardTrainer 训练奖励模型
PPOTrainer: 使用 PPO 算法进一步对经过监督调优的模型再调优
Best-of-N Samppling: 将“拔萃法”作为从模型的预测中采样的替代方法
DPOTrainer: 帮助你使用 DPOTrainer 完成直接偏好优化

文档中还给出了几个例子供 🤗 宝子们参考:

Sentiment Tuning: 调优模型以生成更积极的电影内容
Training with PEFT: 执行由 PEFT 适配器优化内存效率的 RLHF 训练
Detoxifying LLMs: 通过 RLHF 为模型解毒，使其更符合人类的价值观
StackLlama: 在 Stack exchange 数据集上实现端到端 RLHF 训练一个 Llama 模型
Multi-Adapter Training: 使用单一模型和多适配器实现优化内存效率的端到端训练

👉 宝子们快行动起来，训练你的第一个 RLHF 模型吧！github.com/huggingface…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

介绍 TRL——Transformer Reinforcement Learning

特征工程中的方差过滤方法数学原理详解

在GitHub上搭建自己的ChatGPT的web版本教程

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

特征工程中的方差过滤方法数学原理详解

在GitHub上搭建自己的ChatGPT的web版本教程

Hugging News: 新推理API功能、模型分类页面、Flash Attention 2和ChatGPT教程

抖音ChatGPT，豆包AI体验分享

文心千帆大模型平台：PPT 制作、数字人主播一键开播等应用场景详细教程

基于文心一言千帆API的自动代码生成助手