【免费】本次培训深入探讨了大型语言模型（LLM）强化学习技术的前沿W资源-CSDN下载

共1个文件

txt：1个

需积分: 0 29 浏览量更新于2025-08-30 收藏 411B ZIP 举报

资源下载链接为： https://pan.xunlei.com/s/VOYsSmj7q_BXHCoYIlDQo3YVA1?pwd=gpk6 O'Reilly的大型语言模型（LLMs）对齐与强化学习存储库，包含Sinan Ozdemir所授“大型语言模型对齐”“大型语言模型的强化学习”两门课程的Jupyter笔记本，课程由培生集团出版，涵盖LLMs使用的有效最佳实践与行业案例研究。其中“大型语言模型对齐”课程，结合实际案例研究深入探索宪法人工智能等各类对齐技术，全面覆盖对齐评估内容，提供具体工具与指标，助力LLM对齐策略的持续评估与调整；同时关注伦理考量与未来方向，让参与者既了解当前情况，也能应对LLM对齐领域的新兴趋势与挑战。课程通过理论见解与实践结合，使参与者接触多种对齐技术，包括聚焦宪法人工智能、依据人类反馈构建奖励机制及教学对齐，还提供对齐评估的详细指导，确保模型与预期目标、道德标准及现实应用相符。 “大型语言模型的强化学习”课程，带参与者深入了解LLM背景下强化学习的高级概念，采用实用动手方式微调LLM，重点关注使用T5生成中性摘要等现实应用，助力理解并应用RLHF（基于人类反馈的强化学习）、RLAIF（基于人工智能反馈的强化教学）、宪法人工智能等创新概念，深入探索LLM强化学习技术前沿，演示微调FLAN-T5、GPT-2等开源LLM的实际应用，对希望加深强化学习理解、了解其最新趋势及LLM应用的人群至关重要。两门课程的Jupyter笔记本，可随讲师同步运行，也可直接查看预运行版本，无需编码。“大型语言模型对齐”课程笔记本包括：研究RLAIF与宪法人工智能原理；通过教学数据微调Llama 3.1 8B，并结合进一步预训练更新其知识库的研讨会；Prompt Injection示例（了解三种通过大型语言模型实施的Prompt Injection攻击）。“大型语言模型

收起资源包目录