自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 收藏
  • 关注

原创 grpo 强化学习 奖励分数是 0-1 还是 -1 到1 好

实际应用中,奖励设计的核心是“信号与目标的一致性”——确保奖励能清晰反映“哪些行为应被鼓励,哪些应被避免”,范围选择需服务于这一核心目标。两者各有适用场景,关键是能否通过奖励信号有效引导智能体学习预期行为。在强化学习中,奖励分数的范围选择(0-1 还是 -1 到 1)没有绝对的“好坏”,核心取决于。

2025-07-24 11:19:36 57

原创 【一步步ai】数据增强与预处理

核心趋势轻量化与效率优先:中小模型(7B/32B)通过架构优化(如SQL-R1的奖励机制)实现与大模型接近的性能。多模态融合:TNT框架等方案将表格、图像等非结构化数据纳入NL2SQL流程。工业级工程化:阿里云、SQLord等框架通过模块化设计降低企业落地门槛。待解决挑战动态适配:如何高效处理数据库Schema频繁变更。跨模态推理:结合知识图谱与文本生成更复杂的复合查询。安全验证:建立系统化的可解释性与合规性评估体系。未来,NL2SQL模型架构将进一步向自适应、可解释、多模态。

2025-07-22 11:24:00 617

原创 【一步步ai】先画一张“边界清单”:明确“我的底线是什么”

“顿感力”(源于渡边淳一的概念)并非迟钝,而是一种主动的心理调节能力——对负面信息、无关干扰、短期波动保持“适度钝感”,从而聚焦核心目标、减少内耗、保持韧性。它的核心是“抓大放小”的智慧,以下是其背后的关键观念和可培养的习惯:“不被他人评价绑架”顿感力的起点是接受“他人的看法≠你的价值”。有人批评、否定、甚至误解时,不必立刻自我怀疑或急于反驳——先判断对方的评价是否有客观依据,若无关紧要(比如单纯的情绪发泄、偏见),则主动“过滤”。例:同事随口说“你这点做得不够好”,顿感力强的人会想“他是否了解完整情况

2025-07-21 19:54:52 537

原创 【zhiluspace】中医解决 28岁男生 有小肚腩 问题方法

28岁男性的小肚腩,本质是“生活习惯+体质失衡”的外在表现,中医调理的关键不是“硬减”,而是通过“吃对、动对、气顺、脾强”,让身体自己把多余的痰湿代谢掉。松垮的小肚腩对应“脾虚无力”,坚硬的小肚腩对应“气滞不通”,找准自己的类型,把上述方法融入日常(哪怕每天只做2-3点),1-2个月后,不仅肚子会紧实,精力、睡眠也会同步改善。

2025-07-21 14:48:02 829

原创 grpo 优化

[{‘role’: ‘assistant’, ‘content’: '\n\n\n\n{“sql”: "WITH tag_stats AS ( SELECT t.tag_name, AVG(t.value) AS avg_value, COUNT() AS record_count FROM (SELECT ‘user_tag_esv5gs8’ AS tag_name, value FROM user_tag_esv5gs8 UNION ALL SELECT ‘user_tag_3cjsx09’ AS ta

2025-07-18 20:11:48 682

原创 马尔可夫性【行云流水ai笔记】

多维度奖励函数prompt。

2025-07-18 09:09:55 568

原创 screen -r 2050449 # 重新连接到 run_models 会话

SET:其核心作用是赋值或者进行配置,无论是对用户变量、系统变量赋值,还是在UPDATE语句中更新列的值,都能实现。UNSET:标准SQL中没有这个关键字,不过在特定数据库或者场景下,可能会用它来取消变量、移除列或者撤销权限等。实际使用时,要依据具体的数据库系统(如MySQL、PostgreSQL、SQLite等)来确认语法是否支持。import osimport re# 1. 环境配置与日志文件初始化# 创建日志目录。

2025-07-15 19:34:02 358

原创 grpo nl2sql qwen3 模型强化学习训练有效果的成立条件有哪些

以高质量SFT为基础,通过精准的奖励函数引导,在多样化环境中用稳定的RL算法持续优化,同时以全面的评估机制保障优化方向的正确性。任一环节的缺失(如奖励函数不合理、数据单一、算法不稳定)都可能导致训练无效或效果有限。GRPO模型在NL2SQL任务上的效果是多因素协同作用的结果。预训练模型具备领域基础能力,交互环境反馈准确,算法参数设置合理,模型架构适配SQL生成,解码策略稳定高效,计算资源与训练机制保障充分,评估体系全面无偏。任一环节的短板(如长序列生成不稳定、探索率调整不当)都可能导致训练效果受限。

2025-07-14 20:19:24 532

原创 如何蒸馏 设计 中文nl2sql 数据集,进行grpo强化学习 训练qwen3-8b,可以提升大模型nl2sql的能力,支持300行sql生成

高质量复杂中文NL2SQL数据集构建...表达能力提升:窗口函数、递归查询等大幅简化复杂查询。数据类型扩展:支持 XML、BOOLEAN 等现代数据处理需求。标准化增强:明确事务隔离级别、外连接语法等,减少厂商差异。功能模块化:引入 XML、OLAP 等独立模块,便于数据库选择性实现。对于现代开发,建议优先使用 SQL-2003 特性,同时注意不同数据库的支持差异。

2025-07-11 18:35:09 462

原创 【元ai笔记】多维度反馈**:结合格式、执行、结果、长度奖励,如SQL-R1的复合奖励机制。

在对Qwen3模型进行LoRA微调时,需要根据模型的具体架构来配置不同层的参数。Qwen3属于Transformer架构,其核心组件包括自注意力层(Self-Attention)和前馈网络(FFN),通常LoRA会应用在注意力机制的线性层上。对于Qwen3模型,典型的LoRA配置如下:针对不同层的配置策略1. 微调所有层如果需要微调所有层,可以保持上述配置不变,会应用到模型的所有层。若只需微调特定层(如最后几层),可以使用参数:3. 为不同层设置不同的秩和缩放因子可以使用和为不同层设置不同的参数:

2025-07-10 19:54:10 933

原创 sftGRPO

二、核心创新:跨模态迁移与小样本高效训练1. 跨模态推理迁移机制 - 视觉-文本双向对齐:通过自适应长度的链式思维蒸馏(AL-CoTD),动态调整推理链长度(从 4000 token 缩减至 700 token),提升视觉问题(如电路图分析、医学影像诊断)的推理效率。- 多学科泛化能力:在物理、数学、逻辑等领域的评测中(如 PhyX-MC-Text-Minimal、MathVista),模型通过跨模态因果建模,将文本推理模式迁移至图表解析任务,实现知识复用。”)时输出熵的变化。

2025-07-09 21:21:13 411

原创 300行SQL语句生成

> - GPU: 8x A100 80G > - 存储:2TB NVMe 用于训练数据 > - 内存:512GB RAM > - 数据库:MySQL集群+10TB样例数据 通过此方案,Qwen-8B可在4周内获得稳定生成300行生产级SQL的能力,在金融/电商等复杂场景达到实用水平。:选用更擅长 SQL 生成的模型(如 GPT-4、Claude-3 或专业 SQL 模型),生成高质量长 SQL 样本。) - 随机插入注释、调试语句 - 模拟多表 JOIN(10+ 表关联)-

2025-07-09 20:58:34 645

原创 200nl2sql

核心价值通过动态权重平衡中文复杂性与SQL性能,使模型在方言理解(如粤语术语)、嵌套查询等场景鲁棒性提升30%+。标量奖励简化PPO/DPO训练,加速收敛(实验显示训练迭代次数减少40%)。待突破挑战中文省略结构的完备性补全(如“同比”需补时间范围)。权重公式的领域自适应自动化(当前需人工预配置)。注:实际落地可参考阿里云PolarDB的动态权重配置接口或Spring AI Alibaba的语义一致性校验模块,两者均支持中文场景的标量奖励扩展。

2025-07-09 20:06:51 738

原创 gloo 多卡训练

大多数情况下,安装NCCL后无需重启系统,只需更新环境变量并重启相关应用程序即可。仅在涉及驱动更新或系统配置变更时需要重启。为什么选择Docker?隔离性:容器内的环境(如CUDA、NCCL、Python包)与主机完全隔离,不会影响系统其他组件。可移植性:一次构建的镜像可在任何支持Docker的环境中运行,确保环境一致性。无需重启主机:容器启动时会加载所需的所有依赖,无需修改主机系统或重启。版本控制:可轻松切换不同版本的CUDA、NCCL或框架(如PyTorch)。

2025-07-08 20:18:30 577

原创 【知足常乐ai笔记】机器人强化学习

摘要:针对SQL查询处理效率提升,本文提出五种智能分段策略:(1)时序语义分段(时间区间/数据变化/会话间隔);(2)语义解析分段(模式链接/分层解码);(3)执行优化导向分段(分句解析/子查询剥离);(4)结果集动态分段(关键字提取/打分排序);(5)动态参数化分段(外部参数/条件表达式)。这些方法可根据时序数据库、自然语言转SQL、复杂查询优化等场景灵活组合,显著提升查询可读性、执行效率及结果精准度。最佳实践需结合具体数据库类型和业务需求选择适配策略。

2025-07-08 18:55:33 618

原创 【hyx】NL2SQL 的准确率提升需从数据、模型、推理、验证多环节入手:数据增强解决样本不足问题,模型架构优化强化语义与 schema 的对齐,逻辑推理方法提升复杂查询处理能力,后处理与交互则进一步

NL2SQL的准确率提升需从。

2025-07-06 21:05:27 724

原创 【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL

TOLE (Token-level Optimization with Language Models) 是一种基于强化学习的可控文本生成方法,通过token级别的反馈实现对文本多个属性的精确控制。如果遇到任何问题,请通过邮箱联系作者获取支持。选择方法时需考虑控制精度需求、计算资源和数据规模。TOLE的优势在于token级控制和自动权重学习,适合高精度多属性场景。

2025-07-04 20:04:59 910

原创 强化学习【行云流水ai笔记】

好的,这份解读将帮你快速抓住这篇论文的核心思想和贡献:论文核心: 提出一种名为 TOLE 的新型强化学习算法,用于可控文本生成。其核心创新在于利用细粒度的 Token 级别反馈来指导模型学习,并设计了一种增强鲁棒性的训练策略。关键背景与问题可控文本生成的重要性: 大型语言模型 (LLM) 需要根据特定要求(如情感、风格、主题、关键词等)生成文本。现有方法的不足:微调方法 (Finetuning-based): 通常直接在特定约束数据上微调模型。容易过拟合到训练数据,泛化能力差,可能损害模型原有的通用能力。

2025-07-02 18:08:45 961

原创 【ai笔记】有效帮助定位代码问题,特别是针对数据格式不匹配、索引越界等问题:

Name: verl基于上面的环境信息,修改下面代码为通过verl vllm支持 2卡DDp并行 qwen3-1.7b模型进行nl2sql ppo 强化学习的代码。

2025-07-01 19:11:59 587

原创 LLaMA-Factory 对 omnisql 进行 ppo dpo grpo nl2sql任务 实现难度 时间 全面对比

通过上述分析,GRPO在omnisql任务中综合表现最优,尤其在复杂查询场景下具有显著优势。建议优先尝试GRPO,若资源有限可从DPO起步,PPO作为兜底方案。

2025-06-27 17:46:22 690 1

原创 【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1

以下是 DQN(Deep Q-Network) 和 PPO(Proximal Policy Optimization) 的全面对比流程图及文字解析。两者是强化学习的核心算法,但在设计理念、适用场景和实现机制上有显著差异:详细对比解析1. 算法类型DQNPPO值函数方法:学习最优动作值函数 ( Q^*(s, a) )策略优化方法:直接优化策略函数 ( \pi(a \mid s) )通过Q值间接控制策略直接输出动作概率分布2. 策略表示DQNPPO

2025-06-27 09:48:00 984

原创 dockers virbox 安装

dpkg−−print−architecturesigned−byetcaptkeyringsdockergpghttps//downloaddockercomlinuxubuntu。

2025-06-26 18:00:59 682

原创 强化学习 16G实践以下是基于CQL(Conservative Q-Learning)与QLoRA(Quantized Low-Rank Adaptation)结合的方案相关开源项目及资源,【ai技】

condavirtualenv修复驱动与CUDA版本匹配后,再安装兼容的框架版本,即可正常使用GPU加速计算。以下为GRPO优化训练部分的详细泳道图,展示从数据采样到权重更新的完整闭环流程:fill:#333;定时训练信号(间隔10分钟)请求当前生产模型(gR-1.3.4)发送基础模型权重加载模型到显存请求批次数据优先级排序(Top 20%高TD-error)发送经验数据前向传播返回策略概率&状态价值计算广义优势。

2025-06-26 16:45:09 1031

原创 【ai学习笔记】GitLab

选择适合项目的CI/CD工具需要综合考虑团队规模、技术栈、集成需求、预算和使用习惯等因素。通过以上维度的评估,结合项目的实际需求和团队现状,能更精准地选择合适的CI/CD工具。CI/CD(持续集成/持续交付)是现代软件开发中的关键实践,通过自动化工具可以大幅提升开发效率和软件质量。中的阶段、作业和脚本,实现自动化构建、测试和部署。通过合理使用分支策略和GitLab的分支管理功能,可以有效组织团队开发流程,避免代码冲突,提高协作效率。通过以上步骤,你可以在GitLab上创建项目并配置完整的CI/CD流程。

2025-06-26 09:39:58 1115

原创 【AI成长会】ubuntu 安装运行rust

Rust使用。

2025-06-25 10:13:15 473

原创 【AI成长会】针对高并发场景下基于用户ID的聊天接口优化方案,包含5个核心方法

警示:避免过度优化,根据用户规模选择方案。注:读写分离延迟取决于主从同步速度。全球消息系统(基于量子虫洞理论)实际案例:Discord通过。注:神经数据库吞吐量含预测数据。冷热分离至ClickHouse。真实案例:Slack通过。

2025-06-25 09:04:55 350

原创 强化学习在大型语言模型训练中的最新进展:开源项目深度分析报告

AReaL-boba²是由清华大学交叉信息院和蚂蚁技术研究院联合团队开发的全异步强化学习训练系统,作为AReaL里程碑版本AReaL-boba的重磅升级。该项目坚持"全面开源、极速训练、深度可定制"的开发理念,以全异步RL为核心,发布SOTA代码模型,全面奔向Agentic RL[0DeepSeek-R1是由DeepSeek团队于2025年1月20日发布的开源推理大模型,在数学、编程和推理等多个任务上达到了与OpenAI o1相当的表现水平。

2025-06-25 08:59:25 867

原创 强化学习在大型语言模型训练中的最新进展:开源项目深度分析报告

AReaL-boba²是由清华大学交叉信息院和蚂蚁技术研究院联合团队开发的全异步强化学习训练系统,作为AReaL里程碑版本AReaL-boba的重磅升级。该项目坚持"全面开源、极速训练、深度可定制"的开发理念,以全异步RL为核心,发布SOTA代码模型,全面奔向Agentic RL[0DeepSeek-R1是由DeepSeek团队于2025年1月20日发布的开源推理大模型,在数学、编程和推理等多个任务上达到了与OpenAI o1相当的表现水平。

2025-06-24 14:45:26 664

原创 一套系统性思考框架,用于深度解构问题并触及本质

以下是一套系统性思考框架,用于深度解构问题并触及本质。例:用户投诉增加→为何投诉?→因功能缺陷→为何未修复?→因团队流程低效→为何低效?例:公司营收下降→可能由市场竞争加剧(外因)与产品创新不足(内因)共同导致。例:用户流失问题→拆解为注册流程、产品功能、服务体验等模块。

2025-06-24 10:54:59 842

原创 强化学习所有所有算法对比【智鹿ai学习记录】

以下是主流强化学习算法的全面对比与分析,基于最新研究和应用实践整理。,对比表格涵盖关键特性与应用场景。通过估计状态或状态-动作的价值函数引导策略优化,适合离散动作空间。直接优化策略函数,支持连续动作空间,扩展性强。针对特定问题优化,融合新技术或领域知识。研究趋势显示,(文本、图像)中超越传统PPO,域内性能提升11.5%(DPO),域外泛化提升2.4%(GRPO);中样本效率比DDPG提高30%。

2025-06-20 18:52:41 943

原创 【无标题】

在本地对 Qwen-3-4B 模型进行微调,并结合强化学习(RL)以提高其从自然语言(TXT)到结构化查询语言(SQL)的转换能力(即 TXT2SQL),是一个复杂但非常有价值的任务。目标:通过微调和强化学习提升 Qwen-3-4B 模型在 TXT2SQL 任务上的表现,使其能够更准确地将自然语言查询转换为相应的 SQL 语句。通过以上步骤,你可以在本地环境中对 Qwen-3-4B 模型进行微调,并结合强化学习方法提高其在 TXT2SQL 任务上的表现。

2025-06-19 19:34:17 692

原创 生成本地 微调 +强化学习 qwen3-4b 研究搭建流程步骤

注意,Qwen 模型可能需要特定的加载方式,确保参考官方文档或模型仓库的说明。注意:由于 Qwen-3-4B 模型较大,可能需要使用更高效的微调方法,如 LoRA(Low-Rank Adaptation) 或 QLoRA,以减少显存占用和加速训练。Qwen 官方文档:https://github.com/QwenLM/Qwen 或 https://huggingface.co/Qwen(请根据实际情况查找)训练奖励模型:可以使用一个独立的模型作为奖励模型,或者微调 Qwen 模型作为奖励模型。

2025-06-19 19:31:13 917

原创 MySQL不同写入方式

配置灵活性。

2025-06-19 13:49:03 317

原创 我有免费的大模型能力,文本转语音,语音转文本,文本生成视频的能力。如何组合这些资源能力?生成一个有价值的可以挣钱的项目为社会做贡献?

TTS:为生成的视频提供清晰配音,或提供纯音频版本(播客式学习)。

2025-06-13 07:29:04 928

原创 【行云流水AI笔记】根据上面泳道图,请问如果加入强化学习,在哪些模块添加比较好,返回添加后的泳道图。

在现有架构中加入强化学习(RL)模块,最佳切入点是在BaseAgent和BaseLLM之间添加 RL 策略控制器。以下是修改后的 UML 泳道图建议和关键改造点:fill:#333;stroke:1;fill:none;important;important;important;important;important;important;important;important;important;important;important;important;important;important;

2025-06-11 18:03:44 762

原创 快速熟悉公司的服务器开发环境需要系统

快速熟悉的关键在于“主动”和“动手”。充分利用入职初期的时间窗口,积极索取文档和权限,严格按照指引搭建环境,勇敢提问,并在小的、安全的改动上实践整个开发部署流程。持续记录、总结和沟通,你会很快从陌生走向熟悉,进而高效地投入到开发工作中。祝你顺利融入新环境!💪🏻快速熟悉公司的服务器开发环境是新入职或转岗开发者的关键任务,这需要系统性地了解环境架构、工具链和协作流程。一、从全局视角切入:理解环境架构与组件。

2025-06-11 16:29:28 765

原创 快速熟悉公司的服务器开发环境需要系统

快速熟悉的关键在于“主动”和“动手”。充分利用入职初期的时间窗口,积极索取文档和权限,严格按照指引搭建环境,勇敢提问,并在小的、安全的改动上实践整个开发部署流程。持续记录、总结和沟通,你会很快从陌生走向熟悉,进而高效地投入到开发工作中。祝你顺利融入新环境!💪🏻快速熟悉公司的服务器开发环境是新入职或转岗开发者的关键任务,这需要系统性地了解环境架构、工具链和协作流程。一、从全局视角切入:理解环境架构与组件。

2025-06-11 16:28:32 681

原创 KubeSphere部署Python项目详细步骤

KubeSphere是一个基于Kubernetes的容器平台,它提供了可视化界面和丰富的功能,使应用部署更加简单。在KubeSphere或Kubernetes环境中完成Python应用部署后,需要系统性地进行测试以确保应用功能正常、性能达标且安全可靠。如果遇到更复杂的问题,建议查阅KubeSphere和Kubernetes的官方文档,或在社区寻求帮助。通过以上测试流程,可全面验证Python应用在KubeSphere环境中的稳定性、性能和安全性,确保应用可安全地投入生产使用。

2025-06-11 16:27:58 707

原创 【行云流水AI笔记】游戏里面的强化学习使用场景

强化学习在游戏中的应用已从早期的棋类博弈扩展到现代复杂游戏的全流程优化,以下是结合最新技术进展的核心应用场景及典型案例:强化学习正从“游戏AI”向“游戏智能”演进,其核心价值不仅在于提升游戏体验,更在于为元宇宙、自动驾驶等领域提供可迁移的决策框架。未来,随着算法优化与硬件升级,强化学习或将彻底重构游戏设计范式,实现“AI主导、玩家共创”的新型游戏生态。以下是游戏中强化学习场景与算法的深度对应关系,结合最新技术进展和具体实现案例:数据稀疏性处理:计算资源优化:策略泛化能力提升:边缘计算与实时优化:神经符号系统

2025-06-11 16:27:27 973

原创 新入职算法工程师,如何有主人翁意识,把自己当成不再是一个“螺丝钉”,要以更上层的思想,本质是怎么做好一件事(这个事是什么无所谓)【行云流水AI笔记】

螺丝钉的工作是“按图纸组装零件”,而主人翁的角色是“参与设计图纸,并确保整台机器高效运转”。

2025-06-11 15:05:36 484 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除