- 博客(169)
- 收藏
- 关注
原创 大型音频语言模型论文总结
Qwen2-Audio通过“自然语言提示预训练+双模式SFT+DPO偏好优化”的三阶方法,结合高效的音频-文本融合架构,实现了对多样化音频的深度理解和灵活交互,其核心创新在于简化预训练流程、强化人机对齐,并通过统一框架支持多场景应用。MiDashengLM 通过通用音频字幕突破传统 ASR 依赖,结合开源编码器 Dasheng、三阶段训练流程及创新数据集,实现了对语音、声音、音乐的统一理解。其核心优势在于:(1)全面捕捉音频语义与声学特征;(2)高效利用数据,支持多语言和低资源场景;
2025-08-06 21:08:06
946
1
原创 语音表示学习论文总结
模型以原始时域音频波形(如32000×1的1D向量,对应8kHz采样率下4秒音频)为输入,通过多层卷积操作提取特征,最终通过全局平均池化和Softmax输出分类结果。极深结构:层数从3层(M3)到34层(M34-res),突破传统音频CNN的浅层限制(2层左右);全卷积设计:无全连接层,仅通过卷积层、池化层和全局平均池化完成特征提取与分类;适配音频特性:通过感受野、下采样等设计,匹配音频的时序特性(如局部脉冲、频段分布)。模型通过“极深结构+全卷积设计+音频适配的感受野与下采样。
2025-07-31 17:06:54
297
原创 语音编解码器论文总结
高效压缩:通过 RVQ 量化和 Transformer 熵编码,在低比特率(如 3 kbps)下实现高保真;实时性:流式架构支持 13 ms 延迟,单 CPU 核心可实时处理;稳定性:损失平衡器解决多损失训练不稳定问题;通用性:支持 24 kHz/48 kHz、单声道/立体声、语音/音乐等多场景。其性能经 MUSHRA 主观测试验证,在所有带宽和场景中均优于 Opus、EVS 等传统编解码器及 Lyra-v2 等神经编解码器。模块创新点效果编码器/解码器Snake激活函数。
2025-07-28 16:30:42
1112
原创 强化学习入门四(DQN)
DQN是深度强化学习的开创性算法,它将深度学习与Q-Learning结合,解决了传统Q-Learning在高维状态空间下的局限性。DQN用深度神经网络近似Q函数,能够处理像图像这样的复杂输入。DQN开创了深度强化学习的新时代,后续许多重要算法(如AlphaGo系列)都基于DQN的思想发展而来。在机器人控制领域,DQN可用于处理基于视觉输入的控制任务,如自动驾驶、机械臂操作等。:实现经验回放缓冲区。
2025-07-24 16:32:41
497
原创 强化学习入门三(SARSA)
与Q-Learning不同,SARSA更适合这类需要考虑路径安全性的任务,因为它会考虑实际要执行的下一步动作,从而避免选择"看似最优但中间步骤危险"的路径。SARSA在学习过程中遵循的策略与它要优化的策略是同一个,这使得它学习到的策略更符合实际执行情况,尤其在需要考虑安全性的场景中更具优势。总之,SARSA是一种注重执行过程的强化学习算法,在需要考虑动作序列连贯性和安全性的任务中表现优异,是Q-Learning的重要补充。:在环境信息不完全的情况下,SARSA的同策略特性使其能更好地适应实际执行的策略。
2025-07-24 14:56:46
836
原创 强化学习入门二(Q-Learning)
Q-Learning是强化学习中最经典的无模型(model-free)算法之一,核心思想是通过学习"状态-动作价值函数"(即Q函数)来指导智能体的决策。它不需要对环境建模,直接从与环境的交互经验中学习最优策略。在实际复杂的机器人控制任务中,通常会使用Q-Learning的扩展算法,如Deep Q-Network (DQN),它用神经网络替代Q表,能够处理高维状态空间。让我们以机器人在迷宫中寻找目标为例,具体说明Q-Learning的应用。:实现Q-Learning算法。
2025-07-24 14:44:51
711
原创 强化学习入门一(基本概念)
强化学习(Reinforcement Learning,简称RL)是机器学习的一个重要分支,核心思想是智能体(Agent)通过与环境(Environment)的交互,从“试错”中学习最优行为策略,以最大化长期累积的“奖励”(Reward)。简单来说,它类似人类或动物的学习过程:比如婴儿学走路,通过一次次尝试(摔倒、站立),逐渐掌握平衡;再比如训练小狗坐下,做出正确动作时给予零食奖励,错误时没有奖励,最终小狗会学会“坐下”这个行为。强化学习正是模拟了这种“尝试-反馈-优化”的机制。强化学习的核心是“
2025-07-24 10:41:19
377
原创 RoboBrain 2.0(具身智能论文阅读)
RoboBrain 2.0 的核心创新在于:通过专用数据构建解决空间/时间数据稀缺,异构架构适配具身多模态输入,分阶段训练强化推理链,最终在物理世界具身任务中实现突破。其开源资源(代码、模型、基准)也为领域研究提供了重要工具。这四大功能模块并非独立运行,而是通过“空间感知提供环境坐标参考→时间感知规划步骤时序→场景推理提取因果逻辑→交互推理实现动态调整”的协同机制,最终让模型在物理世界具身任务中,既能精准理解环境,又能灵活应对变化,从而在12个评估基准中实现6个SOTA,验证了其解决核心问题的有效性。
2025-07-18 17:46:50
1365
原创 基础模型在机器人技术的应用(具身智能入门十二)
架构基础:以Transformer为核心架构(如编码器-解码器、仅解码器结构),参数规模从数十亿到千亿级(如GPT-4超过1万亿参数,PaLM-E达562B参数)。训练数据:基于互联网级语料(文本、图像、视频等)预训练,例如CLIP在4亿图像-文本对上训练,GPT-3在万亿级文本上训练,因此具备广泛的世界知识。核心能力语义理解:理解自然语言指令、抽象概念(如“整理”“小心”)及跨模态关联(如“红色杯子”对应视觉特征)。泛化能力:通过少样本/零样本学习适配新任务(如未见过的物体识别、新指令执行)。
2025-07-18 16:50:50
437
原创 灵巧手(具身智能入门十一)
从“刚性”到“柔性”早期机械手和末端执行器以刚性结构为主,仅适应固定场景;现在通过软体材料、欠驱动设计,实现对复杂形状物体的自适应操作(如软体手抓取鸡蛋不破损)。从“单一功能”到“多模态交互”从仅能完成“夹取”的夹持器,发展到可实现“捏、拧、旋转、投掷”等复杂动作的灵巧手;同时集成视觉、力觉、触觉传感器,提升对环境的感知能力。从“结构化场景”到“非结构化场景”硬件设计从适配工厂固定工位,转向支持家庭、医疗、户外等动态环境——例如连续体机械手适应狭窄空间,移动机械手扩展操作范围。拟人化程度提升。
2025-07-18 11:13:26
920
原创 VLA模型(具身智能入门十)
Vision Language Action(VLA)模型VLA模型是机器人领域的“感知-理解-执行”一体化框架,通过Transformer架构融合视觉、语言、动作模态,核心目标是让机器人在自然语言驱动下,自主完成复杂操控任务。其定义的核心在于“跨模态统一”与“具象化行动”——不仅能“看懂”“听懂”,更能“做出正确的动作”,是实现通用机器人智能的关键方向。提供通用序列建模骨架,让视觉、语言、动作能以“序列”形式统一处理;ViT将视觉输入转换为序列特征,提供“看”的能力;LLMs。
2025-07-17 15:12:03
948
原创 VLA模型(具身智能入门九)
具身人工智能(Embodied AI)旨在构建能与物理世界交互的智能体,其核心是让机器人等实体通过感知、推理和动作完成真实环境中的任务。这一领域被视为通用人工智能(AGI)的关键基石,因为它要求AI系统不仅具备抽象认知能力,还需理解物理世界的动态规律与空间关系。任务特异性局限:基于强化学习(RL)的机器人策略通常针对单一任务设计(如物品抓取),难以泛化到复杂场景(如家庭多步骤操作)。人机交互效率低:通过手动编程或示教训练机器人,无法适应自然语言指令的灵活性,缺乏直观的用户-机器人交互界面。
2025-07-07 09:32:12
847
原创 ManiSkill挑战赛(具身智能入门七)
ManiSkill挑战赛是具身智能领域最具影响力的国际赛事之一,由美国加州大学圣地亚哥分校(UCSD)、伯克利分校、斯坦福大学等顶尖机构联合发起,自2022年首届于ICLR举办以来,已发展成为推动机器人精细化操作和多模态感知技术突破的核心平台。
2025-07-01 11:14:28
543
原创 具身智能的sim2real(具身智能入门六)
机器人策略的现实部署是“硬件-软件-算法”的协同工程:通过三步流程从底层通信到高层闭环逐步验证,结合对传感器噪声、模型不匹配的针对性优化,可系统性降低模拟-现实差距。其中,闭环执行阶段的感知域适配与实时性优化,是突破动态场景应用的关键瓶颈。
2025-07-01 10:27:30
661
原创 模拟器的调试(具身智能入门五)
四元数是用于表示三维空间中旋转的数学工具,避免了欧拉角的万向节锁问题。但其数据结构存在两种主流约定:关键风险:若混用约定,会导致旋转方向错误(如机器人左转变为右转)或姿态剧烈抖动。调试建议:二、欧拉角表示(Euler Angle Representations)欧拉角通过三次旋转描述姿态,但存在24种约定(包括Tait-Bryan角),核心差异在于:典型误区:即使约定同为,若未指定内外旋,可能导致:验证方法:三、默认坐标框架(Default Coordinate Frames)不同软件采用不同
2025-07-01 10:05:43
776
原创 具身智能环境的构建和工作(具身智能入门四)
具身设计:硬件形态决定智能体的感知-行动能力边界(如无人机与地面机器人的任务差异);传感器选型:根据任务精度(如精细操作需触觉传感器)与环境复杂度(如动态场景需光流传感器);任务定义:目标越抽象(如语言指令),对智能体的理解能力要求越高;模拟选择:非物理模拟适合算法原型验证,物理模拟则用于接近真实场景的测试。通过上述设计选择,具身智能系统得以在虚拟或现实环境中实现从感知到决策的闭环控制。定位。
2025-06-30 21:40:34
909
原创 具身智能的仿真技术(具身智能入门三)
任务目标明确化核心任务:使用机械臂打开柜门,属于具身AI中的"操作型任务",需结合物理模拟与机器人控制。关键指标:柜门开启角度(如≥60度视为成功)、机械臂运动的平滑性、交互的物理真实性。从零构建"开柜门"环境的过程本质是物理世界的数字化映射:通过URDF定义资产结构,SAPIEN实现物理模拟,PD控制驱动机械臂运动,最终通过RGB-D与机器人状态构建观察空间。这一流程体现了具身AI的核心挑战:如何在虚拟环境中平衡物理真实性与计算效率,并通过迭代调优解决"模拟-真实鸿沟"(如摩擦参数、传感器噪声等)
2025-06-30 17:32:49
1221
原创 刚体模拟的核心流程:从物理建模到计算执行的全步骤解析
刚体模拟的循环步骤本质是对现实物理过程的数字化抽象:通过“力-运动-碰撞-约束”的迭代计算,将连续的牛顿力学转化为计算机可处理的离散步骤。从机器人的精准控制到游戏中物体的自然交互,这套循环流程构成了虚拟物理世界的核心骨架,而每个步骤的算法优化(如碰撞检测的加速、约束求解的效率)则直接决定了模拟的真实感与性能。
2025-06-30 16:30:21
575
原创 具身智能的优化策略(具身智能入门二)
本文依旧以机械臂将小红方块移动到目标位置为例。对于给定的策略a∼π(⋅∣s)a\sim \pi(\cdot|s)a∼π(⋅∣s)我们在环境中进行HHH步骤运行策略并收集奖励:at∼π(⋅∣st),st+1∼T(⋅∣st,at),rt+1∼R(⋅∣st,at,st+1)a_t\sim \pi(\cdot|s_t),s_{t+1}\sim \mathcal{T}(\cdot |s_t,a_t),r_{t+1}\sim \mathcal{R}(\cdot |s_t,a_t,s_{t+1})at∼π(⋅∣st
2025-06-30 15:06:23
670
原创 机器人轨迹跟踪控制与动力学模型详解
显著提高轨迹跟踪精度,是机器人实现复杂任务(如焊接、抓取、导航)的核心技术。实际应用中需权衡模型精度与计算效率,并结合自适应/鲁棒控制处理不确定性。基于逆动力学的控制方法(如PD + 前馈、计算力矩控制)通过。之间的关系,是控制算法设计的基础。机器人动力学模型(正/逆动力学)是连接控制输入(扭矩。,驱动电机产生该扭矩,使机器人产生预期运动。机器人控制的核心目标是让机器人关节。为此,控制器需根据当前状态。机器人动力学模型描述了。
2025-06-30 12:16:51
1038
原创 具身智能的建模和方法(具身智能入门一)
本文以机械臂将小红方块移动到目标位置为例对具身智能的建模和方法进行介绍,如下图所示,该例子来自https://ai-workshops.github.io/building-and-working-in-environments-for-embodied-ai-cvpr-2022/。
2025-06-27 14:31:19
1031
原创 Transformers
Transformer 是一种基于注意力机制(Attention Mechanism)的深度学习架构,自2017年在论文《Attention Is All You Need》中提出后,迅速成为自然语言处理(NLP)、计算机视觉(CV)等领域的核心模型。以下从。
2025-06-23 09:46:15
621
原创 Deep Q-network (DQN)
是2013年由DeepMind团队提出的强化学习算法,首次将深度学习与传统Q-Learning结合,解决了传统强化学习在处理高维状态空间时的维度灾难问题。其核心贡献在于通过神经网络近似Q值函数,使算法能够处理图像、视频等复杂输入场景。
2025-06-23 09:44:14
725
原创 Beam Search(集束搜索)
Beam Search(集束搜索)是一种启发式图搜索算法,常用于自然语言处理、语音识别等序列生成任务。其核心思想是在每一步搜索中保留固定数量(Beam Width)的最优候选解,丢弃其他次优解,通过平衡计算复杂度和搜索质量,实现比贪心搜索更优的结果,同时避免穷举搜索的指数级复杂度。核心思想宽度控制:通过 beam sizek控制搜索宽度,避免组合爆炸。路径剪枝:每一步只保留得分最高的k个序列,其余被丢弃。序列扩展:对每个候选序列生成所有可能的后续步骤,重新评估得分。终止条件。
2025-06-23 09:42:24
804
原创 核方法、核技巧、核函数、核矩阵
核技巧堪称机器学习的“神来之笔”,它巧妙地将高维空间中难以解决的计算问题,转化为原始空间中进行核函数的简单计算,从而极大地扩展了线性模型的应用范围,成为处理非线性问题的标准利器。理解核方法和核技巧是掌握现代机器学习中核心内容(如SVM、高斯过程等)的关键所在。的,这意味着在原始特征空间中,无法用一条直线(或超平面)完美地将不同类别的数据点分开,或者无法用线性模型很好地拟合复杂函数。是机器学习中处理非线性问题的强大理论框架和实践工具。中进行的计算(尤其是在优化和代数操作中),最终可以。
2025-06-10 17:26:15
960
原创 z变换的全极模型
摘要:z变换的全极模型是离散时间系统中的一种重要建模方法,其传递函数仅含极点(无有限零点),适用于递归系统(如AR模型)。数学表达式为 ( H(z) = \frac{B}{1 + \sum_{k=1}^{N} a_k z^{-k}} ),其稳定性要求极点位于单位圆内。频率响应由极点位置决定,靠近单位圆时呈现峰值特性。全极模型广泛应用于语音信号处理(如LPC编码)、数字滤波器设计及时间序列分析(如AR模型)。参数估计方法包括线性预测法(LPC)、最小二乘法及极大似然法,分别适用于不同场景的信号建模需求。
2025-06-05 11:12:02
792
原创 积分变换概念
摘要:积分变换通过积分运算将函数转换为另一域(如频域)的表示,简化复杂问题求解。傅里叶变换用于连续非周期信号,分解为频率分量(如矩形脉冲转为sinc函数)。拉普拉斯变换扩展至连续系统,引入衰减因子处理微分方程(如RLC电路分析)。Z变换针对离散信号,求解差分方程(如阶跃序列Z变换收敛域分析)。三类变换分别适用于信号处理、系统分析和数字滤波等场景,核心是通过域转换降低计算复杂度。
2025-06-05 10:25:08
415
原创 Dempster-Shafer理论
Dempster-Shafer理论(Dempster-Shafer Theory of Evidence),又称证据理论(Theory of Evidence)或信念函数理论(Theory of Belief Functions),是由Arthur P. Dempster和他的学生Glenn Shafer在20世纪60年代和70年代发展起来的一种数学理论,用于处理不确定性和推理。该理论提供了一种在缺乏完备信息的情况下进行推理和决策的方法,是概率论的一种扩展。
2024-10-08 14:59:56
1599
原创 主观逻辑(Subjective Logic)
主观逻辑是一种强大的工具,用于处理和推理不确定性和信任度。通过使用信任三元组和一系列操作,主观逻辑能够灵活地结合和分析来自不同来源的信息,为不确定环境中的决策提供支持。
2024-10-08 14:30:05
1483
原创 使用conda-pack迁移环境
确保你在正确的 conda 环境中运行命令,并且该环境配置正确。如果问题仍然存在,请检查是否有任何特定的错误消息或日志,以便进一步诊断问题。现在你就可以在新环境中运行你的代码了。工具的一部分,用于处理打包后环境路径的修复。命令时出现 “未找到命令” 错误,这可能是因为该命令未安装或未正确配置。如果你希望 environment 目录可以移动到其他位置,可以运行。在你解压环境后,确保你已经激活了该环境,然后再运行。选择你想要打包的 conda 环境,并使用。是你要打包的 conda 环境名称,
2024-10-01 11:55:48
1707
2
原创 ubuntu添加 SSH 密钥到 GitHub
通过生成 SSH 密钥、将其添加到 SSH 代理,并将公钥添加到 GitHub,你现在应该能够无缝地使用 SSH 进行 Git 操作。如果你遇到任何问题,请确保你执行了每一个步骤,并且公钥正确添加到了你的 GitHub 账户中。
2024-10-01 11:52:39
1347
原创 B样条(B-spline)函数
好的,B样条(Basis spline,简称B-spline)函数是一种广泛应用于计算机图形学、数值分析、数据拟合等领域的数学工具。以下是对B样条函数及其相关概念的详细描述:B样条基函数是定义B样条曲线的基础,它们具有局部支撑性。即每个基函数在特定区间内非零,而在该区间外为零。这种特性使得B样条非常适合局部调整和控制曲线形状。基函数通常通过递归关系定义:控制点是定义B样条曲线形状的关键。B样条曲线由一组控制点确定,移动控制点会改变曲线的形状。例如,给定一组控制点 {P0,P1,…,Pn}\{P_0, P_1
2024-09-29 12:07:05
2447
原创 __pycache__文件夹
文件夹是 Python 用于优化性能的机制,虽然它的存在是自动的,但在日常开发中了解如何管理和处理它仍然是有益的。如果有更多问题,欢迎继续提问!
2024-09-27 23:12:35
636
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人