
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Qwen3-30B-A6B-16-Extreme 是基于 Qwen 30B-A3B 模型的微调版本,将专家数量从 8 个增加到 16 个,以增强复杂任务的处理能力。该模型支持 32K 上下文和 8K 输出,提供多种格式生成和量化版本,适用于深度分析和复杂问题解答。尽管使用 16 个专家会降低速度,但其在 GPU 上的性能表现优异,速度可提升 4 到 8 倍。模型支持 Jinja 和 CHATML

OmniGen2是一款统一的多模态生成模型,具备强大的视觉理解、文本生成图像和指令编辑能力。模型采用双组件架构:3B视觉语言模型(基于Qwen-VL-2.5)负责解析视觉信号和指令,4B扩散模型执行高质量图像生成。主要功能包括视觉内容理解、文本到图像转换、基于指令的图像修改以及上下文相关生成。使用上提供Python环境配置指南、运行脚本示例和Gradio演示链接,并给出关键参数调优建议。未来计划发

AgentCPM-GUI 是由清华大学自然语言处理实验室与 ModelBest 联合开发的开源大模型,基于 MiniCPM-V 架构,拥有 80 亿参数,专为移动终端 GUI 操作设计。该模型通过接收屏幕截图作为输入,自动执行用户任务,具备高质量 GUI 定位、中文应用适配、强化推理规划和紧凑动作空间设计等关键特性。在基准测试中,AgentCPM-GUI 在多个指标上表现优异,尤其在复杂 GUI

本文提出TinyR1-32B-Preview语言模型,采用创新的分支-合并蒸馏方法。该方法先通过领域特定微调训练多个专家模型(数学、科学、编程),再使用Arcee Fusion技术进行选择性参数合并。实验表明,该32B模型在数学、编程任务上分别比70B基线提升8.1和4.1分,推理成本仅略有增加。消融研究验证了合并策略的有效性,合并过程仅需4小时GPU时间。该方法突破了传统蒸馏的局限性,实现了小模

本文介绍了SLAKE数据集,这是一个为医疗视觉问答(Med-VQA)设计的大型双语数据集,旨在解决该领域高质量公开数据集缺乏的问题。SLAKE包含642张放射影像,涵盖39个器官和12种疾病,并由经验丰富的医生进行标注。此外,作者构建了一个医学知识图谱,包含2603个英文和2629个中文三元组,以支持需要外部知识的问答。数据集被分为训练集、验证集和测试集,确保答案在测试集中出现于训练集。实验使用堆

Kyutai STT是一种流式语音转文字模型,支持英语和法语。它采用Transformer架构,发布了两款模型:10亿参数的kyutai/stt-1b-en_fr(0.5秒延迟)和26亿参数的kyutai/stt-2.6b-en(2.5秒延迟)。该模型基于Moshi的多流架构,能处理长达2小时的音频,输出带标点的转录文本。训练使用了数百万小时的公开音频数据,并在H100 GPU上完成。用户可以通过

Kimi K2是由月之暗面推出的万亿参数混合专家大模型,包含32B激活参数,采用创新Muon优化器实现训练零不稳定。该模型主打代理智能,在工具调用、推理和问题解决方面表现突出。提供基座模型K2-Base和指令微调模型K2-Instruct两个版本,后者在多项基准测试中取得SOTA成绩,尤其在代码、工具使用和数学推理方面优势明显。模型基于15.5T高质量多语言数据预训练,支持128K长上下文,并兼容

《litert-community/Gemma3-1B-IT移动端优化语言模型研究》摘要: 该论文介绍了基于Google Gemma-3-1B-IT优化的移动端大型语言模型,重点针对Android/iOS设备进行性能优化。模型通过LiteRT栈和MediaPipe API实现高效部署,提供预构建APK和源码编译两种Android部署方案,以及iOS模拟器/真机部署指南。性能测试显示,在三星S24

阿里团队提出QwenLong-L1框架,通过强化学习提升大模型的长文本推理能力。该框架采用课程引导RL训练和难度感知机制,结合混合奖励函数,使模型逐步适应从短文本到长文本的推理过渡。发布的QwenLong-L1-32B模型在7个DocQA基准测试中表现优异,与当前最优模型性能相当。研究还构建了包含1.6K问题的DocQA-RL-1.6K数据集,涵盖数学、逻辑和多跳推理。该技术为长文本处理提供了新思

本文介绍了ContentV,一个高效的文本到视频生成模型。针对视频生成任务中计算资源消耗高的问题,ContentV通过创新的数据处理流程、3D变分自编码器和扩散变换器架构,结合流匹配训练策略,实现了在有限计算资源下的高效训练。模型基于Stable Diffusion 3.5 Large进行最小架构修改,采用图像视频联合训练和渐进式训练策略,仅用256个NPU在一个月内完成训练。评估结果表明,Con
