Panesle 个人主页

@weixin_52582710

Panesle

2022-12-15 11:20:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

16专家MOE生成模型（基于Qwen 30B-A3B微调）：Qwen3-30B-A6B-16-Extreme

Qwen3-30B-A6B-16-Extreme 是基于 Qwen 30B-A3B 模型的微调版本，将专家数量从 8 个增加到 16 个，以增强复杂任务的处理能力。该模型支持 32K 上下文和 8K 输出，提供多种格式生成和量化版本，适用于深度分析和复杂问题解答。尽管使用 16 个专家会降低速度，但其在 GPU 上的性能表现优异，速度可提升 4 到 8 倍。模型支持 Jinja 和 CHATML

#人工智能 #深度学习

开源的高效高一致性多模态图像理解、文生图、图像编辑模型：OmniGen2

OmniGen2是一款统一的多模态生成模型，具备强大的视觉理解、文本生成图像和指令编辑能力。模型采用双组件架构：3B视觉语言模型（基于Qwen-VL-2.5）负责解析视觉信号和指令，4B扩散模型执行高质量图像生成。主要功能包括视觉内容理解、文本到图像转换、基于指令的图像修改以及上下文相关生成。使用上提供Python环境配置指南、运行脚本示例和Gradio演示链接，并给出关键参数调优建议。未来计划发

#计算机视觉 #人工智能 #图像处理 +4

开源的跨语言GUI元素理解8B大模型：AgentCPM-GUI

AgentCPM-GUI 是由清华大学自然语言处理实验室与 ModelBest 联合开发的开源大模型，基于 MiniCPM-V 架构，拥有 80 亿参数，专为移动终端 GUI 操作设计。该模型通过接收屏幕截图作为输入，自动执行用户任务，具备高质量 GUI 定位、中文应用适配、强化推理规划和紧凑动作空间设计等关键特性。在基准测试中，AgentCPM-GUI 在多个指标上表现优异，尤其在复杂 GUI

#开源 #人工智能

FairyR1-32B模型论文速览：使用分支合并蒸馏提高精度

本文提出TinyR1-32B-Preview语言模型，采用创新的分支-合并蒸馏方法。该方法先通过领域特定微调训练多个专家模型（数学、科学、编程），再使用Arcee Fusion技术进行选择性参数合并。实验表明，该32B模型在数学、编程任务上分别比70B基线提升8.1和4.1分，推理成本仅略有增加。消融研究验证了合并策略的有效性，合并过程仅需4小时GPU时间。该方法突破了传统蒸馏的局限性，实现了小模

#人工智能 #算法 #机器学习 +4

谷歌medgemma-27b-text-it医疗大模型论文速读：面向医学视觉问答的语义标签知识增强数据集SLAKE

本文介绍了SLAKE数据集，这是一个为医疗视觉问答（Med-VQA）设计的大型双语数据集，旨在解决该领域高质量公开数据集缺乏的问题。SLAKE包含642张放射影像，涵盖39个器官和12种疾病，并由经验丰富的医生进行标注。此外，作者构建了一个医学知识图谱，包含2603个英文和2629个中文三元组，以支持需要外部知识的问答。数据集被分为训练集、验证集和测试集，确保答案在测试集中出现于训练集。实验使用堆

#语言模型 #人工智能 #自然语言处理 +1

用于流式语音转文字的开源模型：stt-1b-en_fr

Kyutai STT是一种流式语音转文字模型，支持英语和法语。它采用Transformer架构，发布了两款模型：10亿参数的kyutai/stt-1b-en_fr（0.5秒延迟）和26亿参数的kyutai/stt-2.6b-en（2.5秒延迟）。该模型基于Moshi的多流架构，能处理长达2小时的音频，输出带标点的转录文本。训练使用了数百万小时的公开音频数据，并在H100 GPU上完成。用户可以通过

#音视频 #计算机视觉 #人工智能 +2

月之暗面开源升级版混合专家（无思考）模型K2速览：Kimi-K2-Instruct

Kimi K2是由月之暗面推出的万亿参数混合专家大模型，包含32B激活参数，采用创新Muon优化器实现训练零不稳定。该模型主打代理智能，在工具调用、推理和问题解决方面表现突出。提供基座模型K2-Base和指令微调模型K2-Instruct两个版本，后者在多项基准测试中取得SOTA成绩，尤其在代码、工具使用和数学推理方面优势明显。模型基于15.5T高质量多语言数据预训练，支持128K长上下文，并兼容

#语言模型 #人工智能 #自然语言处理 +1

开源的小参数移动设备优化的语言模型速览：Gemma3-1B-IT

《litert-community/Gemma3-1B-IT移动端优化语言模型研究》摘要：该论文介绍了基于Google Gemma-3-1B-IT优化的移动端大型语言模型，重点针对Android/iOS设备进行性能优化。模型通过LiteRT栈和MediaPipe API实现高效部署，提供预构建APK和源码编译两种Android部署方案，以及iOS模拟器/真机部署指南。性能测试显示，在三星S24

#开源 #语言模型 #人工智能 +3

阿里开源长文本推理大模型（LRM）：QwenLong-L1-32B

阿里团队提出QwenLong-L1框架，通过强化学习提升大模型的长文本推理能力。该框架采用课程引导RL训练和难度感知机制，结合混合奖励函数，使模型逐步适应从短文本到长文本的推理过渡。发布的QwenLong-L1-32B模型在7个DocQA基准测试中表现优异，与当前最优模型性能相当。研究还构建了包含1.6K问题的DocQA-RL-1.6K数据集，涵盖数学、逻辑和多跳推理。该技术为长文本处理提供了新思

#语言模型 #人工智能 #自然语言处理 +2

ContentV-8B模型论文速读：在计算资源有限的情况下高效训练视频生成模型

本文介绍了ContentV，一个高效的文本到视频生成模型。针对视频生成任务中计算资源消耗高的问题，ContentV通过创新的数据处理流程、3D变分自编码器和扩散变换器架构，结合流匹配训练策略，实现了在有限计算资源下的高效训练。模型基于Stable Diffusion 3.5 Large进行最小架构修改，采用图像视频联合训练和渐进式训练策略，仅用256个NPU在一个月内完成训练。评估结果表明，Con

#音视频 #人工智能 #计算机视觉 +4

共 164 条

请选择