logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

16专家MOE生成模型(基于Qwen 30B-A3B微调):Qwen3-30B-A6B-16-Extreme

Qwen3-30B-A6B-16-Extreme 是基于 Qwen 30B-A3B 模型的微调版本,将专家数量从 8 个增加到 16 个,以增强复杂任务的处理能力。该模型支持 32K 上下文和 8K 输出,提供多种格式生成和量化版本,适用于深度分析和复杂问题解答。尽管使用 16 个专家会降低速度,但其在 GPU 上的性能表现优异,速度可提升 4 到 8 倍。模型支持 Jinja 和 CHATML

文章图片
#人工智能#深度学习
开源的高效高一致性多模态图像理解、文生图、图像编辑模型:OmniGen2

OmniGen2是一款统一的多模态生成模型,具备强大的视觉理解、文本生成图像和指令编辑能力。模型采用双组件架构:3B视觉语言模型(基于Qwen-VL-2.5)负责解析视觉信号和指令,4B扩散模型执行高质量图像生成。主要功能包括视觉内容理解、文本到图像转换、基于指令的图像修改以及上下文相关生成。使用上提供Python环境配置指南、运行脚本示例和Gradio演示链接,并给出关键参数调优建议。未来计划发

文章图片
#计算机视觉#人工智能#图像处理 +4
开源的跨语言GUI元素理解8B大模型:AgentCPM-GUI

AgentCPM-GUI 是由清华大学自然语言处理实验室与 ModelBest 联合开发的开源大模型,基于 MiniCPM-V 架构,拥有 80 亿参数,专为移动终端 GUI 操作设计。该模型通过接收屏幕截图作为输入,自动执行用户任务,具备高质量 GUI 定位、中文应用适配、强化推理规划和紧凑动作空间设计等关键特性。在基准测试中,AgentCPM-GUI 在多个指标上表现优异,尤其在复杂 GUI

文章图片
#开源#人工智能
FairyR1-32B模型论文速览:使用分支合并蒸馏提高精度

本文提出TinyR1-32B-Preview语言模型,采用创新的分支-合并蒸馏方法。该方法先通过领域特定微调训练多个专家模型(数学、科学、编程),再使用Arcee Fusion技术进行选择性参数合并。实验表明,该32B模型在数学、编程任务上分别比70B基线提升8.1和4.1分,推理成本仅略有增加。消融研究验证了合并策略的有效性,合并过程仅需4小时GPU时间。该方法突破了传统蒸馏的局限性,实现了小模

文章图片
#人工智能#算法#机器学习 +4
谷歌medgemma-27b-text-it医疗大模型论文速读:面向医学视觉问答的语义标签知识增强数据集SLAKE

本文介绍了SLAKE数据集,这是一个为医疗视觉问答(Med-VQA)设计的大型双语数据集,旨在解决该领域高质量公开数据集缺乏的问题。SLAKE包含642张放射影像,涵盖39个器官和12种疾病,并由经验丰富的医生进行标注。此外,作者构建了一个医学知识图谱,包含2603个英文和2629个中文三元组,以支持需要外部知识的问答。数据集被分为训练集、验证集和测试集,确保答案在测试集中出现于训练集。实验使用堆

文章图片
#语言模型#人工智能#自然语言处理 +1
用于流式语音转文字的开源模型:stt-1b-en_fr

Kyutai STT是一种流式语音转文字模型,支持英语和法语。它采用Transformer架构,发布了两款模型:10亿参数的kyutai/stt-1b-en_fr(0.5秒延迟)和26亿参数的kyutai/stt-2.6b-en(2.5秒延迟)。该模型基于Moshi的多流架构,能处理长达2小时的音频,输出带标点的转录文本。训练使用了数百万小时的公开音频数据,并在H100 GPU上完成。用户可以通过

文章图片
#音视频#计算机视觉#人工智能 +2
月之暗面开源升级版混合专家(无思考)模型K2速览:Kimi-K2-Instruct

Kimi K2是由月之暗面推出的万亿参数混合专家大模型,包含32B激活参数,采用创新Muon优化器实现训练零不稳定。该模型主打代理智能,在工具调用、推理和问题解决方面表现突出。提供基座模型K2-Base和指令微调模型K2-Instruct两个版本,后者在多项基准测试中取得SOTA成绩,尤其在代码、工具使用和数学推理方面优势明显。模型基于15.5T高质量多语言数据预训练,支持128K长上下文,并兼容

文章图片
#语言模型#人工智能#自然语言处理 +1
开源的小参数移动设备优化的语言模型速览:Gemma3-1B-IT

《litert-community/Gemma3-1B-IT移动端优化语言模型研究》摘要: 该论文介绍了基于Google Gemma-3-1B-IT优化的移动端大型语言模型,重点针对Android/iOS设备进行性能优化。模型通过LiteRT栈和MediaPipe API实现高效部署,提供预构建APK和源码编译两种Android部署方案,以及iOS模拟器/真机部署指南。性能测试显示,在三星S24

文章图片
#开源#语言模型#人工智能 +3
阿里开源长文本推理大模型(LRM):QwenLong-L1-32B

阿里团队提出QwenLong-L1框架,通过强化学习提升大模型的长文本推理能力。该框架采用课程引导RL训练和难度感知机制,结合混合奖励函数,使模型逐步适应从短文本到长文本的推理过渡。发布的QwenLong-L1-32B模型在7个DocQA基准测试中表现优异,与当前最优模型性能相当。研究还构建了包含1.6K问题的DocQA-RL-1.6K数据集,涵盖数学、逻辑和多跳推理。该技术为长文本处理提供了新思

文章图片
#语言模型#人工智能#自然语言处理 +2
ContentV-8B模型论文速读:在计算资源有限的情况下高效训练视频生成模型

本文介绍了ContentV,一个高效的文本到视频生成模型。针对视频生成任务中计算资源消耗高的问题,ContentV通过创新的数据处理流程、3D变分自编码器和扩散变换器架构,结合流匹配训练策略,实现了在有限计算资源下的高效训练。模型基于Stable Diffusion 3.5 Large进行最小架构修改,采用图像视频联合训练和渐进式训练策略,仅用256个NPU在一个月内完成训练。评估结果表明,Con

文章图片
#音视频#人工智能#计算机视觉 +4
    共 164 条
  • 1
  • 2
  • 3
  • 17
  • 请选择