• 博客(62)
  • 收藏
  • 关注

原创 上下文拓展至160K!PPIO全面升级DeepSeek V3/R1模型服务能力

PPIO一直致力于为用户提供更加稳定、高效的模型服务,通过持续优化底层架构,确保模型可适用多类型复杂场景需求,同时提供7×24小时全天候技术保障,助力企业客户业务创新。更长的上下文窗口使模型能关联全文信息,减少信息断层,显著提升生成内容的逻辑一致性和相关性,适用于论文分析、代码读取等长文本输入输出场景。这是因为输入文本超过模型可支持的最大上下文长度,此时,系统会强制截断或忽略部分内容,导致关键信息丢失,影响生成内容的逻辑一致性。注册还可得 15 元代金券,更优质的模型服务等你体验!

2025-07-02 16:46:39 156

原创 @开发者们:首发!PPIO上线百度文心4.5系列开源模型

今天,PPIO首发上线百度文心4.5系列开源模型。文心4.5系列开源模型共10款,涵盖了激活参数规模分别为47B和3B的混合专家(MoE)模型(最大的模型总参数量为424B),以及0.3B的稠密参数模型。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。如果你是 PPIO 新用户,前往官网填写邀请码JMZ5F8注册还可得 15 元代金券。

2025-06-30 11:22:06 829

原创 深度拆解Deep Research系统架构与路线图

将大语言模型作为一种研究工具,大约经历了三个阶段:早期模型(比如 GPT-3 )主要处理孤立的任务,包括问答、机器翻译。随后,与外部工具的集成使 WebGPT 等模型能够自主浏览网页并合成来自不同来源的信息。最近半年,一种能够自主研究的复杂 AI 代理迅速涌现——Deep Research,包括海外的 Gemini、OpenAI、Grok、Perplexity,以及国内的 Manus、MiniMax、Kimi 等都推出了Deep Research 产品。

2025-06-27 18:09:05 1199

原创 PPIO × 302.AI:三分钟搭建可共享的聊天机器人

不仅如此,通过302.AI创建的机器人支持一键分享,可将AI应用分享给他人,接收者无需注册或登录仅需输入分享码即可使用,分享Al就如同分享文件一样简单,尤其适合学校、企业等多人协作场景。通过302.AI配置AI应用有两种方式,一种是通过应用超市找到平台配置好的应用直接使用,如果你是PPIO的老用户,也可以配置自定义模型,通过API key接入平台创建应用。填入机器人名称,可根据需求设置分享码和额度,设置分享码后,将所搭建聊天机器人分享给其他人使用时,需填入对应分享码,配置完成后点击创建。

2025-06-27 17:57:52 239

原创 为什么Agent Sandbox会成为下一代AI应用的基石?

2023年夏天,当OpenAI在ChatGPT中悄然上线了一个名为“Code Interpreter(代码解释器)”的功能时,很少有人意识到,这标志着一个全新AI Agent Infra技术时代的开启。在基础的聊天、写文章的功能之上,Code Interpreterr赋予了ChatGPT执行代码的能力,让ChatGPT能像一个真正的数据分析师那样,运行Python代码、分析数据、生成图表。然而,这就像打开了潘多拉的魔盒——强大的能力伴随着未知的风险。如果AI生成的代码是恶意的呢?

2025-06-27 17:37:27 680

原创 开启内测|国内首款兼容E2B接口的Agent沙箱

Agent 沙箱是一款专为 AI Agent 场景设计的新一代运行时基础设施,是 Agent 真正可以行动的操作系统底座。PPIO Agent 沙箱支持 Python、JavaScript、C++ 等主流语言,除代码外还支持网页浏览、系统命令、文案管理等行为,并且提供标准化 API / SDK,无缝衔接主流的 AI Agent 框架和工具,支持代码自动生成与执行闭环。Agent 沙箱通常可以应用于数据处理、图表生成与可视输出、编程、页面原型即时运行、云端轻量桌面任务以及长任务运行等 Agent 场景。

2025-06-24 20:40:24 195

原创 PPIO上线MiniMax-Hailuo-02:全球排名第二的视频模型

注册并登录后,在 API 模型广场就可以看到 MiniMax-Hailuo-02 模型了。MiniMax-Hailuo-02 有文生视频与图生视频两种方式,打开下图中按钮为图生视频模式,关闭按钮为文生视频模式。到文档—模型服务 API 手册获取 MiniMax-Hailuo-02 的 URL:https://api.ppinfra.com/v3/async/minimax-hailuo-02。注册并登录 PPIO,然后打开 API 密钥管理页面,点击【创建】按钮,输入自定义密钥名称,生成 API 密钥。

2025-06-18 20:54:25 354

原创 PPIO × LangBot:三步搭建专属聊天机器人 | 教程

点击「凭证与基础信息」,记录Client ID 和 Client Secret, 点击左侧机器人,记录下 RobotCode 和 机器人名称。LangBot 是一个开源即时通信机器人平台,支持接入飞书、钉钉、QQ等多种消息平台,帮助用户直接在平台内进行进行任务处理。如果想要将机器人添加到群里,可以点击钉钉群的「群管理」选择「添加机器人」,然后搜索机器人名称即可在群聊中使用。点击左侧“机器人”选项卡,填写机器人配置信息,完成名称、简介、消息名称等基础配置,配置完成后,点击发布。

2025-06-17 17:56:38 884

原创 PPIO上线MiniMax-M1-80k:全球首个开源大规模混合架构推理模型

M1 有一个显著的优势是支持目前业内最高的 100 万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的 8 万tokens 的推理输出。M1 在面向生产力的复杂场景中能力是开源模型中的最好一档,超过国内的闭源模型,接近海外的最领先模型,同时又有业内最高的性价比。还可以得 15 元代金券。注册并登录 PPIO,然后打开 API 密钥管理页面,点击【创建】按钮,输入自定义密钥名称,生成 API 密钥。

2025-06-17 15:49:44 997

原创 PPIO 上线 Qwen3-Embedding 系列模型

Embedding 模型是一种将离散的符号(如单词、句子、图像等)映射到连续的向量空间中的模型。在自然语言处理(NLP)领域,它通常用于将单词或句子转换为向量形式,以便计算机能够更好地处理和理解语言信息。训练 Embedding 模型的目标是使相似的符号在向量空间中更接近,不相似的符号更远离。例如“苹果”和“香蕉”两个单词,一个好的文本 Embedding 模型会把它们编码成两个接近的向量。这样,AI 系统就可以通过“向量距离”来判断语义相似性。

2025-06-12 17:36:01 998

原创 PPIO ×Apifox:一键调用模型API,高效开发AI应用

集 API 文档、API 调试、API Mock、API 自动化测试于一体的 API 研发管理工具Apifox可以将全流程集成于一体,帮助开发者提升开发效率、协作体验和集成灵活性。通过简单配置,就能在 Apifox 中快速调用各主流模型,简化大模型集成流程,实现AI应用高效开发。打开克隆项目,选择「正式环境」,并在环境变量「api_key」中填入从派欧云官网保存的密钥,保存配置。打开 API 密钥管理页面,点击创建按钮,输入自定义密钥名称,生成API密钥。配置完成后,点击发送,即可收到模型返回的响应。

2025-06-05 17:48:37 875

原创 从Copilot到Agent,AI Coding是如何进化的?

编程原本是一项具有一定门槛的技能,但借助 AI Coding 产品,新手也能写出可运行的代码,非专业人员如业务分析师、产品经理,也能在 AI 帮助下直接生成简单应用。这一演变对软件产业产生了深远影响。当 AI 逐步参与代码生成、调试乃至项目管理,。今天市场上的 AI Coding 产品是如何发展的?按照发布时间与产品类型,AI Coding 的发展历程大致可以分为四个阶段:代码模型基建,比如 Codex、o1、DeepSeek R1 等。

2025-06-05 15:14:25 1139

原创 PPIO私有化部署模板上新!10分钟拥有专属最新DeepSeek模型

这两天,DeepSeek接连发布了升级版R1模型DeepSeek-R1-0528及蒸馏模型DeepSeek-R1-0528-Qwen3-8B,模型性能相较于此前R1模型大幅升级。DeepSeek-R1-0528性能自是不必多言,值得注意的是,根据升级版R1模型思维链提取出来蒸馏模型性能依旧强大,在数学测试中表现与 Qwen3-235B 相当,可以说是“小参数大性能”。

2025-05-30 18:18:52 326

原创 PPIO × AstrBot:多平台接入聊天机器人,开启高效协同 | 教程

如果你需要使用沙箱代码执行器,请额外添加 -v /var/run/docker.sock:/var/run/docker.sock 参数。接下来,点击权限管理,点击开通权限,输入 im:message:send,im:message,im:message:send_as_bot。在代码编辑配置中,你可以直接编辑配置文件,编辑完后首先点击应用此配置,此时配置将应用到可视化配置中,然后再点击右下角保存按钮来保存配置。打开 API 密钥管理页面,点击创建按钮,输入自定义密钥名称,生成API密钥。

2025-05-30 16:50:09 970

原创 首发!PPIO派欧云上线DeepSeek-R1-0528-Qwen3-8B蒸馏模型

首发!PPIO派欧云上线DeepSeek-R1-0528-Qwen3-8B蒸馏模型DeepSeek R1 系列的模型更新还在继续。继昨天 PPIO派欧云后,今天 PPIO 再次首发 DeepSeek 最新开源的蒸馏模型DeepSeek-R1-0528-Qwen3-8B 是将 DeepSeek-R1-0528 的思维链提取出来,用于对 Qwen3 8B Base 进行后训练而得到的蒸馏模型。

2025-05-30 00:18:50 1199

原创 Dify、n8n、Coze、Fastgpt、Ragflow超详细选型指南!附PPIO接入教程

LLM应用平台的核心价值在于大大降低了AI应用的开发门槛,加速从概念到产品的落地过程,并为开发者提供整合、管理和优化AI能力的工具集(插件、MCP工具等等)。开源的LLM应用开发平台,融合BaaS和LLMOps理念,旨在提供一站式的AI应用快速开发与运营能力,包括Agent工作流、RAG Pipeline等。自托管方案提供更高的数据安全性和隐私保护,但需要更多的技术支持;一句话: Dify 是个23年4月开源的LLM应用开发平台,如果想整点专业的、能上生产的AI应用,还想把后端、模型运维的事全搞定?

2025-05-29 16:21:25 462

原创 首发!PPIO派欧云上线DeepSeek-R1-0528

DeepSeek-R1-0528模型在HuggingFace开源,代码能力显著增强,可媲美Claude3.7/4。该模型支持通过简单提示生成游戏、网页等,风格更自然。PPIO云平台已首发上线该模型,提供多种集成方式:官网直接体验、第三方平台调用或API开发集成(兼容OpenAI接口)。开发者可通过Python等语言快速接入,适用于对话应用、工作流等场景。模型升级对AI开发生态将产生重要影响。

2025-05-29 06:11:59 1070

原创 PPIO× ChatWise:解锁兼具性能、隐私、多模态的AI助手 | 教程

在当前AI聊天工具市场中,ChatWise以其“第二快的AI聊天机器人”称号脱颖而出,支持包括DeepSeek-R1、Qwen3在内的多种LLM模型,并提供本地数据存储、多模态交互及联网搜索功能。在PPIO派欧云高性能API服务的支持下,ChatWise能够满足用户在不同场景下的模型调用需求。本文提供了详细的配置教程,帮助用户解锁具备高性能、隐私保护及多模态交互的AI助手。

2025-05-22 15:13:38 465

原创 OpenAI大师课:初创公司、企业和开发者必看的AI落地指南

OpenAI 在 4 月份发布了三篇非常有参考意义的“AI 大师课”,初创公司、企业和开发人员都可以在其中找到深入的资源来加速 AI 的采用。这三篇 AI 大师课分别是:《企业中的人工智能》:25 页 PDF,介绍七家前沿公司的使用 AI 的经验教训《构建人工智能代理的实用指南》:34 页 PDF,介绍 AI 代理到底能为员工做些什么《识别和扩展人工智能用例》:34 页 PDF,介绍 AI 落地的三个原则与六大方向本文分为四部分:七家前沿公司的使用 AI 的经验教训OpenAI Agent 构建指南AI 落

2025-05-21 11:57:26 646

原创 PPIO × RuoYi AI :四步解锁AI开发平台,一键搭建AI应用 | 附完整教程

当前AI应用类型多种多样,已广泛应用于金融、医疗、教育等数十个关键领域,呈现出"千业千面"的趋势。在传统开发流程,想要搭建AI应用,不仅需要支撑高并发请求的微服务架构,还需整合包括知识图谱构建、多轮对话管理、意图识别引擎在内的十余项核心技术模块。如何才能更加简单、高效地搭建AI应用?全栈式 AI 开发平台 RuoYi AI 提供了一个开箱即用的开源解决方案,涵盖前端应用、后台管理、小程序应用。并且,该开源系统基于 MIT 协议,自由度高,可灵活修改和分发代码,支持免费商用。

2025-05-16 18:10:50 899

原创 DeepSeek-V3最新论文重磅发布,PPIO已跑通所有核心推理加速技术

梁文锋署名论文最新发布,PPIO全链路推理加速技术率先跑通。今天,DeepSeek官方发布了一篇重磅论文,由梁文锋亲自署名:《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》——《深入了解DeepSeek-V3:AI架构的硬件扩展挑战和思考》。

2025-05-16 17:07:33 775

原创 代理工作流:RAG、Deep Research与代码助手都在用的技术

此外,至关重要的是,代理编码助手可以从错误中学习,将它们编码在长期记忆中,使它们随着时间的推移变得更聪明。这种独特的能力归功于几个特点。代理工作流还利用 AI 代理的核心组成部分,包括其推理能力、使用工具与环境互动的能力以及持久记忆,将传统工作流完全转变为响应式、适应性和自我进化的过程。原子设计模式,如规划和工具使用,可以以创造性的方式组合,有效地利用代理人工智能来完成各种任务,跨越不同的领域。每个工作流都使用其独特的模式和工具组合,赋予其代理不同程度的自主性和决策能力,并依赖不同程度的人类反馈和参与。

2025-05-12 15:49:04 915

原创 PPIO x n8n:零代码构建自动化工作流驱动的AI Agent|教程

工作流在AIAgent系统中至关重要,它指导智能体如何感知、思考和行动。n8n是一个灵活的工作流自动化平台,支持代码编写和可视化操作,拥有强大的社区支持和多种集成。通过n8n,可以轻松调用PPIO派欧云的高性能大模型API服务,构建自动化流程。配置教程包括获取PPIO的APIKey、BaseURL和ModelID,并在n8n中集成这些信息以创建聊天AIAgent。此外,还可以通过设置系统消息和添加记忆功能来个性化聊天机器人的行为和记忆能力。整个过程展示了如何利用n8n和PPIO API构建和定制智能工作流。

2025-05-09 15:39:08 1275

原创 PPIO × GPT4All:构建本地知识库,让AI更懂你

使用AI协助工作,可以大幅提升效率,但是将公司文件、客户资料上传到平台时,又会担心信息泄露,存在合规风险。又或者是由于AI缺少行业内的专业知识,生成的内容准确度不高,很难作为参考。如果通过将文档在本地电脑上分析整理,构建私有知识库,不仅能降低数据泄露风险,还能减少幻觉,让AI的回答更贴合实际业务场景。下面我们就使用GPT4All,结合PPIO派欧云提供的高性能大模型 API 服务,手把手带你构建本地知识库,让AI成为最懂你业务的“私人顾问”。注册登录派欧云,填写邀请码【JMZ5F8】得 15元代金券。

2025-05-08 17:04:24 555

原创 大模型推理成本每年降低10倍的秘密:一文了解vLLM、SGLang等6款主流推理引擎

大语言模型推理引擎的优化技术百花齐放,从底层内存管理到高层并行策略,各有侧重又相辅相成。这些技术最早由不同项目创新提出,现如今正逐步融合到主流的开源推理引擎中。对于开发者而言,理解并善用这些优化手段,将有助于在实际AI应用中以更低成本、更高效率部署强大的大语言模型。这场围绕LLM高效推理的持续演进,还将随着模型规模的扩大和新硬件的出现而不断前行。各项优化技术的交融与创新,终将推动大模型走向更加经济高效、稳定可靠的应用阶段。

2025-05-06 15:50:02 1297

原创 首发!PPIO 上线 DeepSeek-Prover-V2-671B,无门槛教程来了

刚刚,“源神” DeepSeek 又开源了!DeepSeek 在 Hugging Face 开源了一个名为 DeepSeek-Prover-V2-671B 的新模型,是一款基于 671B 参数的 MoE 大模型,结合 FP8 量化、高维嵌入、长上下文与专家选择优化,专为数理逻辑与高复杂度任务设计。

2025-04-30 20:42:01 890

原创 PPIO ×Cherry Studio :最新Qwen3上线,3分钟做好五一出行计划

五一假期将至,但出行计划还没搞定?既要考虑景点人流量,又要权衡交通和住宿成本,想出去放松一下属实不是件容易事。新发布的Qwen3可以在3分钟的时间帮你整理一份完善的出行计划。通过Cherry Studio调用的MCP工具,以及PPIO派欧云提供的高性能大模型 API 服务,Qwen3可以解析用户输入的模糊需求,实时获取高德地图的路线、交通耗时及周边设施数据,生成包含时间轴、预算表、紧急联系方式的完整攻略。

2025-04-30 18:19:58 967

原创 PPIO X OWL:一键开启任务自动化的高效革命

2024年,仅凭一PPIO X OWL:一键开启任务自动化的高效革命篇技术论文,OWL的Github仓库便在24小时斩获了15k Star,成为2024年增速最快的多智能体协作框架,重新定义了任务自动化的效率边界。Camel AI团队开源全栈方案,仅一行代码就可解锁“超参调优+资源调度+权重优化”三位一体的能力。

2025-04-27 10:13:42 727

原创 AutoGen 框架接入 PPIO API,轻松构建强大 AI Agent

是一个强大且功能丰富的框架,提供创建 AI 智能体,尤其是多代理工作流所需要的一切内容,包括框架、开发者工具和应用程序。AutoGen 的生态系统中提供分层和可扩展的框架,使用户可以在从高级API到低级组件的不同抽象级别使用框架:Core API:用于构建消息传递、事件驱动的多代理系统;支持跨语言开发,包括 .NET 和 Python。AgentChat API:以 Core API 为基础,用于构建对话式单智能体和多智能体应用程序。

2025-04-25 18:10:27 1102

原创 AI圈爆火的MCP,你最需要了解这5个关键问题

近期,一个名为 MCP 的概念正在 AI 圈子里流行,从海外火到了国内。3 月 27 日,OpenAI 宣布在 Agent SDK 中支持 MCP;4 月 4 日,谷歌宣布在 Gemini 的官方 API 文档中添加使用 MCP 的范例。加上此前提出 MCP 协议的 Anthropic,海外三大 AI 巨头已经全部投入 MCP 怀抱。

2025-04-23 10:16:26 2937

原创 PPIO×DeepChat:把AI能力放在桌面,解锁高效办公新模式

想要用AI帮忙处理文件,又担心数据不安全?为什么不试试自己接入一个桌面AI助手?DeepChat作为可接入多个开源模型的桌面AI助手,专为深度工作而设计,支持本地化部署,既能随时调用,又可以将数据存储在本地,提升隐私安全性。

2025-04-16 17:00:29 404

原创 PPIO x 沉浸式翻译:DeepSeek这个隐藏功能被我们挖出来了!

深夜的研究员快速切换着俄语技术文档,留学生秒速解析西班牙语学术论文,跨境电商从业者实时追踪日语行业动态——这些场景不再是科幻电影的特效,而是沉浸式翻译插件创造的日常奇迹。这款现象级产品自2023年横空出世,凭借大语言模型赋能的跨语种理解能力,已让数万用户实现了从「语言孤岛」到「全球信息平权」的认知跃迁。作为全网口碑炸裂的双语对照网页翻译插件,使用LLM模型,具备跨语种理解能力,能够实时翻译应用于网页阅读、 PDF 翻译、 EPUB 电子书翻译、视频双语字幕翻译等场景,并支持各种浏览器插件和应用使用。

2025-04-14 14:23:16 633

原创 无缝集成 PPIO 与 OpenAI Agents SDK,构建多代理工作流

3月12日,OpenAI 推出了 Agents SDK,彻底改变了开发者们构建 AI 应用程序的方式。是一个轻量级而功能强大的框架,用于构建多代理工作流,将人工智能代理所需的时间从几周缩短到了几分钟。该 SDK 基于 OpenAI 的强大语言模型,能帮助开发者们快速创建可理解自然语言、执行任务并与用户交互的智能代理,并兼容任何支持 OpenAI Chat Completions API 格式的模型提供商。

2025-04-09 13:59:08 810

原创 别让DeepSeek卡顿拖垮AI创意!Dify×PPIO这波「高速通道建设」太狠了!

​连续三周,DeepSeek霸屏科技圈热搜。从帮程序员Debug到给大学生讲高数,这个「六边形战士」展现的惊人智慧,让人几乎忘记——AI的流畅应答背后,需要多强大的支撑。而Dify 是一家致力于通过低代码技术降低AI应用开发门槛。我们为开发者和企业提供可视化协作平台。平台采用先进的LLM技术架构,支持主流开源模型与云厂商接口的无缝对接。通过可视化工作流设计和API管理功能。现在登录Dify平台,开发者可一键部署的PPIO DeepSeek-R1 API,享受50元调用额度。

2025-04-09 11:49:00 306

原创 Manus 一码难求?PPIO × OpenManus 开源替代方案来了!

在AI领域,Manus 近来崭露头角,作为一款AI Agent,Manus 直接颠覆了人们过往对于Agent的想象,光靠一个Demo 视频,就造成了邀请码一码难求的现象。但好消息是,迅速行动,仅花3小时就复刻并推出了开源版本——,在极短的时间内就在 GitHub 上已经获得了近 28k star。

2025-04-09 10:18:15 977

原创 PPIO × UI-TARS:用自然语言操控电脑,AI Agent 的极致体验

Manus的爆火预示着AI 正在从单纯的文本生成和图像识别迈向更复杂的交互场景。字节跳动近期推出的开源项目 UI-TARS Desktop 为我们展示了一种全新的可能性:能够通过自然语言理解和处理来控制计算机界面。这款工具代表了人工智能与人机交互领域的重大突破,为用户提供了一种全新的、更加自然的方式来操作计算机系统。在项目落地实践中,高效稳定的底层模型支撑很关键,

2025-04-08 19:58:04 1390

原创 告别每月 200 刀!PPIO x Deep Searcher:10分钟构建企业级AI私有知识库

前段时间,OpenAI 的 Deep Research 与 X 平台主推的 Grok Deepsearch 强大的信息整合能力让大家眼前一亮。但每月200美金的高昂订阅成本、仅限单一模型,依赖社交数据等现状,还是造成了部分应用场景的局限,在专业领域应用时难以满足部分开发者的严苛要求。而现在,专注于向量数据库的在开发者社区给出了新的解法——接近6k stars的订阅成本:即刻部署,使用可切换:自由切换DeepSeek/Qwen等顶尖大模型。

2025-04-08 19:29:44 1656

原创 高主频CPU+RTX4090:AI生图性能优化超150%

结论 研究证实,在AI图像生成场景中,相较于低频企业级CPU,高频消费级CPU搭配RTX 4090显卡可实现150%的性能飞跃,同时显著降低硬件成本。升级至RTX 4090显卡搭配高频CPU,即刻获得生成速度与输出质量的双重提升,革新您的AI图像生成工作流。ComfyUI设置优化对图像生成速度的影响 验证高主频CPU的优势之后,我们来进一步探索提升图像生成速度的方法。消费级高主频CPU搭配 RTX 4090显卡可以显著提高AI生图的性能,相比于企业级CPU具有更大的吞吐量和更优的成本效益。

2025-03-17 18:24:08 950

原创 EP 架构:未来主流方向还是特定场景最优解?

反之,预填充阶段资源不足,则会拖慢整个推理速度。假设我们在8张H100的机器上运行DeepSeek V3模型,输入的prompt长度是1k,则推理阶段激活的9个专家参数大小约为22G,KV Cache则只有30M左右,实际推理中,专家参数与KV Cache都需要加载到显卡当中。假设我们在8张H100的机器上运行DeepSeek V3模型,输入的prompt长度是1k,则推理阶段激活的9个专家参数大小约为22G,KV Cache则只有30M左右,实际推理中,专家参数与KV Cache都需要加载到显卡当中。

2025-03-04 10:12:46 1547

原创 DeepGEMM重磅开源!PPIO实测一手性能数据,MoE模型推理效率显著提升

GEMM(General Matrix Multiplication) 是深度学习中最基础、最重要的计算算子,GEMM优化是高性能AI计算的核心。DeepGEMM是一个专为加速深度学习中关键GEMM运算而设计的开源库,通过提高GEMM计算效率,直接提升整个网络的性能表现。根据评测结果显示,DeepGEMM在H100、H200和H800等多款GPU上均展现出显著的性能优化能力,体现了其良好的通用性。

2025-02-28 14:55:08 822

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除