三花AI-CSDN博客

原创谷歌 Gemini 2.5 升级：对话指令驱动的智能图像分割

这款 MoE 架构模型拥有 480B 总参数，其中激活参数达 35B，原生支持 256K token 的超长上下文窗口，在代码生成和理解能力上可媲美 Claude Sonnet4。该功能能够通过理解复杂的自然语言指令（包括对象关系、条件逻辑和抽象概念）来精确识别和分割图像中的特定区域。腾讯也发布了一款 AI 编程IDE CodeBuddy[2]，同样基于 VSCode 套壳的，支持 Claude、混元等多款主流大模型。包，或者直接在 Claude Code 中配置代理就能用。

2025-07-23 16:07:23 284

原创 zAI 发布 Zread AI：智能分析开源项目

zAI 发布 Zread AI[1] ，这是一款专为开源项目生成文档的工具，提供原生中文支持。与 deepwiki 类似，但功能更强大，还能智能分析仓库 issues 并生成开发者背景报告（这个功能确实有点意思）。字节开源的 Seed-X 模型[2]，这是一个仅7B大小的模型，专门用于翻译任务。支持 28 种语言互译。官方放出的基准测试表现来看，效果能比肩 DeepSeek R1 和 Gemini Pro 2.5！注册后支持私有仓库文档生成，有需要的佬不妨试试看。

2025-07-22 16:59:24 215

原创 Decart AI 发布 MirageLSD：号称零延迟的实时视频生成模型

OpenAI 重磅推出 ChatGPT agent 智能代理系统，这是一个通用 agentic 系统，配备了完整的工具套件，包括视觉浏览器、文本浏览器、终端和直连API，能够动态选择最佳路径，包括过滤结果、运行代码，甚至生成幻灯片和电子表格，同时在各个步骤中保持完整的任务上下文。每次调用可生成 8 秒时长的视频内容，提供带音频和不带音频两种版本选择。谷歌DeepMind官方公告[6]显示，谷歌搜索的AI模式现已支持 Gemini 2.5 Pro，因为支持推理了，可以用来解决非常复杂的数学问题。

2025-07-18 17:13:36 917

原创 OpenArt Story 一键生成完整叙事短视频

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B，仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤，就超越了 Wan-I2V-14B 模型的性能。的新功能，用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频，这个视频包含动作、音乐和完整的叙事线，不仅仅是简短的片段，而是一个完整的故事。更厉害的是，Wan-I2V 只能进行图像到视频的生成，而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能。OpenArt 推出了一个名为。

2025-07-16 18:20:11 253

原创 NSFW Grok 数字伙伴，只能说老马是懂用户的

IndexTTS2[1] 是一个突破性的自回归语音合成模型，能在零样本条件下实现两大核心能力：精确的时长控制，以及音色与情感的完美解耦。该模型支持包括愤怒、哭泣、恐惧、沮丧、快乐、惊讶、平静等在内的丰富情感表达。表示 Grok 1.1.17 版本带来了 Companions（数字伙伴）功能。更新后，用户只需在设置中向下滚动至语音部分，点击「启用伙伴」即可开启，需要 SuperGrok 订阅。不过目前官方只放出了演示网站和一些对比音频，期待后续能放出完整模型和代码。好感度系统，我只能说，老马是懂用户的。

2025-07-15 17:58:27 292

原创不要错过学习老马团队 xAI 开源 Grok 全系列官方提示词

腾讯混元发布了 Hunyuan3D-PolyGen ，具备智能重拓扑功能，能够生成高质量、复杂几何形状的 3D 模型，支持多种网格格式，可直接应用于游戏开发等专业领域。GitHub 上这个Context Engineering 入门模板[3]可以带你入门，有需要的可以看看，主要是针对 Claude Code 的。Twitter/X 平台上的「Grok Explain」和 Grok Bot 功能提示词。Grok4 的具体升级细节目前尚未公布，佬们可以猜猜看。如果你想学习老马团队是如何设计提示词的，不要错过。

2025-07-08 18:11:29 297

原创阿里开源 OmniAvatar：音频驱动数字人模型

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型，它能够为图像或视频中的特定区域生成详细描述，支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。从目前已有的开源数字人模型来看，OmniAvatar 的表现算是相当出色了。EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器，通过自然对话即可智能修改图片。

2025-07-04 19:36:45 366

原创这还是我认识的百度吗？Ernie 4.5开放23款大模型性能比肩OpenAI O1

阿里通义最新发布 Qwen-TTS[4] 语音合成模型，目前支持三种特色中文方言：北京话、上海话和四川话。从官方数据显示，LLM版本超越DeepSeek v3和Qwen 235B，而VLM版本则可与OpenAI O1相媲美。不过略显遗憾的是，官方暂时没有开源计划，开发者需要通过 API[5] 进行调用，具体接口文档和计费标准可以参考阿里云官方说明。Ernie 4.5[1]重磅发布 23 款开放权重大模型，包括 VLM 和 LLM 两大系列。目前代码和模型已经开源，佬们可以在 github 上查看。

2025-07-01 18:10:34 242

原创 AI 虚拟试衣神器；虚拟脱衣模型

阿里Qwen VLo[1]多模态大模型正式发布，支持图像理解与生成，类似GPT-4o，用户现在可以通过多轮对话对同一张图片进行持续编辑和优化，实现了'边聊边改'的交互体验。not-flux-kontext-dev-clothes-remover[5] 是一款虚拟脱衣 LoRa 模型，具体效果可以看青龙大佬的实验效果。是腾讯开源的唱歌模型，其能力逼近 SunoV4.5 且大幅度领先其他开源模型，训练用了 200万首歌曲（大约11万小时），支持唱中文和英文歌曲。

2025-07-01 18:03:45 1304

原创小米发布首款 AI 智能眼镜：支持语音交互与实时识别

产品搭载超级小爱 AI 助手，支持语音控制和智能交互，配备 1200 万像素摄像头可实现实时拍摄、记录和场景识别功能。现已发布开源权重，这是一个支持多模态（文本/音频/图像/视频）理解的大模型，仅需 2GB RAM 即可运行，也是第一个在 lmarena 上得分超过 1300 分的 10B 参数模型。Claude 推出 Artifacts Space，即在你创建了 Artifact 后，可以把这个应用发布后供任何人使用。佬们可以在官方推文[2]中查看完整介绍与技术细节。

2025-06-27 19:19:41 392

原创 Jina AI 发布性能超越 OpenAI 12% 的嵌入模型

DRA-Ctrl[3]（Dimension-Reduction Attack）是一个创新的跨模态图片编辑框架，通过整合视频模型中的视觉、时间、空间和因果等多维度高维特征表示，实现对图片主体的状态预测与精准编辑。该模型支持单向量和多向量嵌入输出，在多语言检索任务中的性能表现尤为突出 - 比 OpenAI 的 text-embedding-3-large 高出 12%。该工具集成了 MCP 框架、谷歌搜索等实用功能，还能调用谷歌最新的视频生成模型 Veo 和图像模型，还要什么自行车。

2025-06-26 18:59:29 420

原创 OmniGen2：开源自然语言图像编辑模型

可以理解为开源领域的 Flux Context 替代方案，支持通过自然语言指令实现精准的局部图像编辑，包括：对象删除与替换、风格转绘、颜色调整、背景处理（删除/替换）、物品添加、表情修改以及动作修改等多种编辑任务。目前标准版定价为 $39/月（约合人民币 280 元），仅仅只有画质升级的功能还是有点小贵。官方定位是为 AI 视频创作者提供终极画质优化方案，解决内容生产的最后一公里问题。OmniGen2[1] 是一个统一的多模态图像编辑模型，支持单图和多图编辑。

2025-06-24 10:33:45 287

原创 HeyGen AI 三步创建产品广告视频

Hugging Face[1] 官方发布教程《LoRA Fine-Tuning FLUX.1-dev on Consumer Hardware》，详细讲解如何在单张消费级显卡（10GB显存）上，使用 QLoRA 技术和 diffusers 库对 FLUX.1-dev 模型进行高效微调。HeyGen 最新推出的 Product Placement[7] 功能，只需上传产品照片、选择一个人像、输入文案脚本，即可生成产品介绍视频。从官方演示来看，效果非常不错，项目的代码即将开源，感兴趣的佬可以先到官网查看示例。

2025-06-20 11:49:19 391

原创 Midjourney V1视频模型每月10美元起

官方表示[3]，他们的终极目标是打造一个能在 3D 空间中实时生成图像、环境和角色，并支持用户交互的完整 AI 系统。未来，Midjourney 计划持续整合各类模型，最终形成统一的智能创作平台。Midjourney 正式推出 V1 视频生成模型，这是一款面向大众的视频创作工具，基础订阅费仅需 10 美元/月。佬们可以在 HuggingFace Spaces 体验[1]，值得一试，不要错过。这是 Midjourney 在图像生成基础上推出的首个视频生成模型。命令即可快速添加 SSE 服务器配置。

2025-06-19 11:29:21 258

原创高品质白菜价 1080p 视频生成模型

海螺 AI 在其 MiniMaxWeek 的第二天推出了 Hailuo 02 视频模型[3]，官方号称一流品质，白菜价格支持原生 1080p输出，可以生成杂技表演等复杂动作。海螺 AI 发布的 Minimax Agent[1] 是一款类似 Manus 的产品，他们还开源了其核心的 Minimax M1 推理模型[2]。同时还推出了 Gemini 2.5 Flash-Lite 预览版，这是目前谷歌速度最快、性价比最优的 Gemini 2.5 模型。完整功能介绍可参考官方推文[4]，也可以在官网试用。

2025-06-18 15:17:16 420

原创 AI 视频超分辨率模型可升级至 4K

阿里通义团队正式推出 MLX 格式的 Qwen3 大模型，包含 4-bit、6-bit、8-bit 和 BF16 四个量化版本，专门针对 Apple 的 MLX 框架进行了深度优化。Topaz Labs[3] 最新推出的 Astra 是一款基于 AI 的视频超分辨率模型，能够将 AI 生成的视频智能放大至 4K 分辨率，同时显著提升画质和细节表现。新增了--sref random功能，提供更多的变化以供探索。如果想回到旧系统或使用旧的 sref，可以使用 --sv 4。

2025-06-17 10:29:36 339

原创腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型

Anthropic[3] 发布了一篇深度文章，详细介绍了Anthropic 公司构建多智能体研究系统的过程，探讨了其在处理复杂研究任务中的优势、面临的挑战以及相关的工程实践和评估方法，旨在分享如何通过多智能体系统更有效地探索复杂主题的经验教训。腾讯混元3D 2.1[1]开源了业界首个全链路工业级3D生成大模型，本次不仅开源了模型权重、训练代码和数据处理流程，还完整公开了核心架构设计。通过引入PBR（基于物理的渲染）技术，显著提升了材质细节的真实性，模型在不同光照下更自然、更一致。干货满满，值得一看！

2025-06-16 11:21:14 265

原创 Manus 推出完全免费的 Chat 模式无任何使用限制

如果是代码文件，则能直接保存为对应扩展名的源文件（例如 .py、.js、.sql 等）。Manus 正式推出全新 Chat 模式，官方号称[2] 面向所有用户完全免费且无使用限制。SeedVR2[3] 是字节跳动推出的视频高清修复单步 Diffusion 模型，采用 Apache 2.0 开源协议。AI 领域的重要服务如 Claude、OpenRouter 和 Cursor 等等依赖 GCP 的服务都中断了。目前谷歌官方已发布声明[4]表示服务已恢复，但具体故障原因仍在调查中。

2025-06-13 09:59:13 308

原创 Higgsfield AI 整合 Flux.1 Kontext：一站式创意工作流解决方案

Higgsfield AI通过整合Flux.1 Kontext，将照片编辑、电影级动画、视觉特效（VFX）和虚拟形象语音功能集成到一个单一的工作流程中。V-JEPA 2能够实现机器人在陌生环境中的零样本规划（zero-shot planning），使机器人能够在不熟悉的环境中规划并执行任务。Meta AI 最新发布的世界模型V-JEPA 2[2] 具有在视觉理解和预测方面的顶尖性能。从演示看效果非常的强啊，不过开源是不可能开源的，应该只可以在即梦、豆包上用了。目标是为其 AI 模型提供训练数据。

2025-06-12 16:17:52 439

原创看来小红书这次是认真在搞大模型了，开源 dots.llm1 MoE 大模型

Eleven Labs 官方[1] 宣布推出 Eleven v3（alpha 版本），这个语音模型支持 70 多种语言，具备多说话人对话功能，还能通过情感音频标签实现更自然的语音表达。dots.llm1[4] 是小红书开源的最新 MoE 大语言模型，总参数达 143B ，激活参数 14B ，提供 base 和 inst 两个版本。从官方公布的 MMLU-Pro 评分来看，表现相当不错 - 虽然比不上 DeepSeek-V3，但居然能压过 Qwen3-235B-A22B 一头。

2025-06-10 09:54:24 274

原创 ComfyUI 子工作流功能：一次编辑全局更新

该方法以取代传统的基于文本坐标预测的方式，为 GUI 代理（GUI agents）提供了更稳定可靠的定位解决方案。目前模型已基于 Apache 2.0 协议在 Hugging Face 和 ModelScope 开源，技术报告和代码也在 GitHub 同步公开，完整技术细节可查阅官方博客[4]。需要注意的是，Speak 功能目前仅对 Pro 和 Ultimate 订阅用户开放，佬们可以在官方推文查看完整功能介绍[7]。Veo 3 是目前最好的视频生成模型，若你因为谷歌锁 ip 还没体验过，值得一试。

2025-06-06 17:12:47 325

原创一键重塑视频风格与内容

Cursor 1.0 全面开放了 Background Agent 让所有用户都能使用远程编程助手，新增的 BugBot 可自动审查 GitHub PR 并快速修复问题，Jupyter Notebook 现已支持通过 Agent 直接编辑多代码单元格，实验性的记忆功能能保存对话上下文供后续参考，同时简化了 MCP 服务器的一键安装并支持 OAuth 认证，聊天窗口现在能直接渲染图表和表格，全新的仪表盘还提供了更详细的用量统计分析。该功能能够智能重塑视频中的风格设定、角色形象和场景布局。

2025-06-05 11:33:22 227

原创 Chain-of-Zoom ：64 倍超分辨率在线体验

Fal 推出了基于FLUX-1 Kontext 开发的 AI 图像编辑模板[3]，包含老照片修复、背景替换、风格转换、水印去除等实用功能，能够快速实现多种专业效果。Replicate 最新发布的博文[4]展示了 FLUX.1 Kontext 的强大功能 - 它让原本需要复杂 ComfyUI 工作流才能完成的任务变得轻而易举。官方还贴心地发布了对应的 flux-kontext-apps[5] 示例库，佬们可以亲自上手体验。从换发型、生成职业照，到老照片修复、比例调整和水印去除，Kontext 都能轻松搞定。

2025-06-03 18:14:07 369

原创 OmniConsistency：GPT-4O 级的人物风格迁移模型

Rork[8] 可以直接生成基于 React Native + Expo 的 App（支持Android 和 iOS），并且支持在线编译，并通过 Expo Go 立即在手机上进行测试。腾讯正式开源 HunyuanVideo-Avatar[4] 数字人生成系统，仅需输入音频文件和角色图片，就能自动生成具有自然肢体动作和表情的数字人视频。目前安卓版已发布（代码完全开源，佬们可以直接在 release 下载编译好的 apk[7]），iOS 版本也即将推出。佬们可以直接访问官方[5]在线体验。

2025-05-29 10:55:45 379

原创一键生成高转化视频，小白轻松上手

MagicPath[3] 是一个基于 AI 的无限画布设计工具，采用 vibe coding 理念，其设计本身就是可执行代码，只不过是无限画布形式。Anthropic[2] 在其官方 APP 上推出了 Claude 语音模式的测试版，用户现在可以直接通过语音与 Claude 进行英文对话。这个工具可以让用户无需编写代码就能快速创建各种类型的页面和应用，包括但不限于：网站页面、实用工具、小游戏和营销活动页面等。目前还在公测中，初始会赠送 100 次对话额度，之后每天还送 10 次免费额度。

2025-05-28 11:24:41 243

原创免费 3D 风格头像生成器

传统多模态大模型本质是视觉输入然后使用文本推理，而 Visual Planning[3] 直接通过图像序列进行推理，不依赖于文本。Pixel-Reasoner[5] 是一个基于 Qwen2 的开源视觉语言模型，在像素级视觉理解和推理能力上实现了显著突破。佬们可以来围观学习，这些作品大多采用 React + canvas 实现，你不仅能查看完整代码，还能直接在线编辑修改！MMaDA[1] 是一款开源的多模态扩散模型，同时具有文字推理、图片理解、文字生成图片的能力。

2025-05-26 17:57:36 413

原创 Mistral AI 发布高精度 Document AI：支持公式手写多语言解析

昆仑万维推出的天工（Skywork）[5]超级智能体基于先进的 AI Agent 架构和 Deep Research 技术，能够一站式生成多种内容格式：文档、PPT、表格、网页、播客以及音视频等多模态内容。DMind-1[3] 是专为 Web3 领域任务（如区块链、DeFi、智能合约开发等）优化的专用大模型。官方号称该产品能够以 99% 以上的准确率提取复杂文本内容，包括数学公式、手写笔记、表格数据和图像信息，并支持全球多种语言处理。官方还提供了国际版[6]，佬们可以实际体验对比效果。

2025-05-23 10:06:44 285

原创 Head AI：全球首个 AI 市场营销专家

Head AI[1] 是全球首位人工智能营销专家，其官网号称在过去一个月内已为超过 50,000 个品牌提供服务，覆盖电商、科技、游戏和 AI 等多个领域，业务范围触及全球 200 多个国家和地区。通过 24/7 不间断学习和优化，已帮助客户创造了超过 1 亿美元的收入，并将投资回报率（ROI）提升了惊人的 25 倍。字节跳动开源的 BAGEL[2] 是一个统一多模态模型，采用原生多模态架构，功能对标 GPT-4o 和 Gemini 2.0。支持包括聊天、生成、编辑、风格转绘、组合和思考。

2025-05-22 10:51:40 507

原创谷歌 I/O 2025 开发者大会内容总结

Gemini 2.5 模型更新Gemini 2.5：Google 的最新 AI 模型系列，具有更强的智能和推理能力。Deep Think：为 Gemini 2.5 Pro 引入的实验性增强推理模式，能够处理更复杂的任务。模型性能提升：通过改进训练方法和架构优化，Gemini 2.5 在语言理解、生成和多模态任务中表现出色。安全性增强：发布了关于 Gemini 2.5 安全保障的白皮书，强调其在防止滥用和保护用户隐私方面的改进。Gemini 应用更新Gemini 应用。

2025-05-21 11:04:56 1068

原创 Insert Anything：开源图片无缝插入编辑框架

HeyGen 发布了 Avatar IV 数字人模型，只需一张照片、一段脚本和语音，用户即可快速生成高度逼真的数字人视频。新模型采用“扩散式音频驱动表情引擎”，能根据语音的节奏、语调和情感，合成自然的面部表情和微动作，支持侧脸图像、多角度变化及唱歌节奏同步。Insert Anything[1] 是一个开源的图片编辑框架，能够将参考图中的人物、物体和服装等元素无缝插入到目标场景中。该技术能够精准地将参考视频中的动作迁移到目标角色上，实现跨类别动作克隆，包括真人、动漫角色和动物之间的动作迁移。

2025-05-08 10:10:22 292

原创 AI 线稿上色，支持颜色提示与多角色参考

Suno[9] 正式发布 v4.5 版本更新，新版本支持更多音乐流派，有更好的情感语音合成，能够呈现更细腻的人声表现力。阿里巴巴达摩院最新推出的 3DV-TON[6] 视频虚拟试穿模型，只需输入模特视频和服装照片，就能实现逼真的虚拟试穿效果。MiMo-7B[5] 是小米最新开源的小型系列模型，包含三个版本：基座模型、SFT 微调模型和 RL 强化学习模型。KeySync[3] 是一个开源的嘴型同步 AI 模型，能够生成高清的精准嘴型同步视频。这里还有一个官方的在线演示[2]，不过似乎已经坏了。

2025-05-06 11:54:25 652

原创小模型吊打大模型，MoE 架构效率惊人

阿里通义 Qwen3 系列大模型[1]正式推出，本次开源了 2 个 MoE 模型和 6 个密集模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中表现出色，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型不相上下。，官方号称世界上最快的扩散语言模型，在 A100 GPU 上可达到 2,800 tokens/秒（约DeepSeek 7B 的 30倍），拥有 131,072 tokens上下文窗口，可以处理非常长的文本。

2025-04-29 11:22:00 328

原创 FramePackLoop：开源无缝循环视频生成工具

TNG Technology Consulting 最新开源的 DeepSeek-R1T-Chimera[2] LLM，巧妙融合了 DeepSeek R1 的推理能力和 DeepSeek V3-0324 的高效 token 效率。FramePackLoop[1]是一个基于 FramePack 的开源工具，专门用于生成无缝循环视频。这下可以轻松搞定循环背景、短视频素材各种动态图标了。

2025-04-28 09:56:32 209

原创 LemonAI 推出 Slice Live：照片秒变实时数字人

百度 Create 2025 AI 开发者大会[1]于 2025 年 4 月 25 日在武汉举行，重磅发布了多项 AI 相关内容：文心大模型 4.5 Turbo 和 X1 Turbo[2]：性能对标 DeepSeek V3 & R1，价格更便宜高说服力数字人[3]通用智能体「心响[4]」内容操作系统「沧舟 OS」全面拥抱 MCP 生态[5]

2025-04-27 17:22:28 663

原创阿里开源模块化数字人对话，最近有想做实时数字人的可以看看了

LiveCC[6] 是基于 Qwen2-VL-7B 开发的实时视频理解大模型，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。Phantom[3] 是字节跳动开源的一款视频角色一致性生成模型，能够根据参考图像生成保持角色一致性的视频内容，并支持多角色保持。最近有想做实时数字人的可以看看了，用了非常多的开源项目，不过效果还有提升空间，表情略显呆滞，口型同步也需要进一步优化。特别适合需要即时反馈的场景，比如体育赛事直播时自动生成战术分析，或是游戏直播中实时解说。

2025-04-25 11:14:32 283

原创 OpenAI 发布 GPT Image API：支持文生图/图生图/局部重绘/透明背景

模型集成了文生图、通用控制（支持线条、姿势、深度等多种 ControlNet）和遮罩修图等功能。腾讯混元 3D[3] v2.5 版本正式发布，模型总参数量从 1B 大幅提升至 10B，有效几何分辨率达到 1024，新增支持高清纹理和凹凸贴图功能。不过这个版本暂未开源。不过要注意的是，这个接口必须通过OpenAI 的 API Organization 认证才能访问。佬们可以前往官网体验，每天有 20 次免费使用机会，也可以通过腾讯云 API 接入服务。使用 AI 制作的 Bad Apple，佬们可以看看。

2025-04-24 10:39:07 432

空空如也

空空如也