算家计算-CSDN博客

原创 5 秒预览物理世界，2 行代码启动生成——ComfyUI-Cosmos-Predict2 本地部署教程，重塑机器人训练范式！

Cosmos-Predict2 是（WFM）物理 AI 生态系统的一个关键分支，专门通过高级世界建模进行未来状态预测。它提供两项强大的功能：用于从文本描述创建高质量图像的文本到图像生成，以及用于从视频输入生成视觉模拟的视频到世界生成。我们在下图中可视化了 Cosmos-Predict2 的架构。

2025-07-03 18:00:56 544

原创智谱开源多模态推理新王者！9B参数挑战72B巨头

小模型的大智慧，正在重构全球AI竞争规则。

2025-07-03 17:41:17 386

原创 “开源双轨架构+40亿参数扩散Transformer——ComfyUI-OmniGen2本地部署教程：重塑多模态生成的效率边界！

是由北京智源研究院最新推出的一个强大、高效的开源多模态生成模型。与 OmniGen v1 不同，OmniGen2 具有两种不同的文本和图像模态解码路径，利用非共享参数和解耦的图像分词器。

2025-07-02 18:06:47 526

原创 AI如何驱动小米YU7的“强大产品力”？从Thor芯片到场景预判引擎

小米YU7开启预定3分钟订单破20万，1小时逼近29万，引爆全球车市。现象级热销背后，是其AI技术对汽车产品力的系统性重构。

2025-07-02 17:59:23 340

原创图像编辑新变革！ComfyUI-Kontext-fp8本地部署教程，120B参数对标闭源巨头

是一个强大的、模块化的界面与后端项目。该用户界面将允许用户使用基于图形/节点/流程图的界面设计和执行高级稳定的扩散管道。FLUX.1 Kontext 是 Black Forest Labs 最新推出的突破性多模态图像编辑模型，支持文本和图像同步输入，智能理解图像上下文并执行精确编辑。其开发版本为开源的 120 亿参数扩散 transformer 模型，具有出色的上下文理解和字符一致性维护能力，确保角色特征、构图布局等关键要素即使经过多次迭代编辑也能保持稳定。

2025-07-01 18:25:17 611

原创扎克伯格成立华人主导“超级智能实验室”！AI人才争夺战迎来大洗牌

清华北大浙大中科大校友齐聚，硅谷AI人才争夺战迎来历史性洗牌”。

2025-07-01 18:06:53 393

原创 AI初学者如何对大模型进行微调？——零基础保姆级实战指南

→ 马普所：训练速度↑10倍，内存消耗降为1/3（适配SD3.5扩散模型）→ 人大团队：AudioCaps数据集BLEU得分↑12.7%数据生成技巧：用GPT-4扩增50条种子数据到200条。上海交大2025新技术：数学推理准确率↑15%：Qwen2-7B实测显存降低70%观察是否符合system角色设定。：RTX 3090可微调30B模型。，数学推理效果媲美全参数训练。

2025-06-30 20:04:20 246

原创 Labubu丑萌征服全球背后：AI赋能年轻人“为情绪买单”新经济

AI+潮玩，会产生下一个“Labubu”吗？

2025-06-30 19:43:45 391

原创 RAGFlow 从入门到实践：开发者快速上手指南

RAGFlow 是一个基于对文档深入理解的开源 RAG（检索增强生成）引擎。当与 LLM 集成时，它能够提供真实的问答功能，并以来自各种复杂格式数据的有根据的引用为后盾。接下来将介绍RAGFlow快速上手指南，帮助大家更快入门该引擎。

2025-06-27 15:21:12 818

原创图像编辑革命！FLUX.1 Kontext [dev]震撼开源：120B参数对标闭源巨头GPT-4o！

今天凌晨，一个国产AI模型的开源，让AI图像编辑领域迎来里程碑时刻。

2025-06-27 14:16:42 188

原创 Dify v1.4.3保姆级使用指南！低代码构建AI Agent全流程

智能助手（Agent Assistant），利用大语言模型的推理能力，能够自主对复杂的人类任务进行目标规划、任务拆解、工具调用、过程迭代，并在没有人类干预的情况下完成任务。

2025-06-26 18:02:58 1373

原创技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？

昨天，在北京首映礼的暗场中，一段黏土风格的荒诞喜剧画面投映在银幕上：一根「宇宙肥肠在太空中漂浮，讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》全球首部AI单元剧集。这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表情和动作，创作人员如何借助可灵AI，实现流畅的影视效果呢？

2025-06-26 17:35:40 415

原创开源代码修复新标杆——月之暗面最新开源编程模型Kimi-Dev-72B本地部署教程，自博弈修复 Bug

Kimi-Dev-72B由月之暗面（Moonshot AI）最新开源的AI编程模型，专为软件工程任务设计，并，超越 DeepSeek-R1 等模型，成为当前。

2025-06-25 19:36:44 1244 2

原创 AI医疗技术新突破！中国发布全球首个胃癌平扫CT识别AI模型，无创CT提前半年锁定病灶

中国医疗AI领跑全球！浙肿与阿里联合研发出全球首个基于平扫CT的胃癌影像筛查模型，发表于《自然·医学》，凭借创新技术改写传统筛查格局，惠及亿万民众。

2025-06-25 19:16:39 529

原创技术伦理之争：OpenAI陷抄袭风波，法院强制下架宣传视频

初创公司IYO控诉OpenAI窃取其智能耳塞技术专利，一场关乎巨头伦理与初创生存的天价诉讼，正撼动AI硬件格局。

2025-06-24 19:55:52 583

原创空间智能觉醒！蚂蚁ViLaSR-7B突破人类思维屏障，让大模型首次具备人类空间思维能力！

李飞飞、谢赛宁团队去年末发布的VSI-Bench基准（涵盖288个真实场景视频、5000+问答对）首次量化了AI的空间认知缺陷：在物体相对方向、距离估计等任务中，15个主流MLLM的**错误率高达71%源于空间推理短板，而非视觉识别或语言理解。随着“绘图推理”范式与VSI-Bench等评估工具的双轮驱动，AI终于开始用人类的视角丈量世界——从识别物体到理解空间，这场感知革命才刚刚开始。这种边看边画、边画边想的交互模式，模拟了人类解决空间问题时用草图辅助思考的本能行为，显著提升了时空信息的保留效率。

2025-06-23 20:14:32 373

原创特斯拉纯视觉Robotaxi突袭奥斯汀：9年磨剑，首战公共道路

当方向盘后的控制权逐渐交还给算法，我们正在见证的不仅是技术迭代，更是文明形态的跃迁。在这场没有硝烟的战争中，马斯克用十年时间画下的"饼"，正在变成改变世界的现实图景。而更深远的影响在于，若自动驾驶成为未来主要出行方式之一，一个覆盖出行、能源、娱乐的闭环生态可能将彻底改变城市交通格局，并重塑出行市场的经济模型。在自动驾驶技术屡遭寒冬的行业里，特斯拉用一场近乎"史诗级长跑"的坚持，将无人驾驶出租车从科幻概念推向现实，更将。在马斯克的蓝图中，Robotaxi不是简单的移动工具，而是移动生活空间的延伸。

2025-06-23 18:48:16 387

原创开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！

MiniMax-M1 型号可以在配备 8 个 H800 或 8 个 H20 GPU 的单个服务器上高效运行。在硬件配置方面，配备 8 个 H800 GPU 的服务器可以处理多达 200 万个令牌的上下文输入，而配备 8 个 H20 GPU 的服务器可以支持高达 500 万个令牌的超长上下文处理能力。，凭借其百万级上下文支持、超高效计算性能和突破性成本表现，成为大模型领域的新标杆。为了保证部署环境的一致性和稳定性，我们建议使用 Docker 进行部署。💡 如果您使用的是其他环境配置，请参阅。

2025-06-20 17:51:18 773

原创 AI Agent落地桌面！Manus Windows版正式推出，免码安装：代码/报告一键生成

曾需万元邀请码的Manus AI，其Windows桌面应用正式开放，免码畅享。

2025-06-20 13:01:11 250

原创 Dify 推出全新版本！Dify-v1.4.3本地部署教程：开发效率飙升，快速打造 AI 应用！

是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈，包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排，并同时提供了一套易用的界面和 API。

2025-06-19 18:51:09 1072 2

原创国产视频大模型霸榜全球！海螺02特效炸裂，好莱坞级大片10秒生成

一次生成，无需剪辑，千元成本产出1.7万条高清视频。

2025-06-19 18:41:04 725

原创一文看懂AI算力类型，开启你的AI学习之旅！

在人工智能的世界里，算力，看似无形，却拥有着改变一切的强大力量。对于刚踏入AI领域的初学者来说，理解算力如何支撑AI训练等过程，以及不同类型算力的区别，是开启AI学习大门的关键一步。简单来说，算力就是计算机进行数据处理和运算的能力。在AI训练中，我们会给模型输入大量的数据，就像给一个超级“学生”提供海量的学习资料。而这个“学生”要从这些资料里总结出规律，学会如何完成各种任务，比如图像识别、语言翻译等。这个学习过程，也就是训练，需要进行巨量的计算。

2025-06-18 17:41:36 558

原创谷歌性价比之王 Gemini 2.5 Flash-Lite发布：最快轻量版AI模型！

谷歌AI家族迎来最具性价比成员：不仅能实时生成操作系统界面，还是最快、成本最低的型号。

2025-06-18 17:07:15 492

原创开源新王诞生！MiniMax-M1正式发布，超强上下文能力剑指DeepSeek！

一百万token上下文窗口，八倍于DeepSeek R1的处理长度，训练成本仅53万美元——沉寂已久的AI六小虎之一MiniMax用开源新模型重新定义了性价比。

2025-06-17 16:25:17 442

原创 Qwen3-Embedding-Reranker本地部署教程：8B 参数登顶 MTEB 多语言榜首，100 + 语言跨模态检索无压力！

Qwen3-Embedding与Qwen3-Reranker是阿里巴巴通义实验室于今年6月开源的双模型系列，专为文本表征、检索与排序任务设计。基于Qwen3基础模型构建，二者通过协同工作显著提升语义理解与信息检索效率，在多语言场景和工业部署中表现卓越。基于 Qwen3 系列的密集基础模型，提供了各种大小（0.6B、4B 和 8B）的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。

2025-06-16 19:25:21 1037

原创扎克伯格花148亿买下AI“数据炼油厂”：28岁华裔天才少年加盟Meta

扎克伯格豪赌148亿：买下半个AI圈的“数据底牌”。

2025-06-16 19:08:44 355

原创告别复杂文档解析噩梦！MonkeyOCR 本地部署教程：支持公式/表格多元素结构化

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型，模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内容识别和逻辑排序，显著提升文档解析的准确性和效率。与传统方法相比，MonkeyOCR在处理复杂文档(如包含公式和表格的文档)时表现出色，平为性能提升5.1%，在公式和表格解析上分别提升15.0%和8.6%。同时，模型在多页文档处理速度上表现出色，达到每秒0.84页，远超其他同类工具。

2025-06-13 14:26:21 664

原创全球网络瘫痪！谷歌云宕机，海外AI巨头集体“翻车”

谷歌云宕机，全球互联网出现了大规模瘫痪。

2025-06-13 14:16:33 272

原创端侧推理新标杆——MiniCPM 4本地部署教程：5%稀疏度实现128K长文本7倍加速，低成本训练开销匹敌Qwen3-8B

MiniCPM 4 是一个极致高效的端侧大模型，从模型架构、学习算法、训练数据与推理系统四个层面进行了高效优化，实现了极致的效率提升。高效模型架构：InfLLM v2 -- 可训练的稀疏注意力机制：采用可训练的稀疏注意力机制架构，在 128K 长文本处理中，每个词元仅需与不足 5% 的词元进行相关性计算，显著降低长文本的计算开销高效学习算法：模型风洞 2.0 -- 高效 Predictable Scaling：引入下游任务的 Scaling 预测方法，实现更精准的模型训练配置搜索。

2025-06-12 17:35:25 1224

原创 Meta开源V-JEPA 2：杨立昆颠覆生成式AI，世界模型性能碾压英伟达30倍

一场关于AI如何理解世界的路线之争，终于在今日迎来关键转折点。

2025-06-12 17:00:26 898

原创 RAGFlow全新升级！RAGFlow v0.19.0 本地部署教程：开源RAG平台迈向智能新纪元！

5月26日，开源RAG（Retrieval-Augmented Generation）流程管理平台RAGFlow正式发布v0.19.0版本，以跨语言搜索、Agent代码组件、图像直显功能为核心，带来了一场智能交互领域的革新。这款面向AI知识检索与对话管理的平台，凭借其多语言、多模态、多引擎集成的特性，正在为企业构建高效智能问答及知识服务系统提供全新可能。

2025-06-11 17:47:31 1284 2

原创 ChatGPT革命升级！o3-pro模型重磅发布，奥特曼亲述“温和奇点”时代来临

ChatGPT进化：o3-pro重塑AI生产力，奥特曼宣告“温和奇点”正悄然开启新纪元。

2025-06-11 17:14:18 699

原创 DeepSeek-R1-0528-Qwen3-8B 本地部署教程：DeepSeek 开源高质量推理链，实力媲美巨头

前不久，DeepSeek R1 模型进行了一个小版本升级，当前版本为 DeepSeek-R1-0528。是由中国 AI 实验室 DeepSeek 于 2025 年 5 月底发布的一款轻量级开源模型，它基于 Qwen3-8B Base 模型，通过蒸馏微调而成。该思维链对于推理模型的学术研究以及专注于小规模模型的工业开发具有重要意义。

2025-06-10 17:40:35 1511

原创 “液态玻璃”难解苹果AI焦虑：WWDC25背后的信任危机

WWDC2025液态玻璃折射出炫目光效，却无法照亮苹果在AI赛道上的模糊身影。

2025-06-10 17:28:10 719

原创字节开源代码模型——Seed-Coder 本地部署教程，模型自驱动数据筛选，让每行代码都精准落位！

Seed-Coder 由字节跳动于 2025 年 5 月开源，是一款专注于代码生成、补全与推理的（基于 Llama 3 架构），支持，包含三个变体，以为核心创新，显著减少人工干预，提升代码生成质量与效率。🌟 亮点以模型为中心： Seed-Coder 主要利用 LLM 而不是手工制作的规则来过滤代码数据，从而最大限度地减少预训练数据构建中的手动工作。透明：我们公开分享以模型为中心的数据管道的详细见解，包括管理 GitHub 数据、提交数据和代码相关的网络数据的方法。

2025-06-09 17:53:07 1002

原创 AI高考大乱斗！六大顶尖模型挑战高考数学题，结论却引发争议

当6大模型共同挑战高考数学新一卷：豆包和元宝并列第一，OpenAI o3垫底，然而，这样的结论却引发了争议。

2025-06-09 17:37:56 358

原创 6GB显存玩转SD微调！LoRA-scripts本地部署教程，一键炼出专属AI画师

LoRA-scripts（又名 SD-Trainer），是一个专为设计的开源工具集主要应用于Stable Diffusion等AI绘图模型的微调，帮助用户高效创建定制化风格、角色或概念的轻量级模型。目前已经包含FLUX模型的lora训练。

2025-06-06 18:52:42 912

原创拿下所有榜单第一！「月更狂魔」谷歌，如何凭借算力帝国强势炸场？

全球AI竞技场硝烟弥漫，谷歌近乎恐怖的迭代速度，背后是强大的算力帝国。

2025-06-06 18:42:42 534

原创碾压 Qwen2.5-VL，图像生成媲美 SD3！字节跳动开源 BAGEL本地部署教程

BAGEL是一个开源的多模态基础模型，具有 70 亿个激活参数（总共 140 亿个），并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs 如 Qwen2.5-VL 和 InternVL-2.5，并且提供了与强大的专业生成器如 SD3 竞争的文本到图像质量。此外，BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是，它扩展到了自由形式的视觉操作、多视图合成和世界导航，这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

2025-06-05 19:17:59 1091

原创中国AI全面突围！互联网女皇340页终极报告揭示全球AI新秩序

340页重磅报告勾勒出一幅激烈变革的AI版图，中国力量正以前所未有的速度改写硅谷主导的游戏规则。

2025-06-05 18:47:37 563

空空如也

空空如也