百度Geek说-CSDN博客

原创 AI在实际生成环境中的提效实践

本文作者在结合百度国际化广告架构团队在实践AICoding的过程中，沉淀的一套全流程AI提效的全流程方案。

2025-08-07 14:30:20 657

原创播放器音频后处理实践（一）

在现代播放器架构中，音频后处理已不仅是锦上添花的功能，而是构建差异化听觉体验的关键组件。尤其在多样化的播放场景（手机外放、耳机、电视音响等）下，通过定制化的音效增强手段，有效提升听感表现已成为基础能力之一。

2025-08-05 11:05:40 857

原创直击WAIC | 百度袁佛玉：加速具身智能技术及产品研发，助力场景应用多样化落地

同期，由国家地方共建人形机器人创新中心（以下简称“国地中心”）与中国电子学会联合承办，百度智能云、中国联通上海分公司联合协办的“2025人形机器人与具身智能创新发展论坛”成功召开，多位院士及国际专家出席交流，百度集团副总裁袁佛玉受邀出席并发表演讲。在具身数据集建设方面，针对行业面临的数据稀缺难题，百度智能云将自身在自动驾驶和互联网等领域沉淀的专业化、规模化的多类型数据采集和标注能力迁移至具身智能领域，全力支持包括国地中心在内的多家企业的大规模具身数据采标工作，为具身模型的研究工作提供燃料。

2025-07-31 11:35:39 697

原创世界人工智能大会，我们带来两个好消息！

飞桨（PaddlePaddle）集百度多年的深度学习核心训练、推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台，也是百度“芯片-框架-模型-应用”全栈技术布局的重要组成部分。依托强大的文心大模型，百度孵化了海量“超级有用”的 AI 应用，如：萝卜快跑、慧播星数字人、秒哒、百度文库、百度网盘、文心一言、文心快码等等。此外，还有百度智能云千帆大模型平台、百舸 AI 异构计算平台等硬核产品，也将一同亮相 WAIC 百度展区——

2025-07-29 09:53:28 499

原创首家！AI算力最高评级！

近日，基于“百度百舸GPU云平台+昆仑芯P800”构建的国产万卡集群，以卓越表现，率先成为首家通过中国信息通信研究院《面向大规模智算服务集群的稳定运行能力要求》测评的国产万卡级别集群，且在基础设施、集群调度、模型训练保障等核心测评维度上，斩获最高等级“五星级”。这不仅是对百度智能云当前技术实力的权威认可，更标志着国产万卡集群在稳定性与成熟度上达到了全新高度，为产业智能化提供了坚实可靠的算力底座。

2025-07-24 10:56:06 993

原创首发！百度百科全系能力上线千帆，权威知识增强Agent一键打造

核心能力一：权威背书，数据可信百度百科作为百度旗下最具公信力的权威知识品牌之一，至今已运营19年，平台积累2900万+词条，拥有近800万贡献用户，产生超2.7亿次编辑；累计合作权威机构超过500家，合作权威专家上千位，致力于为用户提供更具权威性、时效性、全面性的知识内容。核心能力二：全维知识形态，满足多元场景文字+视频双引擎，除结构化词条内容外，独家集成秒懂百科短视频资源，轻松实现轻量化知识传递；支持百万级并发查询，响应速度毫秒级，适配实时问答、内容推荐等高并发需求。

2025-07-22 15:15:27 493

原创百度智能云携手香港大学，开启AI出海教育新征程

此次授课旨在帮助学生理解大模型技术的应用场景，并掌握实用的提示词工程和零代码智能体应用构建，启发创新思维，增强实践能力，为学生在AI领域的探索与发展筑牢基础。全球排名第11位的顶尖学府选择与百度智能云携手，这是百度智能云全球化战略中的重要布局。香港大学作为汇聚全球优质生源的国际顶尖学府，合作将助力培育具备国际视野的AI人才，为百度智能云在全球AI领域的持续深耕奠定坚实的人才基础。未来，随着合作的深入，百度智能云将持续释放技术红利，与全球合作伙伴共同构建开放、共赢的人工智能生态体系。

2025-07-17 17:47:06 409

原创在沈阳搞AI，嘎嘎好！

在沈阳市皇姑区的北边，一片极具科技感的大楼拔地而起。这是新建成的沈阳人工智能产业园，也是百度和沈阳“AI的结晶”。从23年冬天掘开冻土的第一铲，到88天完成主体封顶，再到如今盛大开园，沈阳人工智能产业园，仅用20个月就完成了从蓝图到现实的跨越。当天，辽宁省委副书记、省长王新伟在沈阳与百度创始人李彦宏一行座谈，共同出席沈阳人工智能产业园（一期）开园仪式。

2025-07-15 17:00:58 436

原创 PaddleOCR 3.1发布：文心助力30+语种文字识别精度提升30%+，关键能力支持MCP

为提升多语种场景下的文字识别能力，我们通过融合文心大模型的视觉和文本理解能力，实现了高效、高质量的训练数据获取，升级 PP-OCRv5在37种语言文字的识别能力，包括韩文、西班牙文、法文、葡萄牙文、德文、意大利文、俄罗斯文等。同时依托文心4.5多模态能力，实现了数据的自动高质量标注，有效解决了多语种数据稀缺和标注成本高的问题，进一步提升了模型在多语言、多场景下的识别能力。在全球化和信息化加速发展的背景下，文档翻译在现代社会中已成为一种不可或缺的需求，企业和个人需要高效、准确地翻译各类复杂文档。

2025-07-10 14:54:58 793

原创百度阮瑜：百度大模型应用赋能产业智变｜2025全球数字经济大会

7月3日，2025全球数字经济大会人工智能融合应用发展论坛在国家会议中心举办，论坛聚焦“AI应用落地”，以“大模型•深应用•强产业”为主题。百度副总裁阮瑜受邀出席论坛，并发表《产业发展新动能—百度大模型应用赋能产业智变》主题演讲，分享了对大模型应用趋势变化的洞察——大模型使用成本降低、企业AI采用率提升，大模型应用形态在加速演进、应用边界在不断拓展。

2025-07-08 15:09:34 882

原创搜索数据建设系列之数据架构重构

百度搜索数据建设以创新实践突破传统数仓挑战，依托宽表模型、计算引擎优化及图灵3.0模式，实现高效稳定低成本，赋能业务敏捷迭代。

2025-07-03 10:47:58 915

原创 Iceberg在图灵落地应用

文章主要介绍Iceberg在百度MEG图灵湖仓生态中的能力建设及业务场景的落地实践。

2025-06-30 16:00:00 690

转载文心快码发布AI IDE，智能体自动写代码，设计稿一键转代码，打造开发者个性化IDE

百度副总裁陈洋现场发布了文心快码独立 AI 原生开发环境工具——Comate AI IDE，是行业首个多模态、多智能体协同的 AI IDE。

2025-06-26 14:45:46 108

原创百度日志中台前端重构实践

从代码规范, 前端工程化, 性能优化等方面介绍一个前端老项目的深度重构的过程。

2025-06-24 10:41:51 980

原创图挖掘在反作弊场景的应用

文章主要介绍了百度反作弊业务中应用极大连通子图、标签传播、Fraudar、图神经网络算法各类图算法挖掘作弊团伙的实践经验。

2025-06-19 12:04:19 1100

原创百度垂搜数据管理系统弹性调度优化实践

百度垂直搜索系统将搜索核心能力赋能阿拉丁（百度搜索特型结果）、垂直领域搜索、应用内搜索等场景，支撑了数百个检索场景、百亿级内容数据的检索。随着接入业务数量和数据量不断增长，系统在海量数据管理与调度上遭遇新的挑战，通过垂搜数据管理系统弹性调度优化实践来满足业务增长需求。

2025-06-17 15:30:57 705

原创百度垂搜数据管理系统弹性调度优化实践

百度垂直搜索系统将搜索核心能力赋能阿拉丁（百度搜索特型结果）、垂直领域搜索、应用内搜索等场景，支撑了数百个检索场景、百亿级内容数据的检索。随着接入业务数量和数据量不断增长，系统在海量数据管理与调度上遭遇新的挑战，通过垂搜数据管理系统弹性调度优化实践来满足业务增长需求。

2025-06-17 15:28:20 809

原创百度沈抖：全栈自主可控，为应用而生

之所以需要大、小模型协作，是因为小模型可以快速从监控视频中抽好几百帧处理，做到实时的监测反馈，但它不能理解车辆复杂的连续运动，比如，堵车时，车辆走走停停，就会被小模型误判成“异常停车”。如果继续追问污染的原因，它会结合附近站点的多维度数据，和周边地区的火点情况，推理出污染的原因。我们在通用模型的基础之上，收集了大量的研报、财报及专业的书籍，对这些海量的金融数据进行清洗、挖掘，整理出数百亿tokens高质量金融领域语料，同时做了指令对齐、知识增强、训练、推理等一系列优化，打造千帆慧金金融知识增强大模型。

2025-06-12 16:49:52 1245

原创 BaikalDB 架构演进实录：打造融合向量化与 MPP 的 HTAP 查询引擎

BaikalDB通过架构创新打造了HTAP架构，期望一套系统支持线上OLTP/OLAP请求，其技术演进路径呈现『

2025-06-10 10:12:34 1134

原创 Redis 数据恢复的月光宝盒，闪回到任意指定时间

*AOF 文件大恢复速度慢。**AOF 会记录所有指令的操作，可以实现指定时间点的恢复，但数据量大存储成本高，导致恢复时间远超基于 RDB 的恢复方式。随后，系统依据原集群的分片规则和用户指定的时间点，精准定位对应的 RDB 文件与 AOF 文件，将这两类文件加载至 Redis 内存，完成整个数据恢复操作，使** Redis 集群状态精准还原至用户指定的时间节点。****AOF 提供增量的操作日志，****记录 RDB 基准时间点之后的所有写命令，实现命令级别的数据恢复能力。

2025-06-06 08:22:11 724

原创深入浅出DDD：从理论到落地的关键

DDD是一种围绕领域建模来解决复杂业务交付的设计思想。什么是复杂？如何理解复杂？复杂可能是现状业务就复杂，也可能是业务日渐演变成复杂。复杂来自规模在变，比如几个业务对象的逻辑不复杂，几十上百个业务对象就会变得错综复杂;复杂来自结构化不足，例如结构化的中国结比非结构化的意大利面更有序、易于大脑理解。此外，如何协同不同团队完成软件交付也是一种复杂。什么是领域建模？领域模型跟技术毫无关系，而是为了更有结构化的拆解和表达业务逻辑。业务逻辑来自现实世界里的具体场景，涉及可视画面、操作动作和流程。

2025-05-22 10:15:14 1017

原创 PD 分离推理的加速大招，百度智能云网络基础设施和通信组件的优化实践

为了适应 PD 分离式推理部署架构，百度智能云从物理网络层面的「4us 端到端低时延」HPN 集群建设，到网络流量层面的设备配置和管理，再到通信组件和算子层面的优化，显著提升了上层推理服务的整体性能。

2025-05-20 15:08:42 888

原创打破算力瓶颈！起底百度智能云高性能存储加速系统如何让昆仑芯3万卡集群火力全开

测试结果显示，20个RapidFS存储节点稳定提供了302 GiB/s吞吐，70个RapidFS存储节点稳定提供了1.03 TiB/s吞吐。为此，我们为RapidFS存储加速服务部署了数百台国产CPU服务器，集群设计总吞吐接近10 TiB/s，以满足3万卡昆仑芯集群大规模数据读写需求。同时，这也意味着在70个RapidFS存储节点提供加速的情况下，100个计算节点并发加载10 GiB的文件仅需1秒，让数据随叫随到。我们分别对20个存储节点和70个存储节点规模的RapidFS集群进行了性能测试。

2025-05-15 15:21:04 424

原创 Qwen3 系列全家桶，百度百舸一键部署

针对大模型 PD 分离式推理部署方案，百度百舸平台支持自适应 PD 任意配比、细粒度 PD 负载均衡、自适应最优混合并行策略、动态冗余专家编排等，降低 40% TPOT 和 95% 推理成本，实现了极致的推理加速优化。百度百舸·AI 异构计算平台，是面向大模型训推一体化的基础设施，提供领先的 AI 工程加速能力，从资源准备、模型开发、模型训练到模型部署，为 AI 工程全周期提供丰富特性和极致易用体验。登录百度百舸·AI 异构计算平台，在「**快速开始」**找到 Qwen3 系列模型。

2025-05-13 14:37:48 621

原创中国自动驾驶研发解决方案，第一！

在这样的趋势下，百度智能云快速完成迭代，将汽车云解决方案已经升级到了3.0版，为车企提供了强大的算力支撑、精准的算法适配、高质量仿真场景及车路协同等核心技术，针对端到端智能驾驶进行了重点的适配，有力推动了自动驾驶的量产落地。智能驾驶进入AI时代，智算基础设施与算法、数据三者协同发展，端到端智驾正成为业内共识，车企和供应商不断加码算力集群采购、新算法架构搭建、仿真测试等资本支出，头部客户算力花销和算力规模正朝着亿级、10EFlops级别演进。百度沈抖：智能基础设施，为应用而生。

2025-05-08 15:59:15 488

原创千亿级打点PV的成本治理实践

△总结与展望日志中台打点治理实践方案已经取得了一定的项目收益，协助用户优化了了打点体验，提升了打点质量，升级了业务性能，同时也助力了手百等业务的稳健、高质量发展，在未来日志中台会持续打造业界领先的打点治理方案，进一步优化用户体验，帮助用户精细化排查点位波动的原因，更为精准化的定位问题原因，精密化提升打点收益与产出，切切实实使每一次打点都取得超出预期的收益。同时进一步助力业务发展，降低手百每人每天上报的日志数目，在有限的打点资源内尽可能创造更高规模的收益。

2025-04-29 10:36:11 659

原创名列前茅！百度文心大模型4.5及X1在中国信通院“方升”大模型基准测试中表现优异

中国人工智能产业发展联盟（以下简称“AIIA”）紧密跟踪大模型和智能体的技术发展与行业应用动态，构建并发布了“方升”（FactTesting）大模型基准测试体系，自2024年以来已对国内外开源与闭源大模型开展了6轮能力监测，累计测试了200余个大模型，持续跟踪其技术演进与表现，为行业技术选型与能力评估提供了重要依据。**作为能力更全面的深度思考模型，文心大模型X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

2025-04-17 09:51:27 860

原创飞桨新一代框架3.0正式发布：加速大模型时代的技术创新与产业应用

在大模型时代，深度学习框架的重要性愈发凸显，成为推动人工智能技术发展的核心引擎。算法、算力、数据作为人工智能技术的三大要素，其相互作用与协同发展不断催生着新的突破。越来越多的实例证明，算法创新能够发挥出更为显著的威力。DeepMind 的 AlphaFold3通过动态扩散算法突破蛋白质结构预测精度，已成功应用于抗疟疾等药物分子设计；DeepSeek 通过算法创新，成功提升了 DeepSeek V3模型的性价比，大幅降低了训练成本。这些突破性进展表明，算法创新正在重构技术发展的成本曲线。然而，

2025-04-15 10:16:31 1475

原创一篇论文，看见百度广告推荐系统在大模型时代的革新

经过一系列提升和改进，生成式 AI 已经可以做到表达清晰、预测准确，并在百度的广告推荐系统中实现了应用。与很多领域一样，推荐系统正在向着需求个性化的方向快速发展，而在这个方向上，AI 提供的解决方案已经展现出了独特的优势。对于普通人来说，在各种 App 上，大模型驱动的推荐系统可以帮助我们获取更多有用的内容，让信息流更加聪明。对于科技公司而言，或许在几年之内，AI 驱动的业务就可以从目前的局部智能化进化到「需求预测 - 生产调度 - 仓储物流 - 营销交付」的全流程智能化阶段。

2025-04-08 10:26:09 1617

原创前沿多模态模型开发与应用实战3：DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

而前两期课程介绍的 Qwen2.5VL、Janus-Pro 以及 DeepSeek-VL第一代模型，则是经典的 Dense 类的多模态理解大模型，会对所有模型参数进行计算和更新。与其前身 DeepSeek-VL 相比，DeepSeek-VL2在视觉编码器和语言建模部分都有了显著的提升，这主要是因为 DeepSeek-VL2引入了两项重大改进：动态切片策略，以及采用多头隐变量注意力（Multi-head Latent Attention，MLA）机制的 DeepSeek-MoE 语言模型。

2025-04-03 11:01:32 1152

原创图灵数据洞察平台-TDF（Turing Data Finder）

TDF平台致力于打造全自动的、全流程的解决方案用于提升用增场景数据分析的深度，适配核心业务增长需求。整体架构如下：整体流程为数据开发工程师产出固定格式的ck明细日志后，用户在明细日志的基础上进行用户行为分析和用户分析，分析结果可保存至仪表盘。接下来从数据接入与管理、增长分析、仪表盘等方面对TDF功能进行详细的描述。

2025-03-25 11:00:42 848

原创百度百舸万卡集群的训练稳定性系统设计和实践

2012 年 ImageNet 竞赛中 AlexNet 的横空出世，开启了现代 AI 发展的新纪元。彼时我们不会想到，十年后支撑 AI 训练的 GPU 集群会从研究室里的几台服务器，发展成需要专门供电系统的万卡级计算矩阵。在这个算力爆发式增长的过程中，训练系统的稳定性管理正经历着从「简单运维」到「精密工程」的深刻变革。2022 年之前的 AI 训练，更像是手工作坊式的精雕细琢。大多数训练任务只需十几块 GPU，利用 PyTorch 或 TensorFlow 的数据并行功能就能轻松应对。

2025-03-18 10:14:54 656

原创 LLM增强语义嵌入的模型算法综述

本文开篇即对文本语义嵌入方法进行了系统性概述，剖析了当前主流算法模型的架构特征及其发展脉络与趋势。鉴于 LLM 的迅速崛起，文章进一步在多维视角下对比了 LLM 文本嵌入技术与传统语义嵌入方法之间的显著差异。传统的文本语义嵌入技术以其高效性、广泛应用性和强大的语义表示能力为众多任务提供了有力支持，在自然语言处理领域占据重要地位。然而，该技术也面临着数据依赖性、静态性以及计算资源消耗等瓶颈问题。相比之下，LLM 通过捕捉文本上下文信息、支持多语言处理及出色的生成能力，为提升文本嵌入质量带来了新视角。

2025-03-13 10:51:29 862

空空如也

空空如也