- 博客(22)
- 收藏
- 关注
原创 k8s交互桥梁:走进Client-Go
Client-Go通过分层抽象和高效缓存机制,为Kubernetes API交互提供了强大支撑。从类型化的Clientset到动态的DynamicClient,从实时监听的Informer到解耦处理的Workqueue,其设计既满足了开发便捷性,又保证了生产级性能。掌握Client-Go不仅是开发自定义控制器、Operator的基础,更是深入理解Kubernetes控制平面工作原理的关键。
2025-09-09 16:06:26
371
原创 Kata Container 部署与应用实践
v 5.19: 确认 guest kernel 版本-a:指定 guest kernel 架构-g nvidia: :构建支持Nvidia GPU的 guest kernel最终会在 kata-containers/packaging/kernel/kata-linux-5.19-114/arch/x86/boot/ 目录下生成 bzImage 文件。在整个流程中:需要特别注意版本问题,大多数报错均因版本不匹配而引起必须安装 go 最新版本才能安装 yq。
2025-09-08 11:46:36
599
原创 高性能分布式文件系统PoleFS是如何工作的
PoleFS是公司自主研发的一款面向云原生设计的高性能分布式文件系统。提供完全兼容POSIX标准的接口,通过自主研发的分布式缓存架构,深度融合NVMe高速存储介质,实现微秒级I/O延迟与百万级IOPS并发处理能力。同时引入低成本S3协议对象存储作为全域数据持久化载体,形成“热数据NVMe加速+冷数据S3沉降”的分层存储体系,实现性能与容量的双重弹性扩展。目前主要业务场景有AI 训练、大模型、容器平台等。
2025-09-02 11:40:01
564
原创 Apache Pulsar 性能极限测试
Apache Pulsar 是一款非常优秀的消息队列,其存算分离架构设计相比其他开源MQ具有很大的技术先进性。在部分数据库和中间件产品 Serverless 架构设计中,使用 Pulsar 用于服务解耦,比如 Milvus 使用 Pulsar 作为内部通信管道(尽管 Milvus 将在新版本中移除 Pulsar 依赖,猜测主要原因是在项目逐渐成熟后想降低运维复杂度的一个正常架构演进,但是带 Pulsar 的 Milvus 目前已迭代到 2.x 的版本,也足以说明 Pulsar 性能及可靠性)。
2025-08-29 11:46:13
603
原创 VPC私有域名解析DNS
VPC私有域名解析DNS为VPC内的实例提供了递归DNS解析的功能,可以应用于内网访问劫持、云服务资源管理、互访、切换等场景。VPC私有域名解析DNS作为虚拟私有云的 “神经中枢”,通过高效的域名解析能力,为私有网络内的资源通信、服务发现与安全访问提供了坚实支撑。无论是简化微服务架构的服务调用,还是保障混合云环境的跨域访问,亦或是提升敏感业务的通信安全性,VPC DNS 都发挥着不可替代的作用。
2025-08-28 11:22:56
681
原创 API协作云:API→MCP极速构建MCP服务
基于APICloud API生成可部署的MCP服务,供AI调用。通过APICloud,可生成 OPENAPI 3.0规范文档及MCP服务源码,进而上传至MCP市场生成可访问的MCP服务,也可部署在本地MCP服务器或第三方MCP服务平台供访问。步骤1:MCP Generator主页,点击API文档项目生成MCP按钮。或项目列表操作列生成MCP步骤2:选择API接口文档页面步骤3:选择后的API接口文档列表,可编辑、删除步骤4:生成MPC服务源码列表,可下载压缩MCP源码包,可修改API接口参数等。
2025-08-27 15:38:50
1081
原创 统一七层负载均衡在360的落地
当前统一七层负载均衡服务已经在公司三个地域全部上线,容器服务也适配完成。目前统一七层负载均衡仅支持了较为基础的功能,还有更多的功能扩展,如:SSL卸载优化、转发规则支持重定向、流量镜像、支持更多协议类型等,并逐步向智能化发展,从单纯的流量分发工具演变成智能调度中枢。
2025-08-25 17:30:39
583
原创 snat网关融合设计方案
所以这是一个好的思路。3.dpdk给我们提供的算法中,rule包含的数据是一个四字节的nexthop(uint32),换句话说它限定了我们的规则数据只有一个ipv4的地址,这个对于路由查找是足够了,因为路由entry的最终结果就是下一跳地址,而snat规则包含的信息不只是一个地址,还有端口号,优先级等信息,至少要8字节的指针才够。对,这是一个路由表,对于那些路由设备来说,它们也具有一个比较庞大的路由表,而且其中的路由表项每一个路由规则都是一个地址段对应了一个下一跳,跟我们需要的这个场景有相似之处。
2025-08-22 17:51:12
698
原创 多云网络实现方案
算力全网调度是云基础设施的核心目标之一,实现服务可在公有云(阿里\华为等)、IDC私有云、跨境等多场景运行(ECS\容器等)。算力全网调度的基础是实现算力互联,如:阿里云\华为云的VPC内计算实例网络互联,公有云\IDC私有云网络互联等等,而算力互联的核心便是多云网络。多云网络分为控制面、转发面。控制面屏蔽不同公有云的资源管理差异,转发面需要屏蔽各公有云的VPC网络实现差异,同时需要在公有云的VPC链路之上构建多云转发链路。
2025-08-21 11:23:16
899
原创 Kafka 集群容量评估指南
在 360 集团的大数据架构体系中,Apache Kafka 作为核心消息中间件已实现深度集成。经过长期生产环境的稳定性保障实践,我们沉淀了系统化的运维经验与方法论。本文将系统性地呈现这些实践经验,聚焦于 Kafka 集群容量评估的关键维度。软件本质是构建于硬件之上的服务抽象,其设计目标在于最大化硬件资源效能以满足业务需求。对于 Kafka 这类高吞吐分布式系统而言,要实现这一目标,首要任务是深入理解硬件性能边界。
2025-08-19 10:55:23
810
原创 CCN网关子网清理性能优化
基于上述v1版本优化云联网的转发性能得到了极大的提升,网卡利用率由优化前的20%提升到80%以上,但是提升性能的同时伴随着大量session的创建,在v1版本中sesion的清理工作实现包括session本身的老化处理,空连接的定时清理工作,删除子网或者vport信息时,遍历session表中的清理工作,当云联网中的配置发生变化(删除子网route或者是删除vport信息)时,需要查找到要删除的子网route或vport所关联的session。但是转发性能提高的同时也引入了一些新的问题。
2025-08-14 17:33:32
669
原创 虚拟机热迁移内存拷贝加速
通过将上面三个优化参数加入到程序中,优化效果:脏页生成 400MB/s 的 vm 由之前的“无法完成”优化到了 90s 迁移完成,800MB/s 的优化后 180s 迁移完成。
2025-08-13 14:29:52
286
原创 云舟观测:大模型语言LLM 应用观测功能全解
随着大语言模型(LLM)技术的飞速发展,对话机器人、RAG 系统、智能 Agent 等基于 LLM 的应用已成为企业数字化转型的核心驱动力。然而,这些应用在实际落地过程中,常面临链路复杂难追踪、性能波动难预判、成本消耗难控制、效果稳定性不足等多重挑战。为解决这些痛点,云舟观测产品推出 “LLM 应用观测” 功能,以全链路追踪为核心,为开发者和运维人员提供覆盖 LLM 应用全生命周期的观测能力,助力大模型应用稳定、高效、可信地落地。
2025-08-12 17:14:17
796
原创 云舟观测:基于Nginx日志实现WEB应用请求监控
在现代 Web 应用架构中,Nginx 作为高性能的 Web 服务器和反向代理服务器,被广泛应用于各类网站和应用程序。对 Nginx 的运行状态和访问日志进行监控分析,对于保障服务稳定、优化用户体验至关重要。prometheus-nginxlog-exporter 正是一款能够将 Nginx 访问日志转化为 Prometheus 可抓取的监控指标的工具,可帮助运维人员和开发人员快速获取关键信息。
2025-08-08 11:52:53
769
原创 Cx6硬件卸载方案设计与实现
基于 ConnectX-6 网卡,我们实现了按 Conn 粒度识别与卸载的大象流硬件加速机制。通过结合线上流量的带宽水位评估,成功将 OVS 的 CPU 使用从原先的 8 核压缩至 2 核,节省约 75% 的 CPU 资源,显著提升了系统的资源利用效率。此外,我们还完成了 VDPA 虚机热迁移支持、IP/Port 粒度HQoS 限速能力及硬件卸载抓包功能。由于篇幅限制,本文不再展开讨论。更多技术干货请关注360智汇云。
2025-08-07 16:38:20
391
原创 Rancher 统一管理多样化 Kubernetes 集群的实践
Rancher 是管理多集群非常理想的中控平台,建议统一接入,逐步替代原有混乱的集群管理方式;生产环境建议使用 RKE + Helm 高可用部署方式,确保系统稳定性;升级前务必做好用户和 token 的备份,防止兼容性问题带来访问故障;对于 containerd 运行时的集群,镜像拉取、tag 等操作需特别注意 namespace 和 image name 的匹配;建议建立统一的 kubeconfig 生成策略,不推荐用户手动创建 SA 绑定 Role 的方式连接集群。
2025-08-06 16:06:40
675
原创 重塑数据库迁移方式:自主可控的迁移体系构建
智汇云HULK云平台支持完善的数据库全自助迁移能力,通过一键扩容、无感切主、智能域名调度等产品功能,我们为业务提供稳定可靠的数据库底座支撑,确保每一次数据库迁移都在“业务无感知、资源最优配”的基础上安全完成。未来,HULK云平台将持续完善数据库迁移的能力矩阵,构建更智能、更弹性、更标准化的迁移通道。在多机房部署、资源调度优化、灾备演练等关键场景中,自主迁移将作为企业数据库运维体系的重要基石,保障业务连续性,释放基础架构弹性价值。360智汇云官网:https://zyun.360.cn。
2025-07-30 15:33:51
984
原创 AI记忆层开源项目Mem0 图记忆源码解析
Mem0 项目的核心目标是为 AI 助手和代理(Agents)赋予一个智能的、持久的记忆层。它旨在解决当前许多 AI 应用,特别是基于 LLM 的应用所面临的一个根本性问题:状态缺失(Statelessness)。传统的 AI 交互往往是孤立的,无法有效记忆之前的对话内容、用户偏好或已了解的事实。这导致了重复提问、缺乏个性化以及用户体验不连贯等问题。Mem0 通过提供一个专门的记忆组件,让 AI 系统能够跨会话、跨时间地学习和适应用户,从而实现更自然、更智能的交互。
2025-07-29 15:09:13
801
翻译 构建AI Agent的10条原则
总结了“做 AI 智能体” 的经验,总结了 10 个可落地的原则,从 “要不要用”、“怎么拆分”、“怎么协作” 到 “怎么省钱优化”,全流程指导避坑、高效开发~
2025-07-25 10:45:36
28
翻译 提示词优化工具-Lyra
从147次 ChatGPT 提示失败到逆转 AI 交互创造 Lyra 提示词优化工具 - Lyra 就像一个“超级翻译”,把你模糊的想法变成 AI 能精准理解的指令,核心在于让 AI 主动问对问题,从而生成更贴合需求的结果
2025-07-25 10:43:24
150
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人