- 博客(212)
- 资源 (7)
- 收藏
- 关注
原创 专栏导航:《数据中心网络与异构计算:从瓶颈突破到架构革命》
本文探讨数据中心架构的演进路径,从当前技术困境到未来数据中心即计算机的愿景。内容分为基础认知篇和技术深度解析系列:基础认知篇剖析数据中心面临的算力瓶颈与需求变革,介绍从网络卸载技术到RDMA革命的三次关键技术跃迁,最终展望CXL协议推动的资源池化与架构融合;技术深度解析系列将持续探讨具体实现方案。该系列展现了从优化网络性能到突破物理边界,实现全局资源调度的完整技术演进路线。
2025-10-01 22:34:31
1960
原创 FPGA时序分析与约束(0)——目录与传送门
关于时序分析和约束的学习似乎是学习FPGA的一道分水岭,似乎只有理解了时序约束才能算是真正入门了FPGA,对于FPGA从业者或者未来想要从事FPGA开发的工程师来说,时序约束可以说是一道躲不过去的坎,所以这个系列我们会详细介绍FPGA时序分析与约束的相关内容。
2023-12-09 13:38:18
6318
50
原创 FPGA原理与结构(0)——目录与传送门
FPGA的设计和软件设计不同,我们所设计的RTL代码最终还是要落实到硬件底层来进行实例化,因此理解硬件底层的内容是很有意义的。
2023-09-19 20:26:44
6383
55
原创 AMBA总线协议(0)——目录与传送门
本文是AMBA系类中AHB,APB总线协议的一个汇总,主要包括了各个文章链接,方便读者能快速定位。
2023-08-25 10:00:00
1282
24
原创 计算机内存管理技术演进:从物理寻址到异构统一内存
本文完整阐述了计算机内存管理技术的演进历程。从物理寻址开始,历经基址-界限寄存器实现进程隔离,分段机制支持逻辑保护与共享,分页管理消除外部碎片并实现虚拟内存,最终发展到异构统一内存,实现异构计算单元间的透明数据迁移。
2025-12-06 14:13:33
811
原创 走出聊天框:在这个 AI 时代,你可能只用了它 1% 的能力
本文揭示了AI聊天背后的技术逻辑:1. 大模型本质是无状态的"健忘症天才",依赖上下文窗口实现对话连贯性;2. API视角赋予用户"导演"权限,可通过系统提示词精准控制AI角色;3. 检索增强(RAG)技术让AI突破训练数据限制,实现"开卷考试";4. Token计费机制使语言具有经济价值;5. 温度参数可调节AI输出的稳定性和创造性;6. 智能体(Agent)技术将赋予AI行动能力。文章还分析了微软、OpenAI和谷歌的技术战略,指出理解这些底层
2025-12-06 14:05:11
539
原创 告别拖拽绘图:用代码高效生成图表,PlantUML 入门与核心语法详解
PlantUML是一款文本绘图工具,通过简洁的代码自动生成各类技术图表(时序图、架构图等)。其核心优势包括: 纯文本存储,支持Git版本控制 语法简单,绘制速度远超传统拖拽工具 自动维护图表风格统一 与开发流程深度集成 使用方式灵活:支持在线编辑器、IDE插件或本地部署。
2025-10-06 00:05:12
2398
原创 RDMA 技术解析(1):RDMA 技术三国志 ——IB、RoCE、iWARP 的选型博弈
摘要:专栏探讨数据中心网络与异构计算技术变革,聚焦RDMA协议的三种实现路径:InfiniBand(专为高性能设计)、RoCE(以太网改造方案)和iWARP(TCP/IP适配方案)。文章从架构差异、性能成本部署三维对比及选型建议展开分析,指出InfiniBand适合超算等极致性能场景,RoCEv2是平衡性能与成本的主流选择,iWARP则适用于特定兼容性需求。未来RDMA技术将呈现两极分化趋势,但核心价值始终是提升数据中心互连效率。
2025-10-06 00:04:40
1047
原创 InfiniBand 技术解析(8):应对流量风暴 ——IB 拥塞控制机制剖析
本文介绍了InfiniBand(IB)网络在高性能计算和AI训练场景中的精细化拥塞控制机制。通过"感知-反馈-调节"的闭环系统,IB主动调控流量而非被动丢包:交换机实时监控端口缓冲区水位并标记拥塞数据包,HCA硬件快速响应并动态调节发送速率,配合显式拥塞通知和基于信用的流控技术,实现多数据流的差异化调控。这种原生设计使IB网络在极端负载下仍能保持90%以上的吞吐量和微秒级延迟稳定性,相比传统以太网更适用于AI训练和大规模并行计算等高性能场景,体现了"以应用需求为核心"
2025-10-05 08:15:00
1646
原创 InfiniBand 技术解析(7):超越 Send/Recv——RDMA 操作详解与性能哲学
本文深入解析了RDMA(远程直接内存访问)技术的核心原理与三大操作模式。RDMA通过硬件级信任链实现远程内存直接访问,彻底解耦计算与通信:RDMA Write实现"无感知推送"式数据传输;RDMA Read支持"按需自取"的数据拉取;RDMA Atomic提供硬件级原子操作保障。这三种操作构成分布式系统高性能通信的基础,使AI训练、超算等场景突破传统通信瓶颈,实现分布式系统如单机般高效的目标。
2025-10-05 08:00:00
1476
原创 专栏导航:《效率跃迁 - 开发与学术工具指南》
【效率工具专栏简介】 本专栏聚焦现代开发与学术研究中的高效工具应用,旨在帮助开发者和学者实现生产力跃迁。内容分为三大主线: 1️⃣开发者工具箱:涵盖代码绘图、API文档(Swagger)、Docker环境、Git自动化等开发效率工具; 2️⃣学术加速器:包括文献管理(Zotero)、论文写作(LaTeX)、数据处理(Pandas)等科研利器; 3️⃣通用效率术:分享快捷键使用、文本扩展等通用技巧。
2025-10-04 00:16:50
935
原创 工具选择的困境与效率提升的底层逻辑 —— 聚焦技术场景的工具使用思考
【效率跃迁指南:如何用对工具提升技术生产力】专栏聚焦开发者面临的效率困境,揭示三大常见陷阱:多工具切换的碎片化消耗、功能过剩导致的错配、工具依赖型虚假忙碌。通过分析工具演进的三个阶段(功能驱动→集成驱动→逻辑适配),提出效率提升三大原则:1)减少认知转换成本,让工具逻辑贴合技术思维;2)实现技术流程与工具高耦合;3)优先选择可复用、可自动化的工具。
2025-10-04 00:14:49
977
原创 InfiniBand 技术解析(6):从比特到数据包 ——IB 网络模型全透视
本文深入解析了InfiniBand网络的六层模型架构及其高性能特性。文章从报文基础结构入手,详细阐述了InfiniBand的三段式核心结构和各类头部适用场景,介绍了三种内存交互模式。随后分层剖析了物理层的介质与编码方案、链路层的LID寻址机制、网络层的GID跨子网路由、传输层的可靠传输保障,以及高层API接口设计。通过RDMAWrite操作的全链路追踪,展示了数据从应用到物理层的完整传输过程。
2025-10-03 10:00:00
884
1
原创 InfiniBand 技术解析(5):通信的心脏 —— 深入剖析 Queue Pair 传输引擎
深入探讨了InfiniBand高性能的核心设计——队列对(QP)机制。文章对比传统TCP/IP网络的内核态切换、数据拷贝等性能瓶颈,详细解析QP通过双队列设计、硬件直驱、零拷贝和内核旁路等创新特性实现的高效通信流程。重点阐述了QP在RDMA操作中的关键作用,使远程内存直接访问成为可能,为AI训练等高性能计算场景提供重要支撑。该文揭示了InfiniBand打破传统网络性能桎梏的技术原理,为理解数据中心网络架构演进提供专业视
2025-10-03 08:00:00
669
原创 InfiniBand技术解析(4):智慧的调度者 —— 子网管理器与属性
子网管理器(SM)是InfiniBand网络的“智能调度中心”,通过“发现-配置-维护”三步曲实现拓扑发现、路径规划与故障自愈。属性(Attributes)则是网络的“身份与配置库”,详细记录设备、端口及通信端点的状态与能力。二者通过管理数据报(MAD)交互,构成IB网络即插即用、高可靠运维的核心基石,确保大规模集群高效稳定运行。
2025-10-02 15:38:23
1012
原创 InfiniBand技术解析(2):为什么它是高性能计算的 “超级血管”?
在大规模AI训练和超算场景中,传统TCP/IP网络面临CPU开销高、延迟不可控、吞吐量瓶颈三大短板,导致千卡GPU集群算力利用率低下。InfiniBand通过三大技术突破成为解决方案:1)RDMA技术实现零拷贝通信,绕过CPU直接内存访问;2)硬件级无损架构采用信用流量控制和无阻塞交换,实现微秒级稳定延迟;3)高带宽设计通过链路聚合和MPI硬件加速,使吞吐量接近理论极限。当前InfiniBand已支撑起AI大模型训练和科学计算,未来将持续向更低延迟、更高带
2025-10-02 00:02:11
868
原创 InfiniBand技术解析(3):解码 IB “黑话”—— 核心术语与架构概览
本文系统介绍了InfiniBand(IB)网络的核心概念体系,将其比作高性能计算的超级血管,主要内容包括:1)硬件组件(HCA智能网卡、TCA存储网关、无阻塞交换机和路由器);2)网络结构(子网管理单元、GUID设备标识符、GID全局地址);3)通信端点(QP专用通道、CQ完成通知、SRQ共享队列);4)寻址路由(LID本地导航、SL流量优先级);5)操作指令(Verb API)。这些术语共同构成了IB网络低延迟、高可靠的运行基础,为理解其工作机制提供了必备的
2025-10-02 00:01:29
1702
原创 InfiniBand技术解析(1):一场面向“瓶颈”的远征
《InfiniBand:重构数据中心互连的技术远征》摘要 20世纪末,计算与I/O的"速度裂谷"催生了InfiniBand技术。面对CPU性能飙升而I/O架构滞后的困境,康柏、IBM与英特尔两大阵营最终融合形成了统一标准。InfiniBand通过"通道式"架构、CPU卸载技术和"统一结构"理念,实现了硬件层面的革命性重构。虽然早期商业化受挫,但在高性能计算和AI大模型训练中找到了核心应用场景。这场技术远征不仅解决了计算瓶颈,更深远影响了后续RDMA
2025-10-01 14:26:47
921
原创 融合:迈向 “一台计算机” 的终极架构
摘要: RDMA技术虽实现了数据中心微秒级通信,但未能解决异构设备缓存不一致、资源孤岛等深层问题。CXL协议通过三大子协议(CXL.io、CXL.cache、CXL.mem)推动主机与存储形态重构:实现异构设备的硬件级缓存一致性、全局内存池化和存储资源动态调度,使数据中心从"物理连通"迈向"逻辑统一"。CXL与RDMA协同将数据中心转变为"一块超级PCB",让计算资源实现内存级协同,最终回归"无缝协同"的计算本质。这不仅提升了资
2025-10-01 10:15:00
1855
2
原创 范式革命:RDMA 如何让网络成为 “分布式内存总线”
摘要: RDMA技术通过内存访问范式革命,绕开远程CPU干预,实现设备间直接数据交互,显著降低延迟。其三大协议(InfiniBand、RoCE、iWARP)在性能、成本和兼容性上各有取舍:InfiniBand追求极致性能但成本高;RoCEv2兼容以太网但需精细配置;iWARP基于TCP,性能受限。RDMA虽解决了CPU瓶颈,但异构设备间的缓存一致性问题仍未解决,成为分布式计算向“单机化”演进的关键障碍。未来需结合CXL等一致性协议进一步突破。
2025-10-01 08:00:00
1081
原创 为 CPU 减负:数据中心网络卸载技术的演进
本文探讨了数据中心网络技术为CPU减负的演进历程。从软件层面的DPDK优化协议栈处理效率,到硬件层面的TOE和智能网卡/DPU实现协议卸载,技术发展使网络性能显著提升,CPU占用率从60%降至5%以下。然而,这些方案仍存在两大瓶颈:数据拷贝导致的延迟问题无法解决,远程CPU仍需参与通信控制面任务。文章指出,要突破这些限制,需要RDMA等更彻底的技术革新,实现无CPU干预的直接内存访问,开启数据中心网络的新范式。
2025-09-30 18:35:14
928
原创 数据中心的技术困境与需求侧的演进压力
数据中心作为数字世界的“算力底座”,经历了从Scale-Up(纵向扩展)到Scale-Out(横向扩展)的架构演进。传统Scale-Out网络虽支撑了互联网业务爆发,但面临AI、HPC等新业务对低延迟、高协同的严苛需求。随着节点间通信量指数增长,网络协议栈的软件开销成为性能瓶颈,导致算力利用率下降、训练周期延长。当前技术演进正从硬件卸载(DPDK、智能网卡)、内存直连(RDMA)向资源一体化(CXL)发展,以突破网络瓶颈,实现高效协同计算。
2025-09-30 00:06:34
750
原创 Crossbar结构的排队策略
文章摘要: Crossbar是一种全连接交换结构,广泛应用于网络设备。针对数据传输中的"交通堵塞"问题,文中分析了四种典型排队策略:输入排队(IQ)采用入口缓存但易产生队头阻塞;输出排队(OQ)实现零冲突但需要N倍加速比;联合排队(CIOQ)在输入输出端均设缓存,平衡效率与成本;交叉点排队(CICQ)在每个交汇点部署缓存,实现调度解耦但硬件开销较大。这些策略在缓存位置、调度复杂度与硬件成本之间形成不同权衡,其中CIOQ因兼顾性能与可实现性成为主流方案,而CICQ则更适合大规模可扩展场景。
2025-07-02 19:46:06
1309
原创 从零开始讲DDR(10)——AXI 接口MIG 使用(3)
本文中,我们将继续展开介绍boot_mode_gen,prbs_mode_gen,custom_mode_gen的原理。
2025-05-03 00:09:41
1176
2
原创 从零开始讲DDR(9)——AXI 接口MIG 使用(2)
在之前的文章中,我们介绍了官方DDR MIG AXI接口的例程的整体框架,在本文中,我们将着重介绍例程中关于数据产生,及驱动到AXI接口的相关逻辑实现。
2025-05-03 00:03:21
1371
1
原创 从零开始讲DDR(8)——AXI 接口MIG 使用(1)
我们简单拆解了MIG AXI接口中测试文件的整体框架,首先在sim_tb_top.sv文件中例化了DDR模型和example_top。在example_top中,又例化了MIG IP和一个流量产生器ddr4_v2_2_8_axi_tg_top。在ddr4_v2_2_8_axi_tg_top中的主要功能是分别例化了boot_mode_gen,prbs_mode_gen,custom_mode_gen和axi_opcode_gen。
2025-05-02 16:54:31
1381
原创 FPGA时序分析与约束(11)——时钟组
如果不进行正确的时钟组区分,时序工具(如Vivado)默认会检查所有时钟之间的路径。如果两个时钟实际是异步的(如来自不同晶振),但未声明为异步组,工具会强制分析它们的时序关系(例如建立时间/保持时间)。由于异步时钟的相位关系随机,这种分析毫无意义,且会生成大量虚假违例,干扰真正的时序问题定位。
2025-04-13 22:03:34
1871
2
原创 从零开始讲DDR(7)——modelsim独立仿真DDR4
本文主要内容为DDR4 MIG ip核仿真,modelsim独立仿真DDR4。在进行DDR仿真的时候,我们会面临一个以往常规仿真不存在的问题:DDR本身并不是一个我们通过RTL代码设计出来的部件,常规的模块或者IP仿真,都是基于RTL代码就能进行的,但是回顾一下我们DDR的开发流程,调用的IP核也只是MIG ip,其本质是一个DDRC+DDRPYH的组合,并不能模拟任何DDR本身的行为,因此,在进行仿真之前,我们首先要做的就是获取DDR的仿真模型。
2025-01-12 17:02:32
2814
原创 UltraScale系列底层结构(5)——时钟架构
在 7 系列 FPGA 中的区域时钟缓冲器被新的时钟缓冲器所取代,这些新时钟缓冲器具有更广泛的全局时钟分布能力,同时能够自动利用局部时钟缓冲器进行时钟的局部分配。字节通道时钟输入(DBC 和 QBC)引脚对是专用时钟输入,用于直接驱动位片(bit slices)中的源同步时钟,在 I/O bank 中工作。具体来说,在当前选择的时钟在 S0 和 S1 变化后从高电平转换到低电平时,输出保持低电平,直到另一个时钟(即待选择的时钟)从高电平转换到低电平。此时,新的时钟开始驱动输出。
2024-12-15 23:40:30
537
原创 ModelSim基本命令解析
ModelSim 是一个强大的硬件描述语言(HDL)仿真工具,支持 TCL 脚本 和命令行操作来控制设计的编译、仿真和调试。以下是 ModelSim 的一些基本命令,分为 设计库管理、编译、仿真控制、波形查看 和 调试 等类别。
2024-11-18 15:17:04
2614
2
原创 SystemVerilog学习——类的继承
通过继承,子类可以继承父类的属性(成员变量)和方法(成员函数),并且可以覆盖父类的方法,也可以新增自己的属性和方法。子类可以重载父类的方法,也可以覆盖父类的方法。子类会继承父类的所有公共和保护成员,并可以重写父类的方法,也可以添加自己的成员。:通过继承,子类可以实现不同的行为来覆盖父类的行为,这对于在仿真中实现不同类型的对象非常有用。:子类不能访问父类的私有成员,尽管它们可以在类内部定义和使用自己的私有成员。:子类自动继承父类的成员变量和方法,除非子类重写了这些方法或成员。:子类可以重写父类的方法,通过。
2024-11-15 23:40:30
1873
原创 SystemVerilog学习——构造函数new
构造函数,用于创建类的实例(即对象)。它在面向对象编程(OOP)中起着重要作用,负责实例化一个对象并进行初始化。构造函数,那么 SystemVerilog 会自动提供一个默认构造函数,这个默认构造函数会将类的所有成员变量初始化为默认值(如数字类型初始化为。这是因为类的对象是动态创建的,并不直接存储在栈上,而是存储在堆中。在 SystemVerilog 中,类的实例化(即对象创建)并不会自动调用。因此,为了确保类的对象正确地创建和初始化,必须显式调用。类的对象(即类的实例)需要显式调用。
2024-11-15 23:26:50
1898
原创 SystemVerilog学习——虚拟接口(Virtual Interface)
虚拟接口 是 SystemVerilog 中的一种强大特性,它允许类引用接口类型的变量,并在运行时绑定不同的接口实例。它解耦了类和接口之间的依赖,使得类能够通过接口定义与信号进行交互,而不关心接口的具体实现。在仿真和验证中,虚拟接口广泛用于动态绑定接口实例,增强了测试环境的灵活性和可重用性。
2024-11-13 20:41:35
2007
原创 SystemVerilog学习——mailbox
在 SystemVerilog 中,mailbox 是一种用于线程间通信的同步数据结构,它允许不同的进程(任务或线程)通过 put 和 get 操作传递数据。mailbox 特别适用于生产者-消费者模式,其中一个进程负责将数据放入 mailbox(通过 put),而另一个进程负责从中取出数据(通过 get)。这种机制使得在并行仿真中,可以方便地在多个任务或进程之间传递消息。
2024-11-13 16:27:17
1540
原创 UltraScale系列底层结构(3)——URAM概述
在UltraScale+™ 器件中,除了我们在常规熟悉的BRAM资源以外,还额外提供了URAM(UltraRAM)资源。UltraRAM 是一种单时钟同步操作的高密度存储器,每个 UltraRAM 块可存储 288 Kb 数据,配置为 4K x 72 位的存储单元,其容量是 Block RAM 的八倍。虽然 UltraRAM 内部使用单端口存储单元,但通过在一个时钟周期内顺序执行端口 A 和端口 B 的操作,实现了双端口功能。
2024-10-20 23:51:24
2474
原创 PCIe配置篇(2)——如何进行配置操作(二)
内存访问被映射到配置请求的地址范围内,生成一个配置请求,不再需要两步操作。这意味着,当CPU发起对PCIe配置空间的访问时,它只需执行一个内存读或写操作,而不需要先通过配置地址端口(如传统PCI机制中的0xCF8端口)指定目标地址,然后通过配置数据端口(如0xCFC端口)进行访问。在一个单 RC 的系统中,Host-Bridge 的次级总线号应该被固定为 0,也就是它的可读可写的次级总线号寄存器从一复位就被强制置为0,或者说,Host-Bridge 知道它访问到的第一个总线一定是 Bus 0。
2024-10-08 13:33:00
2022
原创 PCIe配置篇(1)——如何进行配置操作(一)
我们基本了解了配置操作的主要参与者,被配置的对象是设备中的功能(Function),每个功能(Function)会有一个自己的唯一标识BDF。配置的发起者是总线与系统处理器的中介——RC。需要配置的配置地址空间里可以兼容PCI协议,此外对于PCIe做了一定的拓展。
2024-10-07 20:35:46
3124
原创 PCIe配置篇(0)——地址空间
PCIe作为PCI的延伸总线协议,通过地址空间映射技术实现了CPU对外设的高效控制。文章回顾了三种地址空间:I/O空间(PMIO)、内存空间(MMIO)和配置空间,重点分析了MMIO将外设操作转化为内存访问的优势。配置空间作为实现"即插即用"的关键,通过标准化接口使CPU能统一控制不同PCIe设备,但需通过特定机制访问位于设备端的配置空间。随着技术发展,MMIO已逐渐取代传统的I/O空间映射方式。
2024-10-07 19:03:40
1641
原创 从零开始讲PCIe(11)——数据链路层介绍
数据链路层这一层的逻辑是用来负责链路管理的,它主要表现为 3 个功能TLP 错误纠正、流量控制以及一些链路电源管理。它是通过如图 2-24 所示的DLLP(Data Link Layer Packet)来完成这些功能的。
2024-10-06 15:50:29
1424
vivado与modelsim的版本匹配
2023-11-02
ug474 7 Series FPGAs Configurable Logic Block User Guide UG474
2023-08-02
matlab实现基于Pluto SDR的OFDM点对点通信系统
2023-08-01
数字中频收发信号流程(发送端+接收端matlab实现)
2023-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅