apple_ttt-CSDN博客

原创专栏导航：《数据中心网络与异构计算：从瓶颈突破到架构革命》

本文探讨数据中心架构的演进路径，从当前技术困境到未来数据中心即计算机的愿景。内容分为基础认知篇和技术深度解析系列：基础认知篇剖析数据中心面临的算力瓶颈与需求变革，介绍从网络卸载技术到RDMA革命的三次关键技术跃迁，最终展望CXL协议推动的资源池化与架构融合；技术深度解析系列将持续探讨具体实现方案。该系列展现了从优化网络性能到突破物理边界，实现全局资源调度的完整技术演进路线。

2025-10-01 22:34:31 1960

原创 FPGA时序分析与约束（0）——目录与传送门

关于时序分析和约束的学习似乎是学习FPGA的一道分水岭，似乎只有理解了时序约束才能算是真正入门了FPGA，对于FPGA从业者或者未来想要从事FPGA开发的工程师来说，时序约束可以说是一道躲不过去的坎，所以这个系列我们会详细介绍FPGA时序分析与约束的相关内容。

2023-12-09 13:38:18 6318 50

原创 FPGA原理与结构（0）——目录与传送门

FPGA的设计和软件设计不同，我们所设计的RTL代码最终还是要落实到硬件底层来进行实例化，因此理解硬件底层的内容是很有意义的。

2023-09-19 20:26:44 6383 55

原创 AMBA总线协议（0）——目录与传送门

本文是AMBA系类中AHB,APB总线协议的一个汇总，主要包括了各个文章链接，方便读者能快速定位。

2023-08-25 10:00:00 1282 24

原创计算机内存管理技术演进：从物理寻址到异构统一内存

本文完整阐述了计算机内存管理技术的演进历程。从物理寻址开始，历经基址-界限寄存器实现进程隔离，分段机制支持逻辑保护与共享，分页管理消除外部碎片并实现虚拟内存，最终发展到异构统一内存，实现异构计算单元间的透明数据迁移。

2025-12-06 14:13:33 811

原创走出聊天框：在这个 AI 时代，你可能只用了它 1% 的能力

本文揭示了AI聊天背后的技术逻辑：1. 大模型本质是无状态的"健忘症天才"，依赖上下文窗口实现对话连贯性；2. API视角赋予用户"导演"权限，可通过系统提示词精准控制AI角色；3. 检索增强(RAG)技术让AI突破训练数据限制，实现"开卷考试"；4. Token计费机制使语言具有经济价值；5. 温度参数可调节AI输出的稳定性和创造性；6. 智能体(Agent)技术将赋予AI行动能力。文章还分析了微软、OpenAI和谷歌的技术战略，指出理解这些底层

2025-12-06 14:05:11 539

原创告别拖拽绘图：用代码高效生成图表，PlantUML 入门与核心语法详解

PlantUML是一款文本绘图工具，通过简洁的代码自动生成各类技术图表（时序图、架构图等）。其核心优势包括：纯文本存储，支持Git版本控制语法简单，绘制速度远超传统拖拽工具自动维护图表风格统一与开发流程深度集成使用方式灵活：支持在线编辑器、IDE插件或本地部署。

2025-10-06 00:05:12 2398

原创 RDMA 技术解析（1）：RDMA 技术三国志 ——IB、RoCE、iWARP 的选型博弈

摘要：专栏探讨数据中心网络与异构计算技术变革，聚焦RDMA协议的三种实现路径：InfiniBand（专为高性能设计）、RoCE（以太网改造方案）和iWARP（TCP/IP适配方案）。文章从架构差异、性能成本部署三维对比及选型建议展开分析，指出InfiniBand适合超算等极致性能场景，RoCEv2是平衡性能与成本的主流选择，iWARP则适用于特定兼容性需求。未来RDMA技术将呈现两极分化趋势，但核心价值始终是提升数据中心互连效率。

2025-10-06 00:04:40 1047

原创 InfiniBand 技术解析（8）：应对流量风暴 ——IB 拥塞控制机制剖析

本文介绍了InfiniBand（IB）网络在高性能计算和AI训练场景中的精细化拥塞控制机制。通过"感知-反馈-调节"的闭环系统，IB主动调控流量而非被动丢包：交换机实时监控端口缓冲区水位并标记拥塞数据包，HCA硬件快速响应并动态调节发送速率，配合显式拥塞通知和基于信用的流控技术，实现多数据流的差异化调控。这种原生设计使IB网络在极端负载下仍能保持90%以上的吞吐量和微秒级延迟稳定性，相比传统以太网更适用于AI训练和大规模并行计算等高性能场景，体现了"以应用需求为核心"

2025-10-05 08:15:00 1646

原创 InfiniBand 技术解析（7）：超越 Send/Recv——RDMA 操作详解与性能哲学

本文深入解析了RDMA（远程直接内存访问）技术的核心原理与三大操作模式。RDMA通过硬件级信任链实现远程内存直接访问，彻底解耦计算与通信：RDMA Write实现"无感知推送"式数据传输；RDMA Read支持"按需自取"的数据拉取；RDMA Atomic提供硬件级原子操作保障。这三种操作构成分布式系统高性能通信的基础，使AI训练、超算等场景突破传统通信瓶颈，实现分布式系统如单机般高效的目标。

2025-10-05 08:00:00 1476

原创专栏导航：《效率跃迁 - 开发与学术工具指南》

【效率工具专栏简介】本专栏聚焦现代开发与学术研究中的高效工具应用，旨在帮助开发者和学者实现生产力跃迁。内容分为三大主线： 1️⃣开发者工具箱：涵盖代码绘图、API文档(Swagger)、Docker环境、Git自动化等开发效率工具； 2️⃣学术加速器：包括文献管理(Zotero)、论文写作(LaTeX)、数据处理(Pandas)等科研利器； 3️⃣通用效率术：分享快捷键使用、文本扩展等通用技巧。

2025-10-04 00:16:50 935

原创工具选择的困境与效率提升的底层逻辑 —— 聚焦技术场景的工具使用思考

【效率跃迁指南：如何用对工具提升技术生产力】专栏聚焦开发者面临的效率困境，揭示三大常见陷阱：多工具切换的碎片化消耗、功能过剩导致的错配、工具依赖型虚假忙碌。通过分析工具演进的三个阶段（功能驱动→集成驱动→逻辑适配），提出效率提升三大原则：1）减少认知转换成本，让工具逻辑贴合技术思维；2）实现技术流程与工具高耦合；3）优先选择可复用、可自动化的工具。

2025-10-04 00:14:49 977

原创 InfiniBand 技术解析（6）：从比特到数据包 ——IB 网络模型全透视

本文深入解析了InfiniBand网络的六层模型架构及其高性能特性。文章从报文基础结构入手，详细阐述了InfiniBand的三段式核心结构和各类头部适用场景，介绍了三种内存交互模式。随后分层剖析了物理层的介质与编码方案、链路层的LID寻址机制、网络层的GID跨子网路由、传输层的可靠传输保障，以及高层API接口设计。通过RDMAWrite操作的全链路追踪，展示了数据从应用到物理层的完整传输过程。

2025-10-03 10:00:00 884 1

原创 InfiniBand 技术解析（5）：通信的心脏 —— 深入剖析 Queue Pair 传输引擎

深入探讨了InfiniBand高性能的核心设计——队列对（QP）机制。文章对比传统TCP/IP网络的内核态切换、数据拷贝等性能瓶颈，详细解析QP通过双队列设计、硬件直驱、零拷贝和内核旁路等创新特性实现的高效通信流程。重点阐述了QP在RDMA操作中的关键作用，使远程内存直接访问成为可能，为AI训练等高性能计算场景提供重要支撑。该文揭示了InfiniBand打破传统网络性能桎梏的技术原理，为理解数据中心网络架构演进提供专业视

2025-10-03 08:00:00 669

原创 InfiniBand技术解析（4）：智慧的调度者 —— 子网管理器与属性

子网管理器（SM）是InfiniBand网络的“智能调度中心”，通过“发现-配置-维护”三步曲实现拓扑发现、路径规划与故障自愈。属性（Attributes）则是网络的“身份与配置库”，详细记录设备、端口及通信端点的状态与能力。二者通过管理数据报（MAD）交互，构成IB网络即插即用、高可靠运维的核心基石，确保大规模集群高效稳定运行。

2025-10-02 15:38:23 1012

原创 InfiniBand技术解析（2）：为什么它是高性能计算的 “超级血管”？

在大规模AI训练和超算场景中，传统TCP/IP网络面临CPU开销高、延迟不可控、吞吐量瓶颈三大短板，导致千卡GPU集群算力利用率低下。InfiniBand通过三大技术突破成为解决方案：1）RDMA技术实现零拷贝通信，绕过CPU直接内存访问；2）硬件级无损架构采用信用流量控制和无阻塞交换，实现微秒级稳定延迟；3）高带宽设计通过链路聚合和MPI硬件加速，使吞吐量接近理论极限。当前InfiniBand已支撑起AI大模型训练和科学计算，未来将持续向更低延迟、更高带

2025-10-02 00:02:11 868

原创 InfiniBand技术解析（3）：解码 IB “黑话”—— 核心术语与架构概览

本文系统介绍了InfiniBand（IB）网络的核心概念体系，将其比作高性能计算的超级血管，主要内容包括：1）硬件组件（HCA智能网卡、TCA存储网关、无阻塞交换机和路由器）；2）网络结构（子网管理单元、GUID设备标识符、GID全局地址）；3）通信端点（QP专用通道、CQ完成通知、SRQ共享队列）；4）寻址路由（LID本地导航、SL流量优先级）；5）操作指令（Verb API）。这些术语共同构成了IB网络低延迟、高可靠的运行基础，为理解其工作机制提供了必备的

2025-10-02 00:01:29 1702

原创 InfiniBand技术解析（1）：一场面向“瓶颈”的远征

《InfiniBand：重构数据中心互连的技术远征》摘要 20世纪末，计算与I/O的"速度裂谷"催生了InfiniBand技术。面对CPU性能飙升而I/O架构滞后的困境，康柏、IBM与英特尔两大阵营最终融合形成了统一标准。InfiniBand通过"通道式"架构、CPU卸载技术和"统一结构"理念，实现了硬件层面的革命性重构。虽然早期商业化受挫，但在高性能计算和AI大模型训练中找到了核心应用场景。这场技术远征不仅解决了计算瓶颈，更深远影响了后续RDMA

2025-10-01 14:26:47 921

原创融合：迈向 “一台计算机” 的终极架构

摘要： RDMA技术虽实现了数据中心微秒级通信，但未能解决异构设备缓存不一致、资源孤岛等深层问题。CXL协议通过三大子协议（CXL.io、CXL.cache、CXL.mem）推动主机与存储形态重构：实现异构设备的硬件级缓存一致性、全局内存池化和存储资源动态调度，使数据中心从"物理连通"迈向"逻辑统一"。CXL与RDMA协同将数据中心转变为"一块超级PCB"，让计算资源实现内存级协同，最终回归"无缝协同"的计算本质。这不仅提升了资

2025-10-01 10:15:00 1855 2

原创范式革命：RDMA 如何让网络成为 “分布式内存总线”

摘要： RDMA技术通过内存访问范式革命，绕开远程CPU干预，实现设备间直接数据交互，显著降低延迟。其三大协议（InfiniBand、RoCE、iWARP）在性能、成本和兼容性上各有取舍：InfiniBand追求极致性能但成本高；RoCEv2兼容以太网但需精细配置；iWARP基于TCP，性能受限。RDMA虽解决了CPU瓶颈，但异构设备间的缓存一致性问题仍未解决，成为分布式计算向“单机化”演进的关键障碍。未来需结合CXL等一致性协议进一步突破。

2025-10-01 08:00:00 1081

原创为 CPU 减负：数据中心网络卸载技术的演进

本文探讨了数据中心网络技术为CPU减负的演进历程。从软件层面的DPDK优化协议栈处理效率，到硬件层面的TOE和智能网卡/DPU实现协议卸载，技术发展使网络性能显著提升，CPU占用率从60%降至5%以下。然而，这些方案仍存在两大瓶颈：数据拷贝导致的延迟问题无法解决，远程CPU仍需参与通信控制面任务。文章指出，要突破这些限制，需要RDMA等更彻底的技术革新，实现无CPU干预的直接内存访问，开启数据中心网络的新范式。

2025-09-30 18:35:14 928

原创数据中心的技术困境与需求侧的演进压力

数据中心作为数字世界的“算力底座”，经历了从Scale-Up（纵向扩展）到Scale-Out（横向扩展）的架构演进。传统Scale-Out网络虽支撑了互联网业务爆发，但面临AI、HPC等新业务对低延迟、高协同的严苛需求。随着节点间通信量指数增长，网络协议栈的软件开销成为性能瓶颈，导致算力利用率下降、训练周期延长。当前技术演进正从硬件卸载（DPDK、智能网卡）、内存直连（RDMA）向资源一体化（CXL）发展，以突破网络瓶颈，实现高效协同计算。

2025-09-30 00:06:34 750

原创 Crossbar结构的排队策略

文章摘要： Crossbar是一种全连接交换结构，广泛应用于网络设备。针对数据传输中的"交通堵塞"问题，文中分析了四种典型排队策略：输入排队(IQ)采用入口缓存但易产生队头阻塞；输出排队(OQ)实现零冲突但需要N倍加速比；联合排队(CIOQ)在输入输出端均设缓存，平衡效率与成本；交叉点排队(CICQ)在每个交汇点部署缓存，实现调度解耦但硬件开销较大。这些策略在缓存位置、调度复杂度与硬件成本之间形成不同权衡，其中CIOQ因兼顾性能与可实现性成为主流方案，而CICQ则更适合大规模可扩展场景。

2025-07-02 19:46:06 1309

原创从零开始讲DDR（10）——AXI 接口MIG 使用（3）

本文中，我们将继续展开介绍boot_mode_gen，prbs_mode_gen，custom_mode_gen的原理。

2025-05-03 00:09:41 1176 2

原创从零开始讲DDR（9）——AXI 接口MIG 使用（2）

在之前的文章中，我们介绍了官方DDR MIG AXI接口的例程的整体框架，在本文中，我们将着重介绍例程中关于数据产生，及驱动到AXI接口的相关逻辑实现。

2025-05-03 00:03:21 1371 1

原创从零开始讲DDR（8）——AXI 接口MIG 使用（1）

我们简单拆解了MIG AXI接口中测试文件的整体框架，首先在sim_tb_top.sv文件中例化了DDR模型和example_top。在example_top中，又例化了MIG IP和一个流量产生器ddr4_v2_2_8_axi_tg_top。在ddr4_v2_2_8_axi_tg_top中的主要功能是分别例化了boot_mode_gen，prbs_mode_gen，custom_mode_gen和axi_opcode_gen。

2025-05-02 16:54:31 1381

原创 FPGA时序分析与约束（11）——时钟组

如果不进行正确的时钟组区分，时序工具（如Vivado）默认会检查所有时钟之间的路径。如果两个时钟实际是异步的（如来自不同晶振），但未声明为异步组，工具会强制分析它们的时序关系（例如建立时间/保持时间）。由于异步时钟的相位关系随机，这种分析毫无意义，且会生成大量虚假违例，干扰真正的时序问题定位。

2025-04-13 22:03:34 1871 2

原创从零开始讲DDR（7）——modelsim独立仿真DDR4

本文主要内容为DDR4 MIG ip核仿真，modelsim独立仿真DDR4。在进行DDR仿真的时候，我们会面临一个以往常规仿真不存在的问题：DDR本身并不是一个我们通过RTL代码设计出来的部件，常规的模块或者IP仿真，都是基于RTL代码就能进行的，但是回顾一下我们DDR的开发流程，调用的IP核也只是MIG ip，其本质是一个DDRC+DDRPYH的组合，并不能模拟任何DDR本身的行为，因此，在进行仿真之前，我们首先要做的就是获取DDR的仿真模型。

2025-01-12 17:02:32 2814

原创从零开始讲DDR（6）——MIG IP核配置

xilinx的MIG IP核配置方式详细说明

2025-01-06 16:53:24 3664 6

原创 UltraScale系列底层结构（5）——时钟架构

在 7 系列 FPGA 中的区域时钟缓冲器被新的时钟缓冲器所取代，这些新时钟缓冲器具有更广泛的全局时钟分布能力，同时能够自动利用局部时钟缓冲器进行时钟的局部分配。字节通道时钟输入（DBC 和 QBC）引脚对是专用时钟输入，用于直接驱动位片（bit slices）中的源同步时钟，在 I/O bank 中工作。具体来说，在当前选择的时钟在 S0 和 S1 变化后从高电平转换到低电平时，输出保持低电平，直到另一个时钟（即待选择的时钟）从高电平转换到低电平。此时，新的时钟开始驱动输出。

2024-12-15 23:40:30 537

原创 ModelSim基本命令解析

ModelSim 是一个强大的硬件描述语言（HDL）仿真工具，支持 TCL 脚本和命令行操作来控制设计的编译、仿真和调试。以下是 ModelSim 的一些基本命令，分为设计库管理、编译、仿真控制、波形查看和调试等类别。

2024-11-18 15:17:04 2614 2

原创 SystemVerilog学习——类的继承

通过继承，子类可以继承父类的属性（成员变量）和方法（成员函数），并且可以覆盖父类的方法，也可以新增自己的属性和方法。子类可以重载父类的方法，也可以覆盖父类的方法。子类会继承父类的所有公共和保护成员，并可以重写父类的方法，也可以添加自己的成员。：通过继承，子类可以实现不同的行为来覆盖父类的行为，这对于在仿真中实现不同类型的对象非常有用。：子类不能访问父类的私有成员，尽管它们可以在类内部定义和使用自己的私有成员。：子类自动继承父类的成员变量和方法，除非子类重写了这些方法或成员。：子类可以重写父类的方法，通过。

2024-11-15 23:40:30 1873

原创 SystemVerilog学习——构造函数new

构造函数，用于创建类的实例（即对象）。它在面向对象编程（OOP）中起着重要作用，负责实例化一个对象并进行初始化。构造函数，那么 SystemVerilog 会自动提供一个默认构造函数，这个默认构造函数会将类的所有成员变量初始化为默认值（如数字类型初始化为。这是因为类的对象是动态创建的，并不直接存储在栈上，而是存储在堆中。在 SystemVerilog 中，类的实例化（即对象创建）并不会自动调用。因此，为了确保类的对象正确地创建和初始化，必须显式调用。类的对象（即类的实例）需要显式调用。

2024-11-15 23:26:50 1898

原创 SystemVerilog学习——虚拟接口（Virtual Interface）

虚拟接口是 SystemVerilog 中的一种强大特性，它允许类引用接口类型的变量，并在运行时绑定不同的接口实例。它解耦了类和接口之间的依赖，使得类能够通过接口定义与信号进行交互，而不关心接口的具体实现。在仿真和验证中，虚拟接口广泛用于动态绑定接口实例，增强了测试环境的灵活性和可重用性。

2024-11-13 20:41:35 2007

原创 SystemVerilog学习——mailbox

在 SystemVerilog 中，mailbox 是一种用于线程间通信的同步数据结构，它允许不同的进程（任务或线程）通过 put 和 get 操作传递数据。mailbox 特别适用于生产者-消费者模式，其中一个进程负责将数据放入 mailbox（通过 put），而另一个进程负责从中取出数据（通过 get）。这种机制使得在并行仿真中，可以方便地在多个任务或进程之间传递消息。

2024-11-13 16:27:17 1540

原创 UltraScale系列底层结构（3）——URAM概述

在UltraScale+™ 器件中，除了我们在常规熟悉的BRAM资源以外，还额外提供了URAM（UltraRAM）资源。UltraRAM 是一种单时钟同步操作的高密度存储器，每个 UltraRAM 块可存储 288 Kb 数据，配置为 4K x 72 位的存储单元，其容量是 Block RAM 的八倍。虽然 UltraRAM 内部使用单端口存储单元，但通过在一个时钟周期内顺序执行端口 A 和端口 B 的操作，实现了双端口功能。

2024-10-20 23:51:24 2474

原创 PCIe配置篇（2）——如何进行配置操作（二）

内存访问被映射到配置请求的地址范围内，生成一个配置请求，不再需要两步操作。这意味着，当CPU发起对PCIe配置空间的访问时，它只需执行一个内存读或写操作，而不需要先通过配置地址端口（如传统PCI机制中的0xCF8端口）指定目标地址，然后通过配置数据端口（如0xCFC端口）进行访问。在一个单 RC 的系统中，Host-Bridge 的次级总线号应该被固定为 0，也就是它的可读可写的次级总线号寄存器从一复位就被强制置为0，或者说，Host-Bridge 知道它访问到的第一个总线一定是 Bus 0。

2024-10-08 13:33:00 2022

原创 PCIe配置篇（1）——如何进行配置操作（一）

我们基本了解了配置操作的主要参与者，被配置的对象是设备中的功能（Function），每个功能（Function）会有一个自己的唯一标识BDF。配置的发起者是总线与系统处理器的中介——RC。需要配置的配置地址空间里可以兼容PCI协议，此外对于PCIe做了一定的拓展。

2024-10-07 20:35:46 3124

原创 PCIe配置篇（0）——地址空间

PCIe作为PCI的延伸总线协议，通过地址空间映射技术实现了CPU对外设的高效控制。文章回顾了三种地址空间：I/O空间（PMIO）、内存空间（MMIO）和配置空间，重点分析了MMIO将外设操作转化为内存访问的优势。配置空间作为实现"即插即用"的关键，通过标准化接口使CPU能统一控制不同PCIe设备，但需通过特定机制访问位于设备端的配置空间。随着技术发展，MMIO已逐渐取代传统的I/O空间映射方式。

2024-10-07 19:03:40 1641

原创从零开始讲PCIe（11）——数据链路层介绍

数据链路层这一层的逻辑是用来负责链路管理的，它主要表现为 3 个功能TLP 错误纠正、流量控制以及一些链路电源管理。它是通过如图 2-24 所示的DLLP（Data Link Layer Packet）来完成这些功能的。

2024-10-06 15:50:29 1424

vivado与modelsim的版本匹配

本文列出了Vivado Design Suite所支持的第三方模拟器。这些也在随软件发布的“Vivado Design Suite用户指南：发行说明、安装和许可”（UG973）中列出。请参阅“体系结构支持和要求”>“兼容的第三方工具”一节。

2023-11-02

同步FIFO的verilog实现（1）-计数法

同步FIFO工程文件 vivado19.2版本

2023-10-27

ug474 7 Series FPGAs Configurable Logic Block User Guide UG474

Xilinx7系列FPGAs包括四个FPGA系列，它们都是为最低功率设计的，使通用设计能够跨系列扩展，以获得最佳的功率、性能和成本。Artix-7系列为成本敏感、高容量应用程序的最高性能和最高带宽进行了优化。Kintex-7系列是一种创新的FPGAs，优化为最佳的性价比。Virtex-7系列为最高的系统性能和容量进行了优化。本指南可作为描述7个系列FPGAs可配置逻辑块（clb）的技术参考。通常，逻辑合成会分配CLB资源，而不需要系统设计者的干预。对于设计者来说，理解某些CLB细节是有利的，包括查找表（LUTs）的不同功能、携带传播的物理方向、可用触发器的数量和分布，以及非常有效的移位寄存器的可用性。本指南详细描述了CLB的这些特性和其他特性。

2023-08-02

matlab实现基于Pluto SDR的OFDM点对点通信系统

OFDM(Orthogonal Frequency Division Multiplexing，即正交频分复用)，是多载波调制技术的一种，它主要通过频分复用实现高速串行数据转换成并行数据进行传输。由于它具有较好的抗多径衰落的能力，能够支持多用户接入，因此在现代通信领域有着广泛的应用场景。OFDM系统的设计和应用对于下一代蜂窝移动通信网络有着重大的现实意义，而点对点通信是通信网络中数据链路层实现的功能，是通信网络的重要组成部分，在很大程度上影响着通信的速度与质量。在此背景下，本文提出了一种点对点通信的OFDM系统实现方式，基于matlab实现，并通过pluto SDR完成了硬件测试。本文首先指出了该系统的整体构架及应用场景，再阐述了整体的设计思路及实现方式。然后使用以matlab为主的软件开发工具完成系统设计开发，最后基于pluto SDR硬件平台完成OFDM点对点通信系统的仿真、测试等工作。

2023-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

vivado与modelsim的版本匹配

同步FIFO的verilog实现（1）-计数法

ug474 7 Series FPGAs Configurable Logic Block User Guide UG474

matlab实现基于Pluto SDR的OFDM点对点通信系统

数字中频收发信号流程（发送端+接收端matlab实现）

PYNQ-Z2板卡文件

pynq-z2资料，板卡文件，参考实验，电路图，用户手册，约束文件

空空如也