- 博客(11)
- 收藏
- 关注
原创 MLA计算方式详解
数目的增加,需求的缓存量就越来越大,另一方面,网络层数的增加,也会导致需求的KV Cache容量增大(详情可见https://blog.csdn.net/alucky_guy/article/details/145909515?在**Multi-head Attention(MHA)**中,KV Cache需要的内存容量会随着序列长度的增大变得非常大,显存需求较高,需要寻找合适的方式来改善。②在推理时,由于所有的权重参数都已经确定,将式(1)、(10-11)代入(7), (8)会发现,实际上。
2025-02-27 20:20:09
793
原创 KV Cache的收益与牺牲
decoder layers 数目为。使用量达到峰值,此时对应的输入序列长度为。 假设输入序列的长度为。产生时,此时每一层的。
2025-02-27 17:27:47
906
原创 Python字典键值查找
时间复杂度:O(1)(平均情况下)空间复杂度:O(1)优点:直接在字典中查找,最优效率。时间复杂度:O(1)(查找操作),但创建视图对象时有一些开销。空间复杂度:O(n)(视图对象的内存消耗)缺点:额外的视图对象创建开销,使得效率略逊一筹。时间复杂度:O(n)(创建列表和查找操作都涉及线性时间)空间复杂度:O(n)(需要额外存储一个列表)缺点:比前两种方式慢,尤其是当字典中有大量键时,性能会受到较大影响。查找方式时间复杂度空间复杂度优点缺点O(1)(平均)O(1)
2025-02-21 19:32:20
380
原创 python学习——multiprocess
在Python的模块中,join()方法是用来确保一个进程在继续执行主线程或其他进程之前完全结束的方法。这个方法对于同步进程执行顺序和确保资源的正确释放是非常有用的。
2024-06-19 21:02:19
629
原创 Python 强化学习库 gym报错
需要说明的是,我是用的gym版本为0.13.0,这个方法对我有效,如果你的版本不一致,也可以尝试env.close()方法。在创建env之后,使用env.env.close(),注意:要使用。来解决这个问题(怀疑是环境本身存在继承)
2024-06-10 16:17:01
359
原创 Linux pytorch + cuda 搭建gpu训练环境
如果有服务器无法联网,只能手动下载的情况,可以先到对应的镜像源(如清华镜像源)下载对应的torch+cuda+cudnn,然后放到本地,使用conda或者pip命令进行安装。2.根据对应cuda的版本,去pytorch官网。
2024-04-21 19:55:39
553
1
原创 使用synopsis vcs + verdi进行verilog测试
是由Synopsys公司开发的一个特定EDA工具,全称为Verilog Compiled Simulator。它是一个高性能的仿真器,用于验证RTL设计的行为;是Synopsys公司提供的一款先进的调试和验证工具,它是SystemVerilog和VHDL设计的黄金标准。Verdi工具主要用于对复杂SoC(System on Chip)设计的验证过程,提供了丰富的调试功能和强大的分析能力,帮助设计者确保设计满足预期的功能和性能要求。
2024-03-31 16:58:13
1501
1
原创 git使用push命令报错-error: failed to push some refs to ‘https://gitee.com/MFLU/graduation_design.git‘
这个错误信息通常是由于远程仓库包含了本地仓库中没有的工作,而导致的推送失败。这往往是因为其他人在同一分支上的修改被推送到了远程仓库中,但是本地仓库还没有同步这些修改,因此我们需要先拉取最新的远程修改,再尝试推送。1.使用命令git pull origin master(这里的origin是提前添加的远程仓库地址别名,相关命令为 git remote add origin https//....),将远程最新的工作合并到本地仓库,并解决任何冲突。注意,如果远程更改与本地更改有冲突,则需要先解决冲突后再推送。
2023-03-30 12:18:11
1389
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人