sunflower_level3-CSDN博客

原创【Git】Github 代码版本控制（一）

摘要：本文介绍了使用Git进行代码版本控制的方法，重点讲解了如何将本地代码上传到GitHub仓库。内容包括本地代码的git初始化、创建远程仓库、代码上传步骤，以及处理本地与远程仓库不同步的情况。文章还提供了解决大文件上传问题的方法，包括使用.gitignore文件和filter-repo工具删除提交历史中的大文件。针对无法连接公共网络的服务器环境，文中特别说明了如何使用https链接实现代码同步。

2025-07-30 09:46:01 231

原创【Dataloader】多进程加载数据导致CPU内存“泄漏”

摘要：PyTorch DataLoader内存泄漏问题分析及解决方案。当使用自定义Dataset类时，__getitem__返回Python列表会导致内存持续增加，改用Numpy数组可避免此问题。对于大型.arrow格式数据集，实验表明设置num_workers=0比多进程加载更快且内存更稳定。两种情况的优化方案：1）继承Dataset类时输出数据转为Numpy数组；2）加载.arrow文件时禁用多进程可提升性能。（149字）

2025-07-28 07:09:36 293

原创【大模型】用CPU加载参数减少GPU内存占用

训练大模型时，即使batchsize占满GPU显存，重新加载模型参数仍可能报CUDA OOM错误。这是因为torch.load默认会将参数直接加载到GPU，导致瞬时显存需求激增。解决方法是在加载参数时先指定map_location='cpu'，将参数加载到CPU内存，再转移到GPU。这样可以避免加载过程中的显存峰值，确保模型顺利恢复训练。

2025-07-25 04:29:06 68

原创【BERT_Pretrain】Wikipedia_Bookcorpus数据预处理（二）

本文介绍了如何预处理Wikipedia和BookCorpus数据集，使其适用于BERT预训练任务（MLM和NSP）。主要内容包括：1）使用nltk将段落分割为单句；2）针对NSP任务随机组合句子并标注连续性；3）对15%的token进行随机mask处理（80%替换为[MASK]，10%随机替换，10%保留原词）。预处理后的数据保存为4GB分片，并提示后续需重写Dataloader的collate_fn以处理变长序列。该流程实现了BERT原文要求的NSP+MLM联合预训练数据准备。

2025-07-02 11:19:45 449

原创【BERT_Pretrain】Wikipedia_Bookcorpus数据预处理（一）

本文介绍了BERT预训练的数据集准备方法。主要使用维基百科(20220301.en)和BookCorpus两个数据集，通过datasets库加载并合并。数据集统计显示当前维基百科版本约含3,165M词，BookCorpus约840M词。文章还讲解了如何查看数据集属性（列名、特征、行数等）以及BERT的两个预训练任务：判断句子连续性和预测掩码单词。最后提到后续将介绍如何将段落数据预处理为适合这两个任务的单句格式。

2025-07-01 09:55:39 314

原创【GPU RAM】实时监控GPU内存分配（二）

摘要：使用torch.profiler.profile监控GPU显存本文介绍了如何利用PyTorch的torch.profiler.profile工具监控GPU显存使用情况。主要内容包括： GPU显存分类：正在使用的内存(occupied)、已分配内存(allocated)和预留内存(reserved) 提供了完整的代码示例，展示如何在模型训练过程中集成profiler 通过trace_handler函数实现显存时间线记录，可生成.json.gz和.html格式的跟踪文件重点标记了代码中启动profil

2025-06-26 04:05:31 459

原创【GPU RAM】实时监控GPU内存分配（一）

摘要：本文介绍了如何使用PyTorch的torch.cuda.memory模块记录GPU内存分配历史并生成快照。主要包含三个核心函数：start_record_memory_history()启动记录最多100000条分配/释放事件，stop_record_memory_history()停止记录，以及export_memory_snapshot()将当前内存状态保存为.pickle文件。文章提供了在BERT模型训练中的应用示例，展示了如何在模型训练过程中插入这些命令来监测GPU内存使用情况。这些工具可用于

2025-06-25 23:44:35 356

原创【SLURM】PARTITION和GRES的理解

SLURM集群管理中的Partition和GRES资源使用

2025-06-19 01:20:36 635

原创【SLURM】提交jobs + 并行运行代码

SLURM下GPU资源管理

2025-06-13 11:51:47 475

原创【SLURM】sbatch写法

sbatch写法教程。

2025-03-30 20:51:47 356

原创【SLURM】介绍

Slurm（Simple Linux Utility for Resource Management）是一个用于管理和调度计算集群任务的开源作业调度系统。它主要用于，比如超算中心、大学的计算集群或企业的数据中心。

2025-03-30 07:26:35 612

原创【CuPy报错】NVRTC_ERROR_COMPILATION (6)找不到 ‘vector_types.h‘

cupy安装之后找不到头文件怎么解决

2024-10-09 03:56:13 1042

原创【Github】上传代码

git init。

2024-01-07 20:01:43 677

原创【Tensor】 reshape

reshape变换维度

2023-02-09 10:57:51 1458

原创【pycharm】通过远程服务器打开jupyter文件

pycharm打开jupyter

2022-11-28 22:52:49 726

原创【 torch.multiporcessing】附带强化学习多进程例子

torch.multiprocessing的简单调用

2022-07-14 22:32:44 3562

原创【Python】环境变量设置

包的安装路径在写python代码的时候，通常我们调用的包是通过pip安装的，通过pip安装的包安装路径是可以查到的。这些包也可以直接被调用，因为他们安装路径已经在环境变量中，因此可以被直接搜索到。但是，如果我们想调用自己写的module或者是从github上下载的包，我们就会经常遇到，找不到module的问题。原因就是我们需要的包的路径没有在环境变量中！一种简单的方法就是在调用包之前，在环境变量添加可以搜索到包的路径。报错源代码已知：源代码所在路径是：需要调用的mod...

2022-06-12 16:16:42 620

原创【强化学习】value-based VS policy-based

强化学习policy-based与value-based对比

2022-06-07 17:36:57 412

原创【Texstudio深色模式】

texstudio版本texstudio-4.2.3-win-portable-qt6参考配置目标将texstudio设置为深色，并且PDF也为深色！（手动护眼！）界面设置Options> Configure Texstudio …> General >Style> Orion darkPDF颜色网上说：如果是用internal PDF的话，可以直接设置在configure的internal PDF Viewer 设置paper color。但是奇了个大怪，我这里并没有

2022-05-29 17:25:23 2422 1

原创【Latex 中文模板】win10|texstudio

用latex写惯了英文，不知道怎么写中文，写中文会报错，该怎么办呢?答：用好\documentclass[options]{class-name} 由于中文和英文的不同，在写中文的时候可以通过\documentclass[options]{class-name}将latex代码指定工程要采用的文档类，其中options 和 class-name 均为可选参数。{class-name} 使用文档类命令指定文档类为中文这里是\documentclass参考教程，根据教程可知：class-name等于ct

2022-05-29 15:49:52 1521

原创【Pytorch】判断tensor中数值和特定的某个值的大小关系

说明torch.le(input, other, *, out=None) → TensorComputes \text{input} \leq \text{other} (input≤other) element-wise. (这里用latex写，是不是很有深意，hhhh)The second argument can be a number or a tensor whose shape is broadcastable with the first argument.Parametersi

2022-04-18 15:09:33 3106 1

原创【Python】argparse

参考1参考2官方连接argparse 模块是 Python 内置的一个用于命令项选项与参数解析的模块，argparse 模块可以让人轻松编写用户友好的命令行接口。通过在程序中定义好我们需要的参数，然后 argparse 将会从 sys.argv 解析出这些参数。argparse 模块还会自动生成帮助和使用手册，并在用户给程序传入无效参数时报出错误信息。[parse:解析]初始化import argparseimport sysparse1=argparse.ArgumentParser()p

2022-04-09 15:24:45 171

原创【Pytorch安装】&【深度学习框架】-- GPU、cuda、cudatookit等

正确的安装方法参照官网！！！如果你的cuda版本低于上面官网连接中展示的，怎么办？还是参照官网！！！这里展示了过底的cuda版本对应的版本底的PyTorch版本的安装。比如说，可以从这个页面搜索cuda10.1应该安装什么样版本的torch。深度学习框架GPU图形处理器（英语：graphics processing unit，缩写：GPU），俗称显卡。是硬件。显卡驱动：（通常指NVIDIA Diver）想要用这个硬件就需要一个驱动（很好理解：比如电脑要连打印机就要装打印机驱动，所以电脑要

2022-04-05 10:47:30 1850

原创【强化学习】Bellman Equation Derivation （贝尔曼方程的推导）

Bellman Equation Derivation:Return(GtG_{t}Gt) 说的是把奖励进行折扣后所获得的收益。State value function(Vt(s)V_{t}(s)Vt(s))是MRP(Markov Reward Process,<s,r,s′><s, r, s'><s,r,s′>)的return的期望。可以定义为如下形式：V(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+...+γT−t−1RT∣st=s

2022-04-01 15:06:40 943

原创【pycharm】连接远程服务器的docker|宿主机

docker container与远程服务器的Linux系统之间的关系形象描述：Linux系统假设是一个大集装箱，docker container就是集装箱里面的小箱子。两者之间需要建立什么样的联系？我们在本地电脑要访问远程服务器中的docker container，也就是说我们在本地还是要通过IP地址访问docker container，也就是说我们先找到了服务器，然后在服务器中找docker container。所以要建立服务器与container之间的联系。这里承载着docker c

2021-08-25 17:10:07 277

原创 Docker|从镜像到container|打开、进入、退出container

Docker初步理解由于我在用docker的时候通常是用docker镜像安装python包或者实验依赖的环境包，所以对docker的理解并没有那么深刻，就是停留在可以帮助我成功搭建环境即可。docker container我理解的是打开了一个新的终端，建立了一个新的环境，在这里运行程序的语法是和在终端直接运行程序的语法一致的。镜像是生成container的入口，镜像是静态的，container是将镜像run之后的结果，如果将一个镜像run很多次，那么就会得到很多名字一样但是ID不同的container

2021-08-24 14:40:24 5885

原创 Pytorch | GPU | 将代码加载到GPU上运行

Pytorch | GPU | 将代码加载到GPU上运行“I think if you do something and it turns out pretty good, then you should go do something else wonderful, not dwell on it for too long. Just figure out what’s next.”——Steve Jobs❤️流程声明用GPU（指定具体的卡）将模型（model）加载到GPU上把数据和标签

2021-07-13 16:00:29 15500 7

原创 Batch Normalization

Batch Normalization(BN)目的将数值范围较为分散的数据集中在一个固定的小范围内，使得数据在进入激活函数层之后，激活函数可以对数据变化敏感（也就是希望数据不会过多的集中在饱和的区域）.解决的问题–Internal Covariate ShiftWe refer to the change in the distributions of internal nodes of a deep network, in the course of training, as Internal

2021-07-12 22:22:03 127

原创 Latex|调整子图间距离（横向-纵向)

横向\hspace{}纵向\vspace{}示例\begin{figure}[ht] \centering \begin{minipage}[t]{1\textwidth} \centering \includegraphics[scale=0.4]{e1-2.png} \subcaption*{(a)} \label{pretrain(a)}\end{minipage}\vspace{5mm} %调整纵向距离\begin{minipage}[t]{1\textwidt

2021-06-20 22:43:08 20808 1

原创 LaTeX|插图-子图 caption-subcaption

背景subcaption是可以取代subfig和subfigure的包，可以用于插图、子图。导入的包\usepackage{subcaption}Please note: This package is incompatible with the subfigure and subfig packages.插图单图\begin{figure}[ht] \centering\includegraphics[scale=0.6]{e1-1.png}\caption{ 描述图像}\labe

2021-06-20 22:22:20 12618 3

原创 Pycharm can‘t go to definition的可能原因

我遇到这个问题是发生在切换conda环境的情况下。由于每个conda环境下的python解释器的包不一致，所以在一系列代码开始在一个环境下运行，而后要切换到另外的环境后，不仅仅需要更改当前py文件的解释器：而是要修改整个这一系列py文件的解释器：File>Setting：也就是将整个project的解释器都修改一下。另外，...

2020-09-24 22:32:54 580

原创可视化问题ConnectionError: HTTPConnectionPool(host=‘localhost‘, port=8097)

可视化出现问题代码中调用了visdom, 但没有打开显示界面的端口安装$ pip install visdom启动服务默认端口为8097，可以根据需要加上-p选项修改端口$ python -m visdom.server # 或者直接visdom命令也可以有以下输出代表启动成功Downloading scripts. It might take a while.It's Alive!INFO:root:Application StartedYou can navigate to h

2020-09-22 21:12:02 5058 2

原创 Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement Learning

Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement LearningauthorApplied Artiﬁcial Intelligence Institute, Deakin University, Geelong, AustraliaDung Nguyen， Svetha Venkatesh，Phuoc Nguyen，Truyen TraninsightGuilt aversion induces e

2020-09-21 10:18:16 267

原创 Where Do You Think You’re Going?: Inferring Beliefs about Dynamics from Behavior

Where Do You Think You’re Going?: Inferring Beliefs about Dynamics from BehaviorauthorBerkeley - Sergey Levine 团队aimOur aim is to recover a user’s implicit beliefs about the dynamics of the world from observations of how they act to perform a set of ta

2020-09-18 17:52:39 173

深度强化学习课件lecture1

lesson1.ipynb

空空如也