zjnlswd-CSDN博客

先初始化actor,和环境互动，得到trajectories.让老师与环境做互动，然后得到trajectories.然后这个reward function评估老师的要得到高分，评估actor的比较低。射击游戏cs,这个游戏中，被射击扣分，射击到敌人加分，为了防止机器一直原地转圈圈不去攻击，所以活着给一个很小的负的reward。但是人类和机器看到的有可能不一样，比如转弯的时候人类可以顺利的转弯，但是机器没转过去的画面机器没看到过。基本原则是老师的行为是最好的，老师的行为可以得到最高的reward。

2025-07-11 17:12:51 382

原创什么是强化学习（RL）--2

为什么呢，因为这里At>0 表示这个执行这个action 得到的reward 比随机action得到的reward大。所以应该是用平均减去平均，version4 如下图。由于这里输入都是游戏画面，前面的部分可能处理差不多，所以actor和critic有一部分共用的network。得到的中间几个值，然后关键v(st)和v(st+1)的关系，得到之差越接近rt越好，从而估算。但是这里有个问题，这里Gt-hat是执行一次at得到的结果，举例：按照两种方法得到值如下可能是0或者是3/4。不一定代表大多数情况。

2025-07-10 17:29:39 291

原创 PPO 学习笔记

由于很多游戏可能reward总是大于等于零，这样话就无论是怎么做都会提升这个action的几率.但是action是sample得到的，有可能某些种类的action没有sample到，这样这个没有采样到的可能相比其他就变小了概率。一场游戏的总的reward的期望值是上面这个式子，代表不同情况下发生的概率乘以这个情况的total reward.tip2:整场游戏是好的，不代表每个action都是好的，整场游戏不好，不代表每个action都不好。的话，根据p分布得到的值是负的，而q分布得到的值是正的。

2025-07-10 14:27:35 294

原创什么是强化学习（RL）-1

所以RL非常的耗时间。这里操作游戏的是actor, observation是游戏画面，action是左右移动或者开火，这里得到的分数是reward。采取一个action之后会得到新的画面，也就得到新的observation,然后根据新的画面采取新的action,比如这时候开火，reward得到分数杀掉外星人。这里的network是有随机性的，actor的输出是采样得到，env是一个黑盒（怎么产生输出不知道，下围棋，你的对手怎么下子你是不知道的），所以RL输出随机性很大，同样的输入输出也可以不一样。

2025-07-08 17:55:23 510

原创 attention is all you need论文学习 transformer

Query和key是等长的，他门做内积作相似度，内积值越大相似度越高，内积值为0 两个相量垂直了没有相似度．Query和每个key作内积后的值除根号keys的维度．然后通过softmax函数得到权重0实际中用两次矩乘法实现。编码器和解码器，编码器输入多个token，输出每个token的编码向量，解码器的输入是token的编码向量，输出是转换的向量，转换的维度不一定和编码器的输入token长度一样，引文如果是翻译，不同语言翻译后是不同的长度。layernorm,是每个数据的特征做均值为零方差为1。

2025-02-09 23:53:10 526

原创 llama3学习

首先是预训练部分，数据注意版权和风险问题。数据去重和数据清理，PII人的身份信息（人名、地址等）。如果数据有大量PII数据则这个数据丢掉。

2025-01-30 11:28:06 244

原创 hunyuan 混元学习

训练了不同的模型去选择数据，比如用Dover去选择美观度比较好的数据，用其他模型去选择清晰度高的模型等。判断motion大小（比如静止的）把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。background\style等关键词，还用了dropout设置多样性更多的captions使得描述格式不会太固定。虽然拿掉了很多数据，但是数据多样性高也好，所以用个小模型去测试那个去掉视频的操作好。也进行了模型切断，用拉普拉斯算子找到最清晰的一帧作为训练的起始。也是进行了复杂的视频选择。同movie gen.

2025-01-29 21:15:23 386

原创 Sora学习

基于用户做成personalized video.多个模型创新和简化.首先看下数据，他们用的数据对于video来说是1一亿左右的量级，对于图像来说更多。style preset：定义一个style，能把视频都变成这个style.以前可能每个style都要训练一个模型，现在只需要给出prompt,就可以得到想要的效果，简化了视频制作的速度。sora大概用了三种数据，一个是公开的数据，一个是通过合作伙伴得到的私有数据，一个是内部使用的数据。loop:视频头尾剪辑生成一个无限循环的视频，不停翻卷的海浪。

2025-01-27 21:56:51 442

原创 Deepseek V3

MTP是今年Meta的论文。

2025-01-27 19:17:59 118

原创 mamba论文学习

vision mamba （lianghui zhu等）速度和准确性都比transformer的模型更好，mamba占用资源是线性的，但是transformer是更大的占用资源，所以mamba能更好的。mamba（2024）改进SSM，训练快，testing快（相比transformer，test chatgpt就不会卡了），改进了硬件中的算法。速度上也比基于transformer的快，下图中右下的图。(弹幕说通俗来讲是提取非连续特征的问题传统的SSM是实现是通过卷积实现，只能提取连续特征)

2025-01-26 19:01:50 318

原创 Gpt2-7结束

2024-08-19 16:09:06 475

原创 Andrej karpathy讲gpt 2-2

2024-07-29 11:11:32 343

原创 Andrej karpathy讲gpt 2

2024-07-23 09:23:34 443

原创 CLIP论文学习

学习来自B站bryanyzhu。

2024-05-23 15:44:01 427

原创 ViLT学习

多模态里程碑式的文章，总结了四种多模态方法，根据文字和图像特征特征抽取方式不通。文章的贡献主要是速度提高了，使用了数据增强，文本的mask。学习自b站朱老师的论文讲解。

2024-05-23 08:57:53 388

原创 Dalle2学习

Dalle2 mini有GitHub库并且有网页可以直接测试。

2024-05-21 17:34:05 560

原创 Stable diffusion论文学习ddpm

模型学习已知噪声 ,学习自b站人工智能AI课程。

2024-05-20 16:13:36 202

原创内存泄漏查看工具

2、可以使用VLD 官网下载，然后安装，在包含目录里配置include路径和库目录路径lib，添加vld.lib，在debug模式下，属性-》链接器-》生成调试信息选择debug full.需要在程序运行结束后生成调试信息。可以使用自带的trancemalloc,比较两次snapshot。1、可以使用自带的调试-》性能探查器，两次获取截图即可。

2024-04-17 16:00:49 162

转载 procreate笔记

如果有白边，可以按住笔向右拖动，屏幕顶端出现“色彩快填阈值”，往右滑动增加阈值会填满。1.自动：与PS魔棒工具类似，先点击选择某个部分然后按住向右拖动，可以扩大选择范围直到选择到合适的区域范围。可以新建剪辑蒙版，效果一样但是可以在新图层操作，不影响原图层。三.画笔：1.画笔库向下拉，最上面出现“＋”，点击新建画笔组合，笔刷向右滑动可多选，用左手拖动复制笔刷到用笔点击新组合可将画笔增加到新建组合。一.主界面：1.在主界面双指按住画布可以旋转画布，双指同时放大画布预览，双指同时缩小退出预览。

2024-04-14 22:54:14 330

原创 Cmake学习笔记3

这条指令可以用来设置输出的名称，对于动态库，还可以用来指定动态库版本和API版本。1、同时创建动态连接和静态连接库。

2024-04-10 14:38:25 298

原创 CMake 学习笔记2

生成可执行文件ADD_EXECUTABLE(hello main.cpp)指令（参数1 参数2 ...）参数使用括弧扩起，参数之间使用空格或分号分开。指令是大小写无关的，参数和变量是大小写相关的，但推荐指令全部大写。注意：工程名HELLO和生成的可执行文件hello是没有关系的。变量使用${}方式取值，但是在IF控制语句中是直接使用变量名。向终端输出用户自定义的信息。

2024-04-10 10:33:13 371

原创 GRPC学习

2 请求的数据怎么封装，响应的数据又怎么封装。也是通过protobuffer 做序列化。1 客户端发送一个sayhello 请求，服务器端怎么识别。定义proto 文件，传输数据类型，调用函数接口定义。可以用proto 生成接口，用cmake。1 把grpc编译成功。2 学习grpc范例。3 看proto文件。

2024-04-09 17:16:17 285

原创 Vscode g++ cmake 学习笔记1

1 Linux常用指令。4th gdb 调试器。

2024-03-12 16:54:21 643

原创 grpc笔记2-protobuf举例练习

1、在pycharm中安装有protobuf support之后，可以生成一个hello.proto文件作为定义protobuf。(表示生成的python放在当前目录,grpc需要用的python的目录，input来自目录与文件)//name是名称，1是变化并不是name的值。from proto_file.proto(文件路径) import hello_pb2。request= hello_pb2.HelloRequet()#相当于类实例化对象。4、新建client.py。#生成的pb文件不要修改。

2023-01-09 16:34:48 410

原创 grpc学习笔记1

grpc可以使用protobuf进行数据处理，protobuf主流目前使用2、3，目前推荐用3,3修复了一些bug。可以使用的python 下载镜像网站 https://pypi.douban.com/simple。pycharm中安装protobuf support来支持pycharm中用proto。protobuf3有自己专门的定义格式-门槛。grpc 前安装的包。

2023-01-09 15:29:56 162

原创深度学习资料

深度学习书籍推荐

2023-01-06 16:45:14 159

原创迭代去噪算法推导

2022-10-18 10:54:14 299

原创图像重建常用数据库

高清图像数据集和有雾图像数据集

2022-08-23 22:42:00 352

原创 KnowYourself笔记

1、小白姐妹卡片的话：“诚实面对自我，给多一点自我关怀接纳别人可能的对你的不接纳你是有力量的去探索和塑造那个喜欢的自我这是一条只关乎自己的道路”2、欲望与什么是自己真正想要的。3、向内归因可能会比较容易，但是很多事情是相互的，发生问题不一定是一方的问题4、父母期待的人与我自己心中想成为的自己...

2021-12-19 20:52:22 252

原创 AI讲座笔记Wu Andrew

工具：TF、pytorch、mxnet、pphow to choose an AI project1\small开始2、automate tasks,not

2021-06-03 15:27:00 134

原创哈佛公开课--网易公开课笔记--积极心理学

1、成功的人的特质looking up opening up终身学习者2、学完这门课问自己有什么变化研究消极与积极的文章比例为21：1如果一个人21天都i不开心只有一天开心，这不是一件好事情如果一个人一天21个小时都不开心，只有一个小时开心，这不好抑郁症再增加because we measure betteror there's more awarenessthat's not all ,objectly there's more depression...

2021-01-14 21:28:56 505

原创关键点算法综述学习

原文pdf网址：Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods (arxiv.org)知乎已有博主的翻译：2020 Pose Estimation人体骨骼关键点检测综述笔记（有空更新） - 知乎 (zhihu.com)

2020-12-10 17:34:52 302

原创好用的pdf转word网址

PDF转换成Word在线转换器 - 免费 - CleverPDF

2020-12-10 17:33:08 122

原创 tensorRT+windows

1、找到对应的cuda版本的tensorRT,下载后解压2、在python环境中conda建立虚拟环境、安装tensorflow-gpu3、pip安装tensorRT文件夹中graphsurgeon和uff4、下载mnist数据5、打开\TensorRT-6.0.1.5\data\mnist运行python generate_pgms.py生成pgm图像数据6、打开data\samples\sampleMNIST里的sln工程，配置对应的sdk环境和vs环境（我的电脑是8.1和v140）

2020-10-12 15:31:48 1157

原创 pytorch使用module训练线性不可分数据

参考代码https://github.com/L1aoXingyu/code-of-learn-deep-learning-with-pytorch

2020-09-24 15:31:48 171

原创 pytorch学习简单的nn和mnist分类

https://github.com/L1aoXingyu/code-of-learn-deep-learning-with-pytorch参考以上网址的代码import numpy as npimport torchfrom torchvision.datasets import mnistimport matplotlib.pyplot as pltfrom torch import nnfrom torch.autograd import Variabletrain_set

2020-09-24 15:29:47 696

空空如也

空空如也