- 博客(6)
- 收藏
- 关注
原创 LLM学习
BERT(2019)GPT-2RobertaBART(2020)decoder-only:又称为生成式架构,仅包含解码器部分。它通常用于序列生成任务,如文本生成、机器翻译等。这种架构的模型适用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时,Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。GPT-3 (2020)PaLM (2022)Mistral (2023)LLaMA (2023)AI
2024-09-07 11:00:05
1609
原创 vscode使用
2、在.vscode下的launch.json 中添加配置项 cwd, 指定运行时起始工作目录为当前文件所在目录。1、文件-首选项-设置:搜索terminal:Execute in File Dir打上对勾。3、使用终端powershell执行python文件,不直接用运行键。
2024-09-07 10:59:00
332
原创 深度学习记录
收敛性:较小的batch_size通常意味着每次迭代使用更少的数据,因此模型在训练过程中会引入更多的随机性。然而,如果batch_size过小,可能会导致模型在训练过程中震荡较大,难以收敛。然而,如果batch_size过小,可能会导致模型在训练集上表现良好,但在验证集或测试集上表现较差,即出现过拟合现象。训练速度:较大的batch_size通常意味着每次迭代处理更多的数据,因此可以减少总的迭代次数,从而加快训练速度。然而,当batch_size过大时,可能会导致GPU或CPU内存不足,从而降低训练速度。
2024-08-17 13:56:57
1542
1
原创 pytorch学习记录
该函数在内部使用了NumPy的C接口,所以它保留了NumPy数组的形状和数据类型。from_numpy()函数用于将NumPy数组转换为PyTorch张量。numpy()函数用于将PyTorch张量转换为NumPy数组。用于在指定的维度上插入一个大小为1的维度。tensor的乘法,输入可以是高维的。
2024-08-17 13:56:50
210
原创 寻找JDK的安装路径,出现shared objects file的问题
JDK位置不是默认,使用java -verbose时出现 shared objects file,找不到jdk位置我是之前安装Android Stdio的时候下载的安卓SDK,然后当时把东西都配好了,但是没有把JDK安装在默认的路径,今天找了好久的JDK才找到。(之前舍友就是建议安装默认的安装路径,但是我相信了自己的脑子能记住它。唉,以后安装啥的还是按默认的位置安装比较好。呜呜呜通过之前配置好的环境变量位置找到的JDK的位置,具体JDK的查找方法可以自行百度,系统变量中的JAVA_HOME的位置就是JD
2022-01-24 21:32:07
8016
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人