- 博客(20)
- 收藏
- 关注
原创 模型的损失值不下降问题
学习率过高或过低。梯度消失或爆炸。数据问题(噪声、数据不平衡等)。模型复杂度(过拟合或欠拟合)。优化器设置不当。损失函数不匹配。训练轮次不够或过早停止。逐一排查这些因素,通常能够找到问题所在,并有针对性地进行改进。
2025-04-29 13:01:31
1319
原创 bert模型和gpt模型的区别
特性BERTGPT架构Encoder-only (双向上下文)Decoder-only (单向上下文)训练任务输入输出主要用于理解任务,输出句子表示主要用于生成任务,输出一个个生成的词优点适用于理解任务,双向捕捉上下文信息强大的生成能力,流畅自然的文本生成缺点不擅长生成文本,计算较慢只考虑前文,生成时不考虑全局上下文小结BERT更侧重于理解任务,擅长从文本中提取信息(例如,文本分类和问答)。GPT更侧重于生成任务,能够生成连贯且流畅的文本(例如,对话生成和创作)。
2025-04-29 12:59:48
1095
原创 能否使用神经网络模型学习到sha256的规律
简短回答:不能有效学习到。详细解释:SHA-256 是一种加密哈希函数,它的设计目标就是让输出(哈希值)对于输入来说不可预测且无模式可循。具体特点包括:而神经网络(尤其是标准的前馈神经网络或Transformer等)擅长学习有统计规律的数据,比如:但是,SHA-256特意破坏了任何可学的统计规律。哪怕是再深、再大的神经网络,也只能做到跟“瞎猜”差不多的效果,比如输出 256位随机比特流,和真实SHA-256差别很大。总结:
2025-04-29 12:56:34
298
原创 四、Transformers, pytorch微调预训练模型
与 Pytorch 类似,Transformers 库同样实现了很多的优化器,并且相比 Pytorch 固定学习率,Transformers 库的优化器会随着训练过程逐步减小学习率(通常会产生更好的效果)。在大多数情况下,我们还需要根据验证集上的表现来调整超参数以及选出最好的模型,最后再将选出的模型应用于测试集以评估性能。函数来加载模型参数。可以看到模型输出了一个 4×2 的张量,符合我们的预期(每个样本输出 2 维的 logits 值分别表示两个类别的预测分数,batch 内共 4 个样本)。
2025-03-18 15:52:47
854
原创 三、Transformers 模型和分词器
Transformer模型,分词器,处理多段文本,添加Token,Token embedding初始化
2025-03-15 14:25:32
986
原创 二、pipelines 工作流程
Transformer包提供了一个AutoModel类和对应的from_pretrained()函数。预训练模型只包含基础的Transformer模块,对于给定的输入,它会输出包含文本高维语义的向量值,需要送到模型的其他部分获取输入,如送入到分类头中完成文本分类任务。将文本转为模型可以理解的数字。注意,每个模型都有特定的预处理操作,我们需要将输入的文本预处理成与模型自身预训练时的操作完全一致,模型才能正常的工作。神经网络模型无法直接处理文本,因此需要通过。
2025-03-13 15:15:46
576
原创 一、Transformers开箱即用的pipelines
自动摘要旨在将长文本压缩为短文本,并且还要尽可能的保留原文的主要信息# 自动摘要 默认使用sshleifer/distilbart-cnn-12-6模型"""""",运行结果。
2025-03-13 15:14:42
877
原创 使用Pytorch、Transformers实现transformer encoder
【代码】使用Pytorch、Transformers实现transformer encoder。
2025-03-12 14:36:53
459
原创 设置anacoda和pip镜像源以及解决anaconda安装慢的问题,使用其他解决方案
设置anacoda和pip镜像源以及解决anaconda安装慢的问题,使用mamba解决方案
2024-11-21 16:31:32
755
原创 conda-script.py: error: argument COMMAND: invalid choice: ‘activate‘
添加到之前python环境之上。
2023-12-06 22:33:41
955
1
原创 pcap_open_offline_with_tstamp_precision is not supported by the pcap library installed in this envir
这是因为没有安装Npcap环境,安装后即可正常读取。
2023-10-30 20:42:06
322
1
原创 使用神经网络训练、分类图片,simple nn
下深度学习:属于机器学习,相较于传统机器学习需要自己指定需要训练的特征,深度学习会自己寻找重要的特征进行训练。
2023-10-28 15:02:21
165
1
原创 Jupyter Lab Jupyter Notebook安装
Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。Jupyter Notebook是以网页的形式打开,可以在网页页面中。jupyterlab和jupyter notebook区别,jupyterlab功能更多,时也拥有jupyter notebook的功能。也会直接在代码块下显示的程序。前提安装了python,连接。启动:启动后会自动打开浏览器。jypyter lab界面。
2023-09-06 22:16:17
118
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人