李宏毅机器学习HW5-Transformer数据
时间: 2024-08-12 10:06:07 浏览: 193
李宏毅的机器学习课程中提到的HW5(作业5),可能涉及到Transformer模型在自然语言处理任务中的应用。Transformer是一种基于自注意力机制的深度学习模型,最初由Google在2017年提出的BERT(Bidirectional Encoder Representations from Transformers)就是其变种之一。
在HW5的数据部分,学生可能会接触到如何加载和预处理Transformer需要的文本数据,比如常见的英文文本数据集如IMDB电影评论、Twitter情感分析数据,或者是更专业的如WMT机器翻译任务的数据集。他们需要对数据进行分词(Tokenization)、编码(如使用WordPiece或SentencePiece)、填充零(Padding)、切分成训练、验证和测试集等步骤。
此外,可能还会涉及如何配置Transformer模型的结构参数(如头的数量、隐藏层的大小等)、调整优化器和学习率策略,并通过训练过程监控指标如 perplexity 或 BLEU分数来评估模型性能。
阅读全文
相关推荐








