- 论文标题: CodeGemma: Open Code Models Based on Gemma
- 机构: Google LLC
- 论文链接: https://arxiv.org/pdf/2406.11409.pdf
CodeGemma模型概述
CodeGemma是基于Google DeepMind的Gemma模型系列(Gemma Team et al., 2024)开发的一系列开放代码模型。这些模型继承了Gemma预训练模型的基础,并在此基础上进一步训练,使用的数据主要是代码,训练数据量在5000亿到1000亿token之间。CodeGemma模型在代码完成和生成任务中达到了最先进的性能,同时在大规模情况下仍保持强大的理解和推理能力。
CodeGemma发布了三种模型:一个7B的代码预训练模型,一个7B的指令调优代码模型,以及一个专门为代码填充和开放式生成训练的2B模型。这些模型的系谱在文中的图1中有所展示。
在发布的第一个版本(v1.0)中,包括了所有三种模型,随后在一个月后的第二个版本(v1.1)中,对预训练的2B模型和指令调优的7B模型进行了更新。如果速度不是关键考虑因素,建议使用v1.1版本,因为它在质量上有较好的平衡提升。
模型训练和数据处理
1. 数据处理和预训练