MindSpeed-LLM-AI人工智能资源资源-CSDN下载

共1386个文件

sh：870个

py：296个

json：94个

需积分: 1 143 浏览量 2025-07-13 06:39:46 上传评论收藏 17.42MB ZIP 举报

标题“MindSpeed-LLM-AI人工智能资源”表明了该压缩包内容涉及人工智能领域，特别是与LLM（Large Language Model）相关。LLM是一种基于深度学习技术的语言模型，通常用于文本理解和生成，它能够处理大量数据并从中学习语言的模式，从而能够对自然语言处理任务进行高效的预测和生成。描述中的“LLM”暗示着这个压缩包可能包含了与大语言模型构建、训练、评估、优化等相关的文件资源。这些文件可能构成了一个完整的项目框架，用于支持LLM的研究和开发工作。标签“MindSpeed LLM AI 人工智能资源”进一步强化了上述主题，指明这些文件是针对人工智能领域中快速发展的语言模型技术的资源集合。文件名称列表揭示了该压缩包内包含的具体文件及其可能的功能： - .gitignore：通常用于配置Git版本控制系统，忽略对不需要版本控制的文件进行跟踪，比如编译生成的文件、系统文件等。 - LICENSE：包含了软件的许可证信息，定义了用户使用该软件资源时的权利和限制。 - SECURITYNOTE.md：可能是一个安全说明文档，提供了该资源在安全方面的注意事项和指南。 - OWNERS：可能是项目所有者的列表文件，记录了负责维护和拥有项目文件的个人或团队。 - img.png：很可能是一个图像文件，用于展示项目相关的图表、界面截图或其他视觉元素。 - preprocess_data.py：该文件名暗示它是一个Python脚本，用于对数据进行预处理，这是机器学习项目中常见的步骤，目的是使数据更加适合模型训练。 - evaluation.py：同样是一个Python脚本，它可能用于对训练好的模型进行性能评估，通过一系列的测试来验证模型的有效性和准确性。 - pretrain_gpt.py：这个文件可能包含了使用GPT（Generative Pre-trained Transformer）模型进行预训练的代码，GPT是一种广泛使用的基于Transformer架构的预训练语言模型。 - pretrain_mamba.py：虽然mamba不是一个广为人知的深度学习框架，但这个文件名表明它可能是一个自定义的或特定于项目的预训练模型脚本。 - convert_ckpt.py：这个Python脚本可能用于转换模型检查点（checkpoint），即将模型训练过程中的某个阶段的状态保存下来，以便后续加载和进一步训练或部署。综合以上文件列表，我们可以推断出这个压缩包是针对开发和研究LLM相关技术的一整套工具和代码资源。它可能适用于计算机科学家、工程师和研究者，他们致力于使用人工智能技术处理自然语言，进行文本分析，构建智能对话系统，或者对现有的语言模型进行优化。

资源推荐

资源详情

资源评论

收起资源包目录

MindSpeed-LLM-AI人工智能资源（1386个子文件）

.gitignore 2KB

mmlu_5shot_template.json 124KB

bbh_cot_template.json 77KB

ceval_5shot_template.json 77KB

cmmlu_5shot_template.json 55KB

AGI_fewshot.json 42KB

bbh_template.json 32KB

model_cfg.json 27KB

param_config.json 18KB

test_checkpoint.json 18KB

test_inference.json 15KB

test_evaluate.json 15KB

param_config.json 11KB

templates.json 11KB

test_inference.json 10KB

test_evaluate.json 8KB

test_checkpoint.json 8KB

test_inference.json 7KB

param_config.json 5KB

test_rotary_pos_embedding.json 5KB

test_evaluate.json 4KB

test_process_instruction_data.json 4KB

param_config.json 4KB

test_process_instruction_data_lf.json 4KB

param_config.json 4KB

test_preprocess_data.json 4KB

test_checkpoint.json 3KB

cmmlu_subject_mapping.json 3KB

tune_llama2_tp2_pp4_vpp2_mcore_full.json 2KB

llama2_tp8_pp1_coc_ptd.json 2KB

phi35_moe_tp1_pp8_mcore.json 2KB

llama2_tp2_pp4_vpp2_legacy.json 2KB

llama2_tp4pp2vpp2_tp2d_tpx2tpy2.json 2KB

llama2_tp1_pp8_patch_gloo_ptd.json 2KB

baichuan2_13B_tp8_pp1_ptd.json 2KB

gemma_7B_legacy_tp8_pp1_ptd.json 2KB

gpt4_mcore_tp4_cp2_32k_moe_drop.json 2KB

baichuan2_13b_tp8_pp1_mcore.json 2KB

bloom_7B_legacy_tp8_pp1_ptd.json 2KB

qwen15_7b_legacy_tp8_pp1_ptd.json 2KB

llama2_tp2_pp4_vpp2_swap.json 2KB

cmmlu_answer_finding_patterns.json 2KB

train_prm_llama2_tp1_pp8_full_ptd.json 2KB

tune_qwen7b_tp8_pp1_full_ptd.json 2KB

train_orm_mixtral_tp2_pp2_cp2_ep2.json 2KB

train_orm_chatglm3_tp2_pp4_full.json 2KB

llama2_tp2_pp4_vpp2_ptd.json 2KB

dpo_full_llama3_8b_ptd_tp2pp2vpp2cp2.json 2KB

tune_llama2_tp2_pp4_lora_ptd.json 2KB

simpo_full_llama3_8b_ptd_tp2pp2vpp2cp2.json 2KB

mamba2_8b_tp8_pp1_4k_ptd.json 2KB

mixtral_mcore_tp4_cp2_ep2_ptd.json 2KB

llama2_tp2_cp4_general_double_ring.json 2KB

gemma2_tp8_pp1_ptd.json 2KB

internlm3_8b_tp1_pp4_cp2_ptd.json 2KB

test_process_pretrain_data.json 2KB

test_topk_router.json 2KB

qwen2_moe_tp1_pp2_ep2_cp2_32k.json 1KB

deepseek_v3_mcore_tp1_pp2_ep4.json 1KB

tune_mixtral_tp2_pp2_lora_ptd.json 1KB

deepseek_500b_tp1_pp2_ep2_cp2_overlap.json 1KB

test_process_pairwise_data_lf.json 1KB

mixtral_tp1_pp4_ep2_drop_mcore.json 1KB

deepseek2_tp1_pp1_mcore_moe.json 1KB

dpo_full_mixtral_8x7b_ptd_tp1pp2vpp2ep2cp2.json 1KB

dpo_lora_mixtral_8x7b_ptd_tp2pp1ep2cp2.json 1KB

chatglm3_gqa_cp4.json 1KB

llama3_mcore_tp2_pp2_vpp2_noop_layer.json 1KB

tune_llama2_tp2_cp2_adaptive_cp.json 1KB

mixtral_tp1_pp4_ep2_drop_dpp.json 1KB

llama3_tp2_pp2_vpp1.json 1KB

grok1_40b_tp4_ep2_ptd.json 1KB

glm4_9b_8k_tp2_pp2_ptd.json 1KB

chatglm3_tp1_pp2_rope.json 1KB

chatglm3_tp1_pp2_legacy.json 1KB

trl_ppo_llama32_1b_ptd_tp2pp2.json 1023B

deepseek_v2_mcore_tp1_pp1_ep8.json 948B

tune_qwen25_0point5b_tp1_pp1_pack.json 938B

minicpm_2b_tp1_pp1.json 937B

train_orm_llama2_7b_pp2_vpp2_dp2.json 859B

lora_cfg.json 827B

gsm8k_3shot_template.json 804B

tune_llama2_tp1_pp1_lora_ptd.json 742B

param_config.json 739B

tune_llama2_tp1_pp1_qlora_ptd.json 730B

tune_hunyuanLarge_389b_tp1_pp1_ep8_ptd.json 701B

mamba2_2.7b_tp1_pp1.json 699B

layer_order.json 663B

param_config.json 472B

deepseek_v3_sft.json 320B

ray_ppo_full_llama32_1b_tp1pp1.json 319B

ray_grpo_full_llama32_1b_tp1pp1.json 318B

ray_online_dpo_full_llama32_1b_tp1pp1.json 318B

deepseek_v3_pretrain.json 315B

LICENSE 14KB

dense_model.md 32KB

checkpoint_convert.md 30KB

quick_start.md 28KB

models_evaluation.md 14KB

共 1386 条

# Copyright (c) 2024, HUAWEI CORPORATION. All rights reserved. import abc import os import sys import re import json from types import SimpleNamespace import logging as logger from pathlib import Path from collections import OrderedDict from tqdm import tqdm import torch from transformers import AutoModelForCausalLM, AutoConfig, AutoModelForSequenceClassification from peft import get_peft_model, LoraConfig, TaskType from megatron.core import mpu from megatron.training.arguments import validate_args from megatron.legacy.model import module from megatron.core.enums import ModelType from megatron.training.checkpointing import load_args_from_checkpoint from megatron.training.global_vars import set_args from megatron.training.checkpointing import load_checkpoint from megatron.core import tensor_parallel from mindspeed_llm.training.utils import parse_args from mindspeed_llm.training import model_provider_func_wrapper from mindspeed_llm.training.checkpointing import load_checkpoint_wrapper logger.basicConfig(format="") logger.getLogger().setLevel(logger.INFO) load_checkpoint = load_checkpoint_wrapper(load_checkpoint) class ModelBase(abc.ABC): def __init__(self, args_cmd=None): self.args_cmd = args_cmd self.args = None self.args_megatron_checkpoint = None self.module = None self.module_mapping = None self.model_cfg = self.read_model_cfg(args_cmd) if self.args_cmd.save_lora_to_hf: self.lora_layer_mappings = self.read_model_cfg(self.args_cmd, True) self.__register_functions() self.kwargs_idx = OrderedDict({ "vp_rank": 0, "ep_rank": 0, "tp_rank": 0, "layer_idx": 0, "expert_idx": 0 }) def update_kwargs_idx(self, **kwargs): for key in self.kwargs_idx: if key in kwargs: self.kwargs_idx[key] = kwargs[key] else: self.kwargs_idx[key] = 0 def __register_functions(self): self.get_module_mapping() def _get_obj(self, value, **kwargs): pattern = r'(\w+)(?:\[(\w+)\])?' matches = re.findall(pattern, value) self.update_kwargs_idx(**kwargs) obj = self.get_model_item(**kwargs) for attr, attr_ident in matches: if hasattr(obj, attr): obj = getattr(obj, attr) else: return None if attr_ident: if attr_ident in self.kwargs_idx: attr_idx = self.kwargs_idx[attr_ident] obj = obj[attr_idx] else: raise AssertionError(f"check {self.__class__.__name__}.module_mapping **{attr_ident}**.") return obj def _get_dst_obj(self, value, **kwargs): if kwargs.get("layer_idx") is None: kwargs["layer_idx"] = kwargs.get("dst_layer_idx") return _get_obj(self, value, **kwargs) def _get_src_obj(self, value, **kwargs): if kwargs.get("layer_idx") is None: kwargs["layer_idx"] = kwargs.get("src_layer_idx") return _get_obj(self, value, **kwargs) def _func_generator_get_module(value): def func(self, **kwargs): return _get_src_obj(self, value, **kwargs) return func def _func_generator_get_weight(value): def func(self, **kwargs): return _get_src_obj(self, value, **kwargs).weight.data return func def _func_generator_get_bias(value): def func(self, **kwargs): return _get_src_obj(self, value, **kwargs).bias.data return func def _func_generator_set_weight(value): def func(self, **kwargs): return _get_dst_obj(self, value, **kwargs).weight.data.copy_(kwargs.get('data')) return func def _func_generator_set_module(value): def func(self, **kwargs): return _get_dst_obj(self, value, **kwargs).data.copy_(kwargs.get('data')) return func def _func_generator_set_bias(value): def func(self, **kwargs): return _get_dst_obj(self, value, **kwargs).bias.data.copy_(kwargs.get('data')) return func def _func_generator_has_module(value): def func(self, **kwargs): obj = _get_src_obj(self, value, **kwargs) return True if obj else False return func def _func_generator_has_bias(value): def func(self, **kwargs): bias = getattr(_get_src_obj(self, value, **kwargs), 'bias', None) return bias is not None return func if self.module_mapping: for key, value in self.module_mapping.items(): setattr(self, "get_" + key + "_module", _func_generator_get_module(value).__get__(self, ModelBase)) setattr(self, "set_" + key + "_module", _func_generator_set_module(value).__get__(self, ModelBase)) setattr(self, "get_" + key + "_weight", _func_generator_get_weight(value).__get__(self, ModelBase)) setattr(self, "get_" + key + "_bias", _func_generator_get_bias(value).__get__(self, ModelBase)) setattr(self, "set_" + key + "_weight", _func_generator_set_weight(value).__get__(self, ModelBase)) setattr(self, "set_" + key + "_bias", _func_generator_set_bias(value).__get__(self, ModelBase)) setattr(self, "has_" + key + "_module", _func_generator_has_module(value).__get__(self, ModelBase)) setattr(self, "has_" + key + "_bias", _func_generator_has_bias(value).__get__(self, ModelBase)) def update_module(self, src_model): if not self.args_cmd.save_lora_to_hf: self.set_preprocess_state(src_model) self.set_postprocess_state(src_model) if not (hasattr(self.args, "noop_layers") and self.args.noop_layers): for layer_idx in tqdm(range(self.args.num_layers), "set layer states"): self.set_layer_state(src_model, layer_idx) return # Do ckpt conversion when noop layer is configured. # For example, hf_layer = [0, 1], add noop layer [1, 3], then mg_layers = [0(0), 1(noop), 2(1), 3(noop)] hf_num_layers = self.args.num_layers - len(self.args.noop_layers) mg_layer_list = [i for i in range(hf_num_layers)] for i in self.args.noop_layers: # insert noop layer mg_layer_list.insert(i, -1) for dst_layer_idx, src_layer_idx in enumerate(mg_layer_list): if self.args_cmd.save_model_type == "hf": if not self.is_noop_layer(src_layer_idx): self.set_layer_state_base(src_model, src_layer_idx=dst_layer_idx, dst_layer_idx=src_layer_idx) else: if not self.is_noop_layer(src_layer_idx): self.set_layer_state_base(src_model, src_layer_idx=src_layer_idx, dst_layer_idx=dst_layer_idx) def set_preprocess_state(self, src_model): """Set embedding params.""" embeddings_weight = src_model.get_embedding_word_embeddings_weight() if embeddings_weight.size(0) > self.get_embedding_word_embeddings_weight().size(0): logger.info(f"Source embedding size: {embeddings_weight.size()} " f"Target embedding size: {self.get_embedding_word_embeddings_weight().size()}") embeddings_weight = embeddings_weight[:self.get_embedding_word_embeddings_weight().size(0), :] self.set_embedding_word_embeddings_weight(data=embeddings_weight) if src_model.has_embedding_word_embeddings_norm_module(): embd_norm_weight = src_model.get_embedding_word_embeddings_norm_weight() embd_norm_bias = src_model.get_embe

评论收藏

内容反馈