5635863 ascend 1586517030
1.2K
昇腾LLM分布式训练框架
Python
5小时前
13128775 iflytekopensource 1706589882
631
讯飞星火开源-13B(iFlytekSpark-13B)拥有130亿参数,新一代认知大模型,一经发布,众多科研院所和高校便期待科大讯飞能够开源。 为了让大家使用的更加方便,科大讯飞增加了更多的数据,并针对工具链进行了优化。此次正式开源拥有130亿参数的iFlytekSpark-13B模型(讯飞星火开源-13B),也是首个基于全国产化算力平台“飞星一号”的大模型,正式开源!
Python
1年前
8375569 charent 1703476813
193
中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。
Python
1年前
12 mirrors 1578989292
61
DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数
Python
1天前
9090342 chairc 1646386758
37
IDDM(工业,景观,动画…),diffusion model,支持DDPM, DDIM, PLMS, web和多gpu分布式训练。Pytorch实现、生成模型、扩散模型、分布式训练
Python
6天前
12 mirrors 1578989292
36
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型
Python
1天前
13128775 iflytekopensource 1706589882
17
星火开源大模型13BGPU的模型权重
Python
1年多前
12 mirrors 1578989292
14
Skywork是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-M
Python
1天前
12 mirrors 1578989292
3
Qwen3 是 Qwen 系列大型语言模型的最新成员,包含多种模型版本
Python
1天前
2
上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语200亿参数模型版本 InternLM-20B ,InternLM-20B 在超过 2.3T Tokens 包含高质量英文、中文和代码的数据上进行预训练,其中 Chat 版本还经过了 SFT 和 RLHF 训练,使其能够更好、更安全地满足用户的需求
Python
1年多前

搜索帮助