一、模型概述
AQUA-7B 是 Kurma AI 推出的全球水产养殖行业专属的 70 亿参数大型语言模型,也是水产养殖领域的首个大型语言模型。该模型通过精调能够为水产养殖物种特定养殖、孵化场运营、水质控制和疾病管理提供切实可行的见解。其训练基于超 300 万真实和合成水产养殖对话(约 10 亿 tokens),旨在将领域专属的人工智能能力带给全球的养鱼场、孵化场、研究人员以及水产科技创新者。
二、关键功能
-
生产系统与物种管理 :涵盖池塘、水箱、笼子、循环水养殖系统(RAS)、水产循环农业、海水养殖和长线养殖等多种生产系统。为罗非鱼、鲶鱼、鲤鱼、鲑鱼、虾、蟹、牡蛎、鳟鱼、海鲈等物种养殖提供最佳实践指导,支持小农户和工业养殖场。
-
遗传、孵化及早期生命阶段管理 :可指导高级育种、基因编辑、孵化场设计、产卵、幼体护理、育苗系统、活体饲料、运输、卵孵化和生物安全等环节。
-
营养、投喂与生长优化 :提供水质(温度、氧气、pH 值、氨氮、亚硝酸盐、盐度)控制以及疾病管理(识别、疫苗接种、生物安全、抗生素使用和疫情应对)的可执行方案。
-
可持续水产养殖与创新 :倡导在废物管理、环境影响、生物多样性、气候适应等方面推行环保实践,并指导采用人工智能、自动化、传感器、水下无人机和现代养殖场管理等新技术。
-
市场与业务管理 :提供市场趋势、业务规划、监管、认证、溯源和保险方面的建议。涵盖收获、加工、冷链、分级、包装、防污染、危害分析关键控制点(HACCP)和食品安全的最佳实践。
三、训练数据亮点
AQUA-7B 的训练数据包括推广员 - 农民对话和实地咨询日志;联合国粮农组织(FAO)、印度农业研究委员会(ICAR)、美国国家海洋和大气管理局(NOAA)以及同行评审的水产养殖研究成果;来自 5000 多个水产养殖主题的合成问答;气候适应性强的实践方法、孵化场标准操作程序(SOP)和水质数据集等。这些数据经过精心筛选,以支持物种特定的养殖方法,训练规模达到约 300 万真实和合成问答对,总计约 10 亿高质量、领域专属的数据 tokens。
四、模型规格
-
基础模型 :Mistral 7B v0.3(由 Mistral AI 提供)
-
训练 tokens :约 10 亿
-
发布日期 :2025 年 7 月 4 日
-
数据量 :300 多万专家验证和合成指令
-
产地 :由 Kurma AI 在美国开发
-
训练技术 :采用基于 LoRA 的监督式精调(SFT)进行训练
-
训练基础设施 :使用 16 个 NVIDIA H200 GPU 多集群进行训练
五、快速入门指南
提供了基于 Transformers(Google Colab / jupyter)的快速入门方法,包括安装依赖项、使用 Hugging Face 访问令牌登录、从 Huggingface 导入模型等步骤,以及测试提示的示例代码,方便用户快速上手使用 AQUA-7B 模型。
六、协助
该项目得以实现,要感谢 Nebius 提供计算资助和访问 NVIDIA H200 GPU 服务器,为模型训练过程提供算力支持;感谢 Mistral 分享其开源语言模型,使该项目成为可能;同时也要感谢 Kurma AI 研究团队,包括水产养殖专家、机器学习工程师、数据标注员和顾问等,他们协作完成了用于精调该模型的领域专属数据集的筛选、验证和优化工作。
七、免责声明、偏差与局限性
-
领域偏差 :该模型可能会反映出其训练所依据的水产养殖数据来源和行业实践中存在的固有偏差。
-
时间数据局限性 :气候和环境建议基于截至 2024 年的信息,用户应将任何与气候相关的建议与最新咨询意见(如印度气象局或美国国家海洋和大气管理局更新)进行核对。
-
潜在幻觉 :和所有大型语言模型一样,Aqua-7B 偶尔可能会生成不准确或具有误导性的响应(“幻觉”),在进行关键、监管或高影响决策时,应始终由合格的水产养殖专业人士进行验证。
以下是 AQUA-7B 模型的核心技术汇总表格: