人工智能项目开发流程:需求分析 数据准备 模型训练 模型应用
需求分析:常用方式头脑风暴、竞品分析、用户调研、数据分析
需求分析方法
kano(需求优先级排序)
基本型需求、期望型需求、兴奋型需求、无差异需求、反向型需求。
数据准备:
数据采集、数据处理、数据标注
1. 数据采集
定义:数据采集是构建机器学习数据集的初始阶段,指根据特定任务目标,从预设的数据源范围内系统性地获取原始数据的过程。
核心活动:
- 源识别与定义:明确数据来源(如公开数据库、传感器、业务日志、网络爬虫、合作采购等)。
- 规模与分布规划:确定数据总量,并规划数据在不同类别、场景或条件下的分布,以确保数据集的代表性和多样性。
- 原始数据获取:执行技术手段(如API调用、爬虫、日志记录、设备采集)来收集未经加工的原始数据(图像、文本、音频、视频等)。
目标:构建一个在规模、覆盖面和相关性上都能满足模型学习要求的基础原始数据集。
2. 数据处理
定义:数据处理(或称数据预处理)是在数据标注与模型训练之前,对原始数据集进行清洗、转换和标准化的工程技术过程。
核心活动:
- 数据清洗:剔除无效数据(如损坏的图片文件、空文本、纯噪声音频)、处理缺失值、去除重复样本。
- 数据规范化:将数据转换为一致的格式和标准(如统一图像分辨率、音频采样率、文本编码)。
- 数据增强:应用一系列技术(如旋转、裁剪、色彩调整、添加噪声、回译等)人工扩充数据集规模与多样性,以提升模型的鲁棒性。
- 数据划分:将数据集按预定比例(如70%-15%-15%)划分为训练集、验证集和测试集,分别用于模型训练、超参数调优和最终性能评估。
目标:将原始“脏数据”转化为高质量、一致化、可用于机器学习 pipeline 的干净数据,是保障模型性能的基础。
3. 数据标注