logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

真实世界人员检测数据集包含高质量 YOLO 标注、即插即用训练验证测试集,适用智能监控、自动驾驶、人群分析与机器人导航的模型训练语料

【摘要】Roboflow人员检测数据集是针对计算机视觉任务构建的高质量资源,包含1.94GB真实场景图像,采用YOLO格式进行精准标注。数据集覆盖多元环境条件,经过专业预处理和拆分,具备即插即用特性。其核心优势体现在真实场景多样性、标注精确性、实时性能优化等方面,适用于智能安防、自动驾驶、商业分析和服务机器人等多个领域。该数据集通过提供高质量训练样本,显著提升模型在复杂环境中的检测准确率和泛化能力

#人工智能#深度学习#机器学习
5198 张高清无人机火灾烟雾图像数据集 | 多场景标注 | AI 火灾检测训练用

摘要: 无人机与AI视觉技术为火灾检测提供创新解决方案,克服传统监控的视角局限与响应延迟问题。本数据集包含5198张高清无人机拍摄的真实火灾与烟雾图像,覆盖城市、森林、农田等多场景,满足深度学习模型训练需求。数据支持目标检测、场景分类及语义分割任务,可应用于YOLO等模型,实现视频流实时火情预警。数据集通过平衡采样与数据增强提升泛化性,为智慧安防系统提供可靠训练基础。

#人工智能#机器学习
30万份行业报告数据集:覆盖金融科技医疗能源等20+行业领域,2010-2024年完整时间跨度,提供高质量PDF和文本格式,支持深度学习模型训练、行业趋势分析、市场竞争研究、学术论文写作的多场景应用

30万份行业报告数据集覆盖科技、金融等20+领域(2010-2024年),包含PDF/文本格式及元数据。该清洗后的高质量数据支持四大核心应用:1)市场趋势与竞争分析;2)NLP模型训练;3)学术文本挖掘;4)企业知识管理。特别适合训练垂直领域AI模型,提供结构化行业洞察,助力研究机构与企业实现数据驱动的分析决策。

#大数据#人工智能
超2000万条高清短视频大数据集,覆盖人物风景动物美食纪录片多主题,1080p无水印视频素材支持大模型视觉识别训练、文生视频生成、推荐算法优化与跨学科科研应用

数据覆盖多种主题类型,包括人物、风景、动物、美食和纪录片等,标注信息针对视频主题和描述进行了有效处理,并可提供定制化标签服务,例如添加对象检测、场景分类或情感分析标注,以满足特定项目需求。例如,在电商领域,模型可自动分析产品视频中的特征,增强搜索和推荐功能,为用户提供更精准的体验。本数据集汇集了海量原始视频素材,覆盖广泛主题,不仅为学术研究提供了丰富的实验基础,还在工业应用中发挥着重要作用,例如提

#人工智能#大数据
1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训

本文介绍了一个规模达1.2亿篇、总量110TB的跨学科论文数据集,覆盖医学、理工、人文等主流领域。该数据集具有规模大、学科全、质量高等优势,适用于NLP、知识图谱构建、大模型训练等多种智能应用场景。具体可支持文本分类、语义检索、学术网络分析、科研趋势预测等任务,为学术研究和人工智能发展提供高质量语料基础。

#机器学习#人工智能
1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训

本文介绍了一个规模达1.2亿篇、总量110TB的跨学科论文数据集,覆盖医学、理工、人文等主流领域。该数据集具有规模大、学科全、质量高等优势,适用于NLP、知识图谱构建、大模型训练等多种智能应用场景。具体可支持文本分类、语义检索、学术网络分析、科研趋势预测等任务,为学术研究和人工智能发展提供高质量语料基础。

#机器学习#人工智能
四川方言语音识别数据集,1500小时合规真人采集,高质量标注助力ASR与大模型训练

四川方言语音识别数据集提供1500小时高质量语音数据,配套精准标注,助力方言识别技术发展。该数据集采用真人采集,16kHz采样率,字准率≥98%,涵盖日常对话、客服等多样场景,可有效提升语音模型在智能客服、车载交互等应用中的识别准确率。适用于方言识别模型训练、语音助手本地化优化及大模型语音能力增强,推动AI技术在西南地区的落地应用。

文章图片
#语音识别#人工智能
微信公众号原创文章数据集,涵盖科技财经教育娱乐美食旅游等多领域,支持内容推荐、舆情分析、情感识别与大模型训练,系统化整理含标题正文互动指标,NLP与AIGC高质量语料首选

摘要:微信公众号作为国内最大内容平台,每日产生海量原创文章,覆盖科技、财经、教育等全领域。这些数据在推荐系统、舆情分析和大模型训练中具有重要价值。文章详细解析了公众号数据结构与应用场景,包括NLP情感分析、话题分类、用户画像构建、多模态推荐等内容,并强调数据对爆款内容生成和商业分析的支撑作用。

#人工智能#机器学习
大规模高清图片数据集 300万张图像涵盖综艺短剧美食人物建筑自然等场景 质量过硬 分辨率不低于1K 支持灵活标签和描述定制 应用于文生图 图像识别 跨模态检索与生成式AI

摘要: 本数据集包含300万张高清图片(分辨率≥1K),覆盖综艺、短剧、美食、人物、建筑等多元化场景,突破传统数据集场景单一的局限。支持定制标题、标签等结构化元数据,适用于大模型视觉预训练、多模态学习、图像检索及生成式AI训练等任务。高清质量与多样化特性可提升模型泛化能力,特别适合CLIP、Stable Diffusion等跨模态与生成式模型的开发需求。数据提供方为典枢数据,助力AI在创意设计、内

#人工智能
三万小时PB级院线级电影数据集,包含完整视频、音频和字幕多模态资源,专为视频大模型训练和多模态研究设计,适用于文生视频生成、影视剪辑、语义检索及智能内容管理

本文介绍了一种院线级电影多模态数据集,专为训练视频大模型设计。该数据集包含数百部高清电影(1080p-4K),总时长超3万小时,拆分为严格对齐的视频流、音频流和字幕文件,并附带完整IMDB元数据。相比网络视频,其优势在于:高清画质、专业内容质量、丰富场景多样性,以及多模态数据的精确对齐和结构化管理。该数据集支持文生视频训练、多模态融合研究、视频检索管理等应用场景,能有效提升模型在视频理解、生成与编

#机器学习#人工智能
    共 14 条
  • 1
  • 2
  • 请选择