一条数据库-CSDN博客

原创搜狐新闻9.7亿条中文新闻大数据集，覆盖2016年至今多领域时政财经科技文化资讯，支持大语言模型训练、舆情分析、推荐算法与社会研究应用

搜狐新闻9.7亿全量数据集（2016年至今）是高质量中文新闻语料资源，覆盖时政、经济、社会等多领域。该数据集规模庞大（9.7亿条）、时间跨度长、内容多样且结构化程度高，适用于舆情分析、大语言模型训练、推荐算法研发及传播学研究等场景。样例数据显示其包含标题、正文、图片等丰富字段，为中文NLP研究提供了宝贵的真实场景数据资源。

2025-08-22 11:12:59 262

原创 1.2 亿篇论文数据集，多学科学术语料库，涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学，用于 NLP、知识图谱与大模型训

本文介绍了一个规模达1.2亿篇、总量110TB的跨学科论文数据集，覆盖医学、理工、人文等主流领域。该数据集具有规模大、学科全、质量高等优势，适用于NLP、知识图谱构建、大模型训练等多种智能应用场景。具体可支持文本分类、语义检索、学术网络分析、科研趋势预测等任务，为学术研究和人工智能发展提供高质量语料基础。

2025-08-21 11:27:35 659

原创四川方言语音识别数据集，1500小时合规真人采集，高质量标注助力ASR与大模型训练

四川方言语音识别数据集提供1500小时高质量语音数据，配套精准标注，助力方言识别技术发展。该数据集采用真人采集，16kHz采样率，字准率≥98%，涵盖日常对话、客服等多样场景，可有效提升语音模型在智能客服、车载交互等应用中的识别准确率。适用于方言识别模型训练、语音助手本地化优化及大模型语音能力增强，推动AI技术在西南地区的落地应用。

2025-08-20 11:40:04 863

原创微信公众号原创文章数据集，涵盖科技财经教育娱乐美食旅游等多领域，支持内容推荐、舆情分析、情感识别与大模型训练，系统化整理含标题正文互动指标，NLP与AIGC高质量语料首选

摘要：微信公众号作为国内最大内容平台，每日产生海量原创文章，覆盖科技、财经、教育等全领域。这些数据在推荐系统、舆情分析和大模型训练中具有重要价值。文章详细解析了公众号数据结构与应用场景，包括NLP情感分析、话题分类、用户画像构建、多模态推荐等内容，并强调数据对爆款内容生成和商业分析的支撑作用。

2025-08-19 11:46:57 2341

原创大规模高清图片数据集 300万张图像涵盖综艺短剧美食人物建筑自然等场景质量过硬分辨率不低于1K 支持灵活标签和描述定制应用于文生图图像识别跨模态检索与生成式AI

摘要：本数据集包含300万张高清图片（分辨率≥1K），覆盖综艺、短剧、美食、人物、建筑等多元化场景，突破传统数据集场景单一的局限。支持定制标题、标签等结构化元数据，适用于大模型视觉预训练、多模态学习、图像检索及生成式AI训练等任务。高清质量与多样化特性可提升模型泛化能力，特别适合CLIP、Stable Diffusion等跨模态与生成式模型的开发需求。数据提供方为典枢数据，助力AI在创意设计、内容管理等领域的应用落地。（149字）

2025-08-18 15:29:01 1039

原创三万小时PB级院线级电影数据集，包含完整视频、音频和字幕多模态资源，专为视频大模型训练和多模态研究设计，适用于文生视频生成、影视剪辑、语义检索及智能内容管理

本文介绍了一种院线级电影多模态数据集，专为训练视频大模型设计。该数据集包含数百部高清电影（1080p-4K），总时长超3万小时，拆分为严格对齐的视频流、音频流和字幕文件，并附带完整IMDB元数据。相比网络视频，其优势在于：高清画质、专业内容质量、丰富场景多样性，以及多模态数据的精确对齐和结构化管理。该数据集支持文生视频训练、多模态融合研究、视频检索管理等应用场景，能有效提升模型在视频理解、生成与编辑方面的能力。

2025-08-17 10:13:51 3441

原创肾结石分类和对象检测数据集肾结石检测超声图像数据集含 9416 张原始处理图像适用于肾结石检测模型训练医学影像资源

摘要：本数据集收录9416张肾脏超声图像（4414张正常/5002张结石），分辨率512×512，采集自多型号三星超声机。数据集特点包括：1）平衡的类别分布减少模型偏差；2）标准化标注涵盖结石特征（高回声点/声影）；3）多源数据提升泛化性。适用于AI模型训练（检测/分类）、医学教育及临床研究，采用CC BY 4.0协议开放共享。数据优势体现在高质量图像、精确标注及跨设备适用性，可有效支持肾结石辅助诊断系统开发。（149字）

2025-08-16 10:15:00 3047

原创自动驾驶ADAS数据集 13万张高清道路车辆识别图像覆盖多场景智能交通应用支持目标检测图像识别模型训练与AI视觉算法开发

本数据集涵盖13万张多场景道路车辆图像，覆盖城市道路、高速、乡村等20+场景及8种光照和天气条件。包含轿车、SUV、卡车、摩托车等多类型车辆，支持自动驾驶、ADAS功能研发、车联网安全检测和智能交通监控等应用。标注精细，包括3D包围框、关键点及遮挡率信息，兼容COCO、YOLO、TFRecord等格式，可直接用于TensorFlow/PyTorch训练。数据来源多传感器融合采集，经过严格清洗与人工校验，保证高质量。适配从边缘设备到数据中心的全链路训练，支持多场景增量更新与扩展接口，满足全季节、全天候智能交通

2025-08-15 10:26:24 3057