- 博客(13)
- 收藏
- 关注
原创 搜狐新闻9.7亿条中文新闻大数据集,覆盖2016年至今多领域时政财经科技文化资讯,支持大语言模型训练、舆情分析、推荐算法与社会研究应用
搜狐新闻9.7亿全量数据集(2016年至今)是高质量中文新闻语料资源,覆盖时政、经济、社会等多领域。该数据集规模庞大(9.7亿条)、时间跨度长、内容多样且结构化程度高,适用于舆情分析、大语言模型训练、推荐算法研发及传播学研究等场景。样例数据显示其包含标题、正文、图片等丰富字段,为中文NLP研究提供了宝贵的真实场景数据资源。
2025-08-22 11:12:59
262
原创 1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训
本文介绍了一个规模达1.2亿篇、总量110TB的跨学科论文数据集,覆盖医学、理工、人文等主流领域。该数据集具有规模大、学科全、质量高等优势,适用于NLP、知识图谱构建、大模型训练等多种智能应用场景。具体可支持文本分类、语义检索、学术网络分析、科研趋势预测等任务,为学术研究和人工智能发展提供高质量语料基础。
2025-08-21 11:27:35
659
原创 四川方言语音识别数据集,1500小时合规真人采集,高质量标注助力ASR与大模型训练
四川方言语音识别数据集提供1500小时高质量语音数据,配套精准标注,助力方言识别技术发展。该数据集采用真人采集,16kHz采样率,字准率≥98%,涵盖日常对话、客服等多样场景,可有效提升语音模型在智能客服、车载交互等应用中的识别准确率。适用于方言识别模型训练、语音助手本地化优化及大模型语音能力增强,推动AI技术在西南地区的落地应用。
2025-08-20 11:40:04
863
原创 微信公众号原创文章数据集,涵盖科技财经教育娱乐美食旅游等多领域,支持内容推荐、舆情分析、情感识别与大模型训练,系统化整理含标题正文互动指标,NLP与AIGC高质量语料首选
摘要:微信公众号作为国内最大内容平台,每日产生海量原创文章,覆盖科技、财经、教育等全领域。这些数据在推荐系统、舆情分析和大模型训练中具有重要价值。文章详细解析了公众号数据结构与应用场景,包括NLP情感分析、话题分类、用户画像构建、多模态推荐等内容,并强调数据对爆款内容生成和商业分析的支撑作用。
2025-08-19 11:46:57
2341
原创 大规模高清图片数据集 300万张图像涵盖综艺短剧美食人物建筑自然等场景 质量过硬 分辨率不低于1K 支持灵活标签和描述定制 应用于文生图 图像识别 跨模态检索与生成式AI
摘要: 本数据集包含300万张高清图片(分辨率≥1K),覆盖综艺、短剧、美食、人物、建筑等多元化场景,突破传统数据集场景单一的局限。支持定制标题、标签等结构化元数据,适用于大模型视觉预训练、多模态学习、图像检索及生成式AI训练等任务。高清质量与多样化特性可提升模型泛化能力,特别适合CLIP、Stable Diffusion等跨模态与生成式模型的开发需求。数据提供方为典枢数据,助力AI在创意设计、内容管理等领域的应用落地。(149字)
2025-08-18 15:29:01
1039
原创 三万小时PB级院线级电影数据集,包含完整视频、音频和字幕多模态资源,专为视频大模型训练和多模态研究设计,适用于文生视频生成、影视剪辑、语义检索及智能内容管理
本文介绍了一种院线级电影多模态数据集,专为训练视频大模型设计。该数据集包含数百部高清电影(1080p-4K),总时长超3万小时,拆分为严格对齐的视频流、音频流和字幕文件,并附带完整IMDB元数据。相比网络视频,其优势在于:高清画质、专业内容质量、丰富场景多样性,以及多模态数据的精确对齐和结构化管理。该数据集支持文生视频训练、多模态融合研究、视频检索管理等应用场景,能有效提升模型在视频理解、生成与编辑方面的能力。
2025-08-17 10:13:51
3441
原创 肾结石分类和对象检测数据集 肾结石检测超声图像数据集 含 9416 张原始处理图像 适用于肾结石检测模型训练 医学影像资源
摘要:本数据集收录9416张肾脏超声图像(4414张正常/5002张结石),分辨率512×512,采集自多型号三星超声机。数据集特点包括:1)平衡的类别分布减少模型偏差;2)标准化标注涵盖结石特征(高回声点/声影);3)多源数据提升泛化性。适用于AI模型训练(检测/分类)、医学教育及临床研究,采用CC BY 4.0协议开放共享。数据优势体现在高质量图像、精确标注及跨设备适用性,可有效支持肾结石辅助诊断系统开发。(149字)
2025-08-16 10:15:00
3047
原创 自动驾驶ADAS数据集 13万张高清道路车辆识别图像 覆盖多场景智能交通应用 支持目标检测图像识别模型训练与AI视觉算法开发
本数据集涵盖13万张多场景道路车辆图像,覆盖城市道路、高速、乡村等20+场景及8种光照和天气条件。包含轿车、SUV、卡车、摩托车等多类型车辆,支持自动驾驶、ADAS功能研发、车联网安全检测和智能交通监控等应用。标注精细,包括3D包围框、关键点及遮挡率信息,兼容COCO、YOLO、TFRecord等格式,可直接用于TensorFlow/PyTorch训练。数据来源多传感器融合采集,经过严格清洗与人工校验,保证高质量。适配从边缘设备到数据中心的全链路训练,支持多场景增量更新与扩展接口,满足全季节、全天候智能交通
2025-08-15 10:26:24
3057
原创 5198 张高清无人机火灾烟雾图像数据集 | 多场景标注 | AI 火灾检测训练用
摘要: 无人机与AI视觉技术为火灾检测提供创新解决方案,克服传统监控的视角局限与响应延迟问题。本数据集包含5198张高清无人机拍摄的真实火灾与烟雾图像,覆盖城市、森林、农田等多场景,满足深度学习模型训练需求。数据支持目标检测、场景分类及语义分割任务,可应用于YOLO等模型,实现视频流实时火情预警。数据集通过平衡采样与数据增强提升泛化性,为智慧安防系统提供可靠训练基础。
2025-08-14 11:11:44
811
原创 小红书全量笔记数据集(含标题、正文、标签、互动量、图片等),可用于NLP、推荐算法、大模型训练、爆款文章生成、精准营销与市场分析
小红书作为年轻人生活方式分享平台,其UGC内容具有重要研究价值。该数据集包含笔记标题、正文、标签、互动数据、用户信息等结构化字段,支持NLP分析、推荐算法训练、爆款内容生成和商业营销研究。应用场景包括情感分析、话题分类、用户画像构建、多模态推荐等。数据样例展示了笔记内容、图片链接及用户互动情况,为研究者提供真实场景下的社交媒体数据分析基础。该数据集特别适合小红书生态研究,也可为其他平台提供参考模型。
2025-08-13 11:46:59
2253
原创 Spotify 音乐ML练习数据集含158 个特征,11.4 万 + 数据,机器学习入门必备
本文介绍了Spotify机器学习练习数据集及其应用。该数据集包含11.4万+首歌曲的158个特征,涵盖流行度评分、音频特征、流派标签等。文章详细说明了数据预处理过程,包括特征合并、编码转换和工程化处理,并演示了三种典型机器学习任务:使用随机森林预测歌曲流行度的回归任务、基于逻辑回归的流派分类任务,以及利用K-means算法的情绪聚类分析。该数据集为机器学习初学者提供了端到端的实践资源,支持从数据探索到建模评估的全流程练习。
2025-08-12 17:02:19
2092
原创 11000+张多场景英文海报数据集:OCR文字识别训练测试必备,涵盖街景室内特殊场景,支持复杂文本检测
OCR技术面临现实场景中的多重挑战,如光照变化、复杂背景和字体变形等问题,导致实验室高精度模型在实际应用中表现不佳。为提升OCR鲁棒性,可采用数据增强、领域自适应和多模态融合等方法。本文介绍了一个包含11000+张多场景英文文本图片的数据集,涵盖街景、室内和特殊商业场景,支持OCR模型训练及跨领域应用,如计算机视觉与自然语言处理的交叉研究、广告分析和商业决策优化。数据集提供精准标注和多样化样本,适合目标检测模型训练和数据增强,助力提升模型在复杂环境中的识别性能。
2025-08-11 11:04:10
940
原创 从非结构化到结构化:打造高质量题库训练大模型的全流程解析,英文理工题库数据集
本文介绍了题库数据在大模型训练中的价值与应用。题库数据具有高质量、结构化、低噪声的特点,能为模型提供清晰的推理范例。文章详细阐述了题库数据采集与处理的标准化流程,包括OCR识别、公式解析、结构化存储等步骤,并采用Gemini2.5Pro模型进行质量审核,确保90%以上的合格率。最终数据以标准JSON格式存储,包含题目、选项、答案、解析等字段,涵盖多个学科和难度等级。目前已完成数学、物理等四门学科的高质量英文题库整理,适用于大模型训练和科研应用。
2025-08-09 14:32:01
1021
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人