清华大学第四弹介绍了一种新型的科研工具——DeepSeek与DeepResearch,该工具通过模拟聊天的方式简化科研流程。DeepSeek与DeepResearch是由北京航空航天大学高研院助理教授沈阳团队与清华大学新闻学院与人工智能学院双聘教授何静团队共同研发的软件,致力于实现科研数据采集、处理、分析、挖掘和可视化的全流程自动化。
DeepSeek与DeepResearch的核心功能包括以下几个方面:
1. 数据采集:通过编写爬虫代码、访问数据库、读取文件、调用API等方式,可以采集社交媒体数据、数据库内容、文本数据、接口数据等不同类型的数据。
2. 数据处理:通过数据清洗、数据集成、数据变换、特征工程等方式,实现数据纠错、数据整合、格式转换、特征提取等任务。
3. 数据分析:进行诊断、预测、关联、聚类分析,常用于问题定位、需求预测、推荐系统、异常检测等领域。
4. 数据应用:包括数据挖掘、社交网络分析、时序模式挖掘等,用于客户细分、信用评分、社交媒体营销、股价预测等。
5. 数据可视化:将数据转化为各种统计图、热力图、网络关系图、词云、树形图等,用以揭示数据中蕴含的模式、趋势、异常和洞见。
DeepSeek与DeepResearch的特点体现在以下几个方面:
- 高效推理:专注于低延迟和小型化设计,平衡性能和优化,适合资源有限的环境。
- 高吞吐量:适合实时应用,轻量化设计,优化推理速度,适用于中等规模任务。
- 多模态支持:支持文本和长文本处理,适用于多种图像处理和复杂文档。
- 多任务支持:支持多种自然语言处理任务,如对话生成、文本分类和问答。
- 可解释性:注重模型输出定制化能力,支持用户自定义训练和微调,适应特定需求。
在实际的爬虫数据采集任务中,DeepSeek与DeepResearch均展现了强大的功能,如DeepSeekR1能够提取所有网址进行筛选、去重并提取内容。然而测试结果表明,不同的模型在执行特定任务时存在一定的差异,例如在提取春运数据时,OpenAIo3mini尽管响应速度快,但数据采集结果为空。这表明,测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素的影响,因此仅供参考。
文件数据读取方面,DeepSeek与DeepResearch亦能详细全面地提取文件中的数据,并整理成可视化数据表。测试结果同样受到多种因素的影响。
通过使用DeepSeek与DeepResearch,科研人员可以更加便捷地处理数据,更加高效地进行科研工作,使得科研流程更加简单。同时,通过这种新型工具,科研人员可以更加专注于数据的分析与研究,而非繁琐的数据处理和采集过程。
研究成果的公测版本可通过百度网盘分享的文件进行下载,目前软件为免费公测阶段。链接和提取码为公开资源,便于用户下载和使用。