自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python数据挖掘之特征选择

特征选择(属性选择 / 变量选择定义特征选择是在建模前从原始的 𝑑个特征中挑出一个重要的子集(大小为 𝑘,𝑘<𝑑)的过程。其目标是用更少的特征达到更好的或相近的模型效果,同时提升可解释性与计算效率。主要目的减少特征数量,增强对数据和模型的理解。降低计算复杂度,减少过拟合风险,提升泛化能力。常见方法(按思想分类)Filter(过滤)方法:基于统计量或相关性(如相关系数、卡方、信息增益、方差阈值)独立于具体学习器选择特征。优点:速度快、可扩展;缺点:忽略特征与模型的交互。

2025-09-17 09:34:50 376

原创 管道机器人避障研究

智能化升级:从单一功能向AI驱动的自主决策系统发展集成化设计:结构-感知-决策-执行一体化设计成为主流适应性增强:针对复杂管道环境的通过性和稳定性持续优化多功能融合:检测、维修、清理等多功能集成于同一平台人机协作:远程监控与自主作业相结合的操作模式发展。

2025-09-16 09:26:58 697

原创 公共安全事件分析-2

完全把这三维(因果 + 时间演变 +精细空间结构)+ 用 LLM 加入推理 + 并在公共安全事件预测 + 干预 +反事实分析中做端到端实验的研究;一旦建立因果图和事件模型,就可以做干预模拟(例如假设某公共事件或某政策引入)看犯罪/公共安全事件如何变化;但将所有组件拼合起来(即:LLM 提取 + 因果图结构 + 时间与空间坐标 +干预/反事实 +预测/预警)的“统一系统”还比较少见。因为已有的研究已有这些组成部分,要做的是把它们系统整合起来。通用人工智能 (AGI):形成“语言+因果+时空”的完整世界模型。

2025-09-15 09:32:40 607

原创 练习题答案

使用StratifiedShuffleSplit,将一份带类别标签的数据按比例80%训练、20%测试划分,且保证每个类别比例不变。用pandas的sample()方法,从一个DataFrame随机抽取2行,固定随机种子为42。用sklearn自带的PCA,对一个随机生成的10行4列数据进行降维,将数据降到2维,输出结果。假设有一个员工部门数据表,用pandas随机抽取两个部门,然后获取这两个部门内的所有员工信息。用Python的zlib库,把一句话“简单压缩示例”做压缩后再解压,确保恢复出原文。

2025-09-14 10:49:35 201

原创 Python数据挖掘之数据预处理

一、 数据预处理的理由在现实应用中,原始数据往往直接来源于企业业务系统、传感器、用户输入或网络采集等多种渠道。这类数据通常存在以下问题:不完整性:部分属性缺失,导致数据无法完整反映对象特征。不一致性:同一对象在不同数据源中的描述可能不一样。冗余性:不同来源的数据存在重复,影响分析效率。噪声与错误:包括异常值、录入错误或不合理的取值。规模庞大:数据量巨大,直接挖掘会导致计算开销过高。因此,数据预处理的目标是:提高数据的质量,使其更真实、完整和一致。降低数据挖掘的难度和计算开销。

2025-09-14 10:47:52 988

原创 树莓派系统安装

找一个 TF卡,建议16G的,再找一个读卡器。插入电脑,确保好用。进入software 下载pi imager。树莓派官网改变了之后,安装系统越来越简单。保持网络畅通,会下载系统并安装。设备,操作系统,选择存储设备。

2025-09-11 21:26:12 169

原创 凯斯西储大学轴承数据介绍(Case Western Reserve University Bearing Data,简称 CWRU 数据集)

数据文件命名清晰(如 RPM_Fault_Diameter_End),只包含加速度信号(DE、FE、BA)。支持多个轴承数据集(CWRU、Paderborn、JNU 等),提供统一接口,适合做跨数据集研究与模型训练。参数灵活,包括实验类型、序列长度、训练集比例、随机种子、传感器数量、转速选择,以及是否包含正常状态等。工况负载:0 hp、1 hp、2 hp、3 hp、负载不同转速不同(约1797–1730 rpm)特点:高信噪比、结构清晰、公开可获取,学术论文中被广泛引用(上千篇文献)

2025-09-10 10:20:38 699

原创 公共安全事件分析-1

提高事件分析的全面性和准确性:通过构建基于时空关系的事故灾难事理图谱,能够全面捕捉事件的演化过程以及事件之间的多维关系(如时序、空间、属性等),使得事件分析更加准确和深入。你的研究可以围绕大语言模型与因果、时间、空间关系的抽取和推理展开,结合现有的图谱构建方法和推理技术。附近/上游/下游/以东”),并与地图/GIS 对齐。文章中的方法主要针对事故灾难领域的应用,虽然方法具有较高的应用价值,但其是否能够跨领域应用,例如在其他类型的突发事件(如公共卫生事件、自然灾害等)中是否同样有效,值得进一步探讨和验证。

2025-09-10 08:54:37 507

原创 Python数据挖掘之数据探索

简要来说,数据探索(Data Exploration)是指在数据分析和数据挖掘的早期阶段,通过多种方法对原始数据进行初步的理解和分析,以掌握数据的基本特征和结构。具体包括以下几个方面:统计描述:计算基本统计指标,如均值、中位数、众数、方差、标准差、最大值、最小值等。查看数据的集中趋势和离散程度。数据分布规律:利用直方图、密度曲线、箱线图等可视化工具,观察数据的分布形态(正态分布、偏态、双峰分布等)。

2025-09-09 09:06:51 764

原创 Python数据挖掘之 scikit-learn(简版)

scikit-learn(简称sklearn)是一个基于Python的开源机器学习库,其设计目标是让机器学习变得更简单、更高效。自2007年由法国INRIA研究所的David Cournapeau首次提出并开发以来,scikit-learn经历了多次版本更新,逐步成为数据科学和人工智能领域最受欢迎的工具之一。

2025-09-08 14:35:49 1206

原创 Python数据挖掘之 Matplotlib

你在绘图时,实际上是在在这个画布上添加各种图形元素,比如线条、散点、柱状图等。使用Matplotlib进行绘图,实质上是在调用各种函数在画布上添加各种基本绘图元素,并通过设置函数的参数来控制各元素的外形。创建图形(Figure)对象:可以用 plt.figure() 创建一个空白的画布,也可以使用 plt.subplot() 或 plt.subplot2grid() 来划分图表区域。设置属性:通过设置函数调整元素的样式,比如标题、标签、刻度、网格、边框等。x,y:折线上的一系列点的X坐标和Y坐标。

2025-09-08 11:48:57 792

原创 Python数据挖掘之 Pandas

Pandas 是基于 NumPy 构建的一个开源数据分析和处理工具库。它在数据科学、机器学习、金融分析等领域应用非常广泛,被认为是 Python 数据处理领域的“核心工具”之一。与 NumPy 相比,Pandas 的优势主要体现在 处理异构数据和表格型数据 的能力上。NumPy 更适合存放和计算大规模的数值数组,而 Pandas 则专注于类似数据库或 Excel 表格的数据结构和操作。Pandas 的核心数据结构主要有两个:Series(一维数据)类似于一维数组或带标签的列表。

2025-09-08 08:36:05 512

原创 Python数据挖掘之 Numpy

NumPy(Numerical Python)是一个用于科学计算的基础性库,主要用于高性能的多维数组和矩阵操作,以及丰富的数学函数支持。它是许多数据分析、机器学习和科学计算项目的核心组件。主要特点:多维数组对象(ndarray):提供高效的多维数组结构,支持元素的快速存取和操作。广播(Broadcasting):实现不同形状数组的运算规则,简化向量化操作。丰富的数学函数:包含线性代数、傅里叶变换、随机数生成、统计等操作的函数。

2025-09-07 16:11:22 1066

原创 数据挖掘/机器学习常用数据集

UCI 红酒品质数据集简介数据集名称:Wine Quality Data Set来源:由葡萄酒化学分析数据组成,收集自葡萄酒制造商。数据公开在UCI机器学习仓库中。数据集概述目的:预测红酒的品质评分(quality),根据其化学属性。数据特征:包含11个连续型的化学特性和一个品质评分标签。特征(输入变量)fixed acidity(固定酸)volatile acidity(挥发酸)citric acid(柠檬酸)residual sugar(残糖)chlorides(氯化物)

2025-09-07 10:57:27 925

原创 将自己的笔记本设置成jupyter服务器

2. 使用这个命令 jupyter notebook password。这个文件会在用户/.jupyter文件夹下。有很多种方法,我最喜欢的是下面的方法。打开移动热点,点击右键 进入设置。

2025-09-04 16:25:38 223

原创 Anaconda 2025-6安装(另附安装新环境的过程)

按照日期索引后,最新的是下载后安装。一路下一步,到安装路径可以修改一下(如果C盘空间大无所谓,我一般安装在D盘)一路安装完毕,选默认或者建议就可以。

2025-09-04 15:55:46 764

原创 NEO4J数据库迁移5X版本

我的是直接再data目录下了,自己可以找一下,neo4j目录下的data, 有人说会在data/dump目录下。

2025-08-26 20:02:06 128

原创 Neo4j数据库安装 neo4j-community-5.26.0

昨天晚上又干了一堆的Neo4j,原来的服务器崩了,重新安装在自己笔记本上,记录一下怎么安装,并且用pyhon连接的方法。

2025-08-12 12:29:06 292

原创 Anaconda安装其他环境总是安装在C盘的处理方法

Anaconda 不知道从哪一版开始新安装的环境总是会在C盘目录下,每次总是要上网查,在这里整理一下,省的查了。

2025-08-07 00:34:43 289

原创 0729信息收集与暴力破解

Robots.txt / phpinfo.php 等。

2025-07-29 23:05:20 108

原创 AI与教学和办公 7月28日下午课堂笔记

提示词:目标-背景-步骤 结构 /角色与场景的锚定。工具3. gitmind (这个没学过,试一下)工具7. 文生图,文生视频 即梦(抖音的)工具1. Deepseek 深度思考。工具2. 腾讯元宝?liblib.art(B站的)就这样吧,不会用的自己去学习。工具4. KIMI整理文档。工具6. 通义 AI代码。工具5. 秒出PPT。

2025-07-28 15:39:51 134

Data Mining Techniques For Marketing Sales And Customer Support

数据挖掘技术Data Mining Techniques For Marketing Sales And Customer Support

2012-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除