
数据分析
文章平均质量分 79
aiweker
AI 10年从业者,记录我的AI成长历程!InfoQ写作社区和阿里云开发者社区签约作者,长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python数据分析(十二):pandas常用设置一览
Pandas 提供了丰富的配置选项,允许用户自定义数据的显示和行为方式。本文全面介绍了 Pandas 中最重要的选项和设置,包括显示精度控制、最大行列显示设置、显示截断设置、显示样式设置等。通过实际示例,展示了如何配置这些选项以满足不同的需求。此外,还介绍了如何获取当前设置、使用上下文管理器临时修改设置,以及在实际应用中的配置案例,如数据分析报告和 Jupyter Notebook 优化。掌握这些配置技巧可以显著提高数据分析和展示的效率与效果。原创 2025-05-09 04:00:00 · 557 阅读 · 0 评论 -
python数据分析(十一):Pandas 时间数据处理
Pandas 提供了强大的时间序列处理功能,适用于各种时间数据分析需求。本文全面介绍了 Pandas 中的时间数据处理方法,包括时间数据的创建、转换、索引、重采样以及时区处理等。通过实际代码示例,展示了如何从字符串创建时间戳、生成时间范围、访问时间组件、进行时间切片、使用时间偏移、重采样数据、处理时区以及计算时间差等操作。此外,还通过股票数据和销售数据的案例,展示了这些功能在实际应用中的使用。Pandas 的时间序列功能灵活且全面,能够有效提升时间数据分析的效率。原创 2025-05-09 03:30:00 · 806 阅读 · 0 评论 -
python数据分析(十):Pandas缺失值处理(Missing Data)
检测缺失值:使用isna()或isnull()方法可以轻松识别数据中的缺失值删除缺失值dropna()方法提供了灵活的删除选项,可以按行或列删除填充缺失值fillna()方法支持多种填充策略,包括固定值、前向/后向填充、统计值填充等插值方法提供了更智能的填充方式,如线性插值、多项式插值等选择哪种方法取决于具体的数据场景和分析需求。当缺失值很少时,可以直接删除当数据有明确趋势时,插值法是更好的选择对于分类数据,使用众数或固定值填充可能更合适。原创 2025-05-07 06:00:00 · 454 阅读 · 0 评论 -
python数据分析(九):Pandas 分类数据(Categorical Data)处理
有序分类:有明确的顺序关系(如:小、中、大)无序分类:没有顺序关系(如:红、绿、蓝)# 自定义排序顺序print("\n自定义顺序排序:\n", df.sort_values('grade'))分类数据基础分类数据表示有限且固定的可能值集合分为有序分类和无序分类两种类型创建分类数据可以通过直接创建使用构造函数提供更多控制可以指定类别顺序创建有序分类分类数据操作categoriesas_ordered排序与分组分类数据保持定义的顺序进行排序分组操作可以利用分类信息提高效率。原创 2025-05-07 02:45:00 · 1316 阅读 · 0 评论 -
python数据分析(八):Pandas 文本数据处理
字符串基本操作通过.str访问器使用字符串方法支持大小写转换、长度计算等基本操作字符串连接 (cat)连接Series中的字符串连接不同Series或DataFrame列字符串分割 (split)按分隔符分割字符串可将分割结果扩展为多列字符串替换 (replace)简单字符串替换支持正则表达式替换字符串提取 (extract)使用正则表达式提取特定模式可命名提取组字符串重复 (repeat)重复字符串指定次数可为不同元素指定不同重复次数其他实用方法contains。原创 2025-05-02 17:34:23 · 855 阅读 · 0 评论 -
python数据分析(七):Pandas 数据变形与重塑
透视表操作pivot: 简单的长转宽操作,不支持聚合: 支持聚合的透视表,适合处理重复值堆叠操作stack: 将列转换为行,产生多级索引unstack: 将行转换为列,是stack的逆操作融合操作melt: 将宽格式数据转换为长格式: 更灵活的宽变长转换方法虚拟变量转换: 将分类变量转换为虚拟变量: 将虚拟变量转换回分类变量爆炸操作explode: 将列表形式的元素拆分为多行交叉表crosstab: 计算两个或多个因素的简单交叉表分箱操作cut: 将连续变量离散化为区间因子化操作。原创 2025-05-02 17:18:00 · 856 阅读 · 0 评论 -
python数据分析(六):Pandas 多数据操作全面指南
merge()是最灵活的数据合并方法,支持各种SQL风格的连接操作支持内连接、左连接、右连接和外连接可以处理多键合并和复杂的合并条件join()是基于索引的合并便捷方法默认按索引连接语法比merge()更简洁但功能较少concat()用于简单堆叠数据可以沿行(垂直)或列(水平)方向连接适合结构相同的数据集合并compare()用于比较两个DataFrame的差异可以高亮显示差异需要Pandas 1.1.0及以上版本性能考虑对于大型数据集,merge()通常比join()更快。原创 2025-04-29 22:12:46 · 1352 阅读 · 0 评论 -
python数据分析(五):Pandas 数据检索技术
布尔索引是最基础的条件查询方式,适合简单条件筛选query()方法提供了更简洁的语法,特别适合复杂条件查询分组聚合(groupby)是数据分析的核心操作,可以按不同维度汇总数据透视表(pivot_table)提供了更灵活的多维数据汇总能力高级检索技巧如isin(), between(), str访问器等可以处理更复杂的查询需求性能优化技巧如query()和eval()可以提升大数据集的处理效率Pandas提供了丰富而强大的数据检索功能,掌握这些技术可以显著提高数据分析的效率和灵活性。原创 2025-04-28 23:56:05 · 637 阅读 · 0 评论 -
数据分析(四):Python Pandas数据输入输出全流程指南
文件格式支持结构化数据:CSV、Excel半结构化数据:JSON高效二进制格式:Parquet、HDF5、Feather数据库交互使用SQLAlchemy作为统一接口支持MySQL、PostgreSQL等主流数据库分块处理大型表数据大数据处理chunksize参数分块读取指定dtype减少内存占用使用高效二进制格式存储中间结果存储选择建议快速读写:Feather长期存储:Parquet或HDF5数据交换:CSV或JSON。原创 2025-04-26 02:00:00 · 1064 阅读 · 0 评论 -
python数据分析(三):Python Pandas数据类型查看与转换
使用apply进行自定义转换else:""""""数据类型查看dtypes查看DataFrame各列类型dtype查看Series类型分析内存占用类型转换方法astype()基本类型转换日期时间转换安全数值转换category类型节省内存自动选择最佳类型高级技巧自定义转换函数读取数据时指定类型使用分类数据优化性能正确理解和处理Pandas数据类型是数据预处理的关键步骤。合理的数据类型不仅能保证计算正确性,还能显著提高内存使用效率和计算速度。原创 2025-04-23 06:00:00 · 920 阅读 · 0 评论 -
python数据分析(二):Python Pandas索引技术详解
基础索引[].loc.iloc) 适合简单的数据访问布尔索引提供了强大的条件筛选能力多层索引让高维数据的组织和分析变得更加直观和高效掌握这些索引技术是成为Pandas高级用户的关键步骤。在实际应用中,应根据数据特点和分析需求选择合适的索引方式,并遵循最佳实践以获得更好的性能和可读性。通过合理使用索引,我们可以更高效地处理和分析数据,为数据科学工作流打下坚实基础。原创 2025-04-23 00:15:00 · 648 阅读 · 0 评论 -
python数据分析(一):Python Pandas库概述与eries与DataFrame创建
Series是带标签的一维数组,适合存储单列数据和标签信息可以从列表、字典、标量值创建自动对齐索引是Pandas的强大特性DataFrame是二维表格型数据结构,是数据分析的核心可以从字典、列表、NumPy数组、Series字典等多种方式创建支持自定义索引和列名可以从各种文件格式导入数据选择创建方法数据来源(内存数据结构还是外部文件)是否需要自定义索引数据维度(一维用Series,二维用DataFrame)Pandas灵活的数据结构创建方式使其成为数据科学工作流中不可或缺的工具。原创 2025-04-22 13:05:13 · 803 阅读 · 0 评论 -
python数据分析-开篇
在《增长黑客》提到的增长团队中重要成员是数据分析师;数据分析师从数据角度抽丝剥茧,不断验证,A/B测试,找到问题,提出增长建议。数据分析师就像侦探一样,找线索,求真相, 是艰难但富有挑战的工作。在当前企业数字化背景下,先有数字化,下一步就是在数据中发现有价值的信息,帮助企业成长。你想发现数据背后的真相吗?原创 2025-04-22 03:45:00 · 317 阅读 · 0 评论