没有合适的资源?快使用搜索试试~ 我知道了~
案例1 转化数据类型 !git clone https://github.com/qiwsir/DataSet.git !ls DataSet 加载数据集 import pandas as pd import numpy as np df = pd.read_csv(./DataSet/sales-data/sales_data_types.csv) df df.info() help(df.astype) Cast a pandas object to a specified dtype dtype. # column.astype df['Customer Number'].
资源推荐
资源详情
资源评论























2.1 特征工程特征工程 – 数据清理数据清理
案例案例1 转化数据类型转化数据类型
!git clone https://github.com/qiwsir/DataSet.git
!ls DataSet
加载数据集加载数据集
import pandas as pd
import numpy as np
df = pd.read_csv("./DataSet/sales-data/sales_data_types.csv")
df
df.info()
help(df.astype)
Cast a pandas object to a specified dtype dtype.
# column.astype
df['Customer Number'].astype(int)
help(pd.to_numeric)
Convert argument to a numeric type.
# pd.to_numeric
pd.to_numeric(df['Jan Units'], errors='coerce')
正则表达式正则表达式
help(np.where)
Return elements, either form x or y, depending on condition.
# 特征“Active”中的数据只有两种类型,按照要求用数字1和0来表示。

np.where(df[['Active']] == 'Y', 1, 0)
help(str.replace)
S.replace(old, new) -> str
Return a copy of S with all occurrences of substring old replaced by new. If the optional argument count is given, only the
first count occurrences are replaced.
# str.replace
#特征“2016”和“2017”的数据表示的是资金额度,转化为字符串。
#但不能直接使用astype或者to_numeric,因为字符串中包含了非数字的字符“$”和“,”。
#为此,写一个函数专门来解决这个转化问题。
def convert_money(value):
new_value = value.replace("$","").replace(",","")
return float(new_value)
df['2016'].apply(convert_money)
lambda
conv_fun=lambda x: float(x.replace("%", "")) / 100
df['Percent Growth'].apply(conv_fun)
help(pd.to_datetime)
Covert argument to datatime.
# 将表示年月日的三个特征“Year”“Month”“Day”,合成时间类型
pd.to_datetime(df[['Year', 'Month', 'Day']])
封装函数封装函数
import pandas as pd
import numpy as np
def convert_money(value):
new_value = value.replace(",","").replace("$","")
return float(new_value)
df2 = pd.read_csv("./DataSet/sales-data/sales_data_types.csv",
dtype={'Customer Number': 'int'},
converters={
'2016':convert_money,
'2017':convert_money,
'Percent Growth': lambda x: float(x.replace("%", "")) / 100,
'Jan Units': lambda x:pd.to_numeric(x, errors='coerce'),
'Active':lambda x:np.where(x =='Y', 1, 0),
}
)
剩余8页未读,继续阅读
资源评论


weixin_38683193
- 粉丝: 2
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 产品季度销量占比排名Excel模板.xlsx
- 2020年网络经济时代财务会计管理探索论文.doc
- 预算与定额工程造价管理第八章混凝土及钢筋混凝土工程.pdf
- 我国科技项目政府采购机制研究.doc
- 基于plc技术的异直径钢珠分拣系统毕业论文设计.doc
- 计算机组装与维护实训报告.doc
- 信息技术《使用搜索引擎》答辩.docx
- 优秀软件销售协议书范本范文.doc
- PPP项目运作实战与案例分析117页.ppt
- 人教A版高中数学高三一轮第十章统计统计案例及算法初步102用样本估计总体【素材】.doc
- 109.浪潮企业ERP系统核心数据库硬件支撑平台方案.docx
- 蜜蜂网蜂蜜销售网站的设计与实现毕业设计.docx
- 基于嵌入式画图板的设计与实现学位论文.doc
- 2020年软件开发开题报告.doc
- 通信优惠促销活动服务协议书.docx
- 智慧交通灯的系统电路设计方案.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
