【Python 数据科学】Numpy和Pandas基础

最新推荐文章于 2024-10-17 17:33:18 发布

Mercy92

最新推荐文章于 2024-10-17 17:33:18 发布

阅读量341

点赞数

CC 4.0 BY-SA版权

分类专栏： # 入门Python数据科学

本文链接：https://blog.csdn.net/weixin_40844116/article/details/95387649

入门Python数据科学专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了Python中Numpy和Pandas的基础操作，包括数组构建、数据类型查看、数组运算、Series与DataFrame的创建、索引与切片、数据筛选与修改等核心功能，适合初学者快速上手。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Numpy基础简介

1.基础

#导入包
>>>import numpy as np
#构建数组
>>>arr=np.array([1,2,3,4])
>>>arr
array([1, 2, 3, 4])

#查看类型
>>>type(arr)
 numpy.ndarray

#构建多维数组
>>>np.array([[1,2,3],[5,6,7]])
array([[1, 2, 3],
       [5, 6, 7]])

2. 数组的加减乘除、切片与列表相同

#数组切片
>>>b=np.array([[1,2,3,],[5,6,7]])
>>>b[1][0]
   5

#数据类型
>>>b.dtype
  dtype('int32')

二、Pandas 基础

1.series

1）基础

#导包
>>>import pandas as pd
#传入列表构建series，制定索引名
>>>s=pd.Series([1,2,3,4],index=['|','||','|||','||||'])
>>>s
    |       1
    ||      2
    |||     3
    ||||    4
    dtype: int64

#当一个纯数值的series新增一个object的，整个series的类型都会改变
>>>s['V']='apple'
>>>s
    |           1
    ||          2
    |||         3
    ||||        4
    V       apple
    dtype: object

#astype 改变数值类型，没有赋值没有实际更改
>>>s0=pd.Series([1,2,3,4],index=['|','||','|||','||||'])
>>>s0.astype('str')
    |       1
    ||      2
    |||     3
    ||||    4
    dtype: object

#传入字典构建series,索引名就是字典的键
>>>a={'a':'jack','b':'may','c':'lucy'}
>>>s1=pd.Series(a)
>>>s1
    a    jack
    b     may
    c    lucy
    dtype: object

#也可以重新指定给索引名，当索引名多于值得个数，默认新增NaN指
>>>s2=pd.Series(a,index =['a','b','c','4'])
>>>s2
    a    jack
    b     may
    c    lucy
    4     NaN
    dtype: object

增删方法与字典相同

>>>del s2['a']
>>>s2
	b     may
    c    lucy
    4     NaN
    dtype: object

#按值查找
>>>s[s>2]

|||     3
||||    4
dtype: int64

2）切片

#切片
>>>s['|']
   1

#列表切片，注意切片的内容是列表

>>>s[['|','||']]
    |     1
    ||    2
    dtype: int64

#隐式索引包前不包后
>>>s[0:2]
    |     1
    ||    2
    dtype: int64

#显式索引包前包后
>>>s['|':'|||']
    |     1
    ||    2
    |||   3
    dtype: int64

2.dataframe

1).构造

>>>import pandas as pd
#传入字典构建dataframe
>>>d={
    'name':['jack','nacy','betty'],
    'sex':['male','male','femal'],
    'age':[15,25,36]
   }
>>>df=pd.DataFrame(d)
>>>df

	name	sex	age
0	jack	male	15
1	nacy	male	25
2	betty	femal	36

#传入数组构建dataframe,需要指定索引名和列名
>>>df2=pd.DataFrame([[1,2,3,4],[5,6,7,8]],index=list('ab'),columns=list("甲乙丙丁"))
>>>df2

	甲	乙	丙	丁
a	1	2	3	4
b	5	6	7	8

#查看数据类型
>>>df.info()
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 3 entries, 0 to 2
    Data columns (total 3 columns):
    name    3 non-null object
    sex     3 non-null object
    age     3 non-null int64
    dtypes: int64(1), object(2)
    memory usage: 152.0+ bytes

增删方式同字典

del df['name']
df

	sex	age
0	male	15
1	male	25
2	femal	36

2).切片

import pandas as pd
d={
    'name':[
        'jack','nacy','betty'],
    'sex':['male','male','femal'],
    'age':[15,25,36]
}
df=pd.DataFrame(d,index=['a','b','c'])
df

	name	sex	age
a	jack	male	15
b	nacy	male	25
c	betty	femal	36

取行

取单行

df.iloc[2]

df.loc['c']

name    betty
sex     femal
age        36
Name: c, dtype: object

注意：df[2]、df[‘c’]会报错，直接方式不能取单行

取不连续多行

df.iloc[[0,2]]

df.loc[['a','c']]

注意：df[[0,2]]、df[[‘a’,‘c’]]会报错，直接方式不能取不连续多行

	name	sex	age
a	jack	male	15
c	betty	femal	36

取连续的多行

注意：隐式索引包前不包后，显式索引包前包后

#直接连续索引方式能用于取行
df[0:2]

	name	sex	age
a	jack	male	15
b	nacy	male	25

#直接连续索引方式能用于取行
df['a':'c']

	name	sex	age
a	jack	male	15
b	nacy	male	25
c	betty	femal	36

df.iloc[0:2]

	name	sex	age
a	jack	male	15
b	nacy	male	25

df.loc['a':'c']

	name	sex	age
a	jack	male	15
b	nacy	male	25
c	betty	femal	36

取列

取单列

df.name

a     jack
b     nacy
c    betty
Name: name, dtype: object

#直接单个索引只用于列
df['name']

a     jack
b     nacy
c    betty
Name: name, dtype: object

df.iloc[:,0]

a     jack
b     nacy
c    betty
Name: name, dtype: object

df.loc[:,'name']

a     jack
b     nacy
c    betty
Name: name, dtype: object

取不连续多列

#索引集合用于取列
df[['name','age']]

df.iloc[:,[0,2]]

df.loc[:,['name','age']]

	name	age
a	jack	15
b	nacy	25
c	betty	36

取连续多列

df.iloc[:,0:2]

	name	sex
a	jack	male
b	nacy	male
c	betty	femal

df.loc[:,'name':'age']

	name	sex	age
a	jack	male	15
b	nacy	male	25
c	betty	femal	36

注意：df[‘name’:‘age’]连续索引无法取到想要的数据，行数据不会显示

行列综合

连续索引用于取行，单个索引或者索引集合用于取列

#先切行，还是df,再取列
df[0:1].name
df[0:1]['name']
#先取单列，成为series，再切片
df['name'][0]
df.name[0:1]

a    jack
Name: name, dtype: object

#先切行，还是df,再取列
df['a':'b'].name
df['a':'b']['name']
#先取单列，成为series，再切片
df['name']['a':'b']
df.name['a':'b']

a    jack
b    nacy
Name: name, dtype: object

#先取行，后取列
df[0:2][['name','age']]
#先取列侯取行
df[['name','age']][0:2]

	name	age
a	jack	15
b	nacy	25

#注意，这种只是行切片，先切[1:3]，再将切出的结果切[0:1]，并不是行列切片
df[1:3][0:1]

df.iloc[行,列]

	name	sex	age
b	nacy	male	25

df.iloc[1,1]

'male'

df.iloc[1:2,0:2]

	name	sex
b	nacy	male

df.iloc[1:2,[0,2]]

	name	age
b	nacy	25

df.loc['a','name']

'jack'

df.loc[行,列]

df.loc['b':'c','name':'age']

	name	sex	age
b	nacy	male	25
c	betty	femal	36

df.loc['b':'c',['name','age']]

	name	age
b	nacy	25
c	betty	36

附：
使用索引器ix（已过期）

#ix切片取行
>>>df.ix[0]#该方法已经过期
    name    jack
    sex     male
    age       15
    Name: 0, dtype: object

在这里插入图片描述

#ix切片取多行
>>>df.ix[0:1]#该方法已经过期

	name	sex	age
0	jack	male	15
1	nacy	male	25

#ix先取行后取列
df.ix[2:3,['age','name']]#该方法已过期

	age	name
c	37	betty

3).更改值

#更改单个值，会提示值被修改
#先找行后找列
>>>df['age'][1]=255
>>>df

	name	sex	age
0	jack	male	15
1	nacy	male	255
2	betty	femal	36

#更改整列
>>>df.age=[14,26,36]
>>>df

	name	sex	age
0	jack	male	14
1	nacy	male	26
2	betty	femal	36

#更改整列
>>>df.age=df.age+1
>>>df

	name	sex	age
0	jack	male	15
1	nacy	male	27
2	betty	femal	37

#也可以更改索引
>>>df.index=list('abc')
>>>df

	name	sex	age
a	jack	male	14
b	nacy	male	26
c	betty	femal	36

#无法改动，提示使用索引切片方式改动
df[df.age==27].name='seven'
df

#索引方式修改
>>>df.loc[df.age==37,'age']=38
>>>df

	age	name	sex
a	15	jack	male
b	27	nacy	male
c	38	betty	femal

4). 查找数据

#查找数据
df[df.age == 26]

	age	name	sex
1	26	nacy	male

df[df.age > 26]

	age	name	sex
2	36	betty	femal

#脱字符取反
df[~(df.age > 26)]

	age	name	sex
0	14	jack	male
1	26	nacy	male

#多条件查找：与
df[(df.age > 20)&(df.name=='nacy')]

	age	name	sex
1	26	nacy	male

#多条件查找：或
df[(df.age > 30)|(df.name=='jack')]

	age	name	sex
0	14	jack	male
2	36	betty	femal

#查找函数query
df.query("(age > 20)&(name=='nacy')")

	age	name	sex
1	26	nacy	male