Pandas库是Python数据分析生态系统中的核心库之一,以其高效的数据结构DataFrame和Series为基础,为用户提供了一系列强大的数据处理、清洗、分析和转换功能。以下是Pandas库的主要特性和常见操作的详细介绍:
1. 数据结构
-
Series: 一维带标签的数组,类似于一维表格,可以存储任何数据类型,每一项数据都有一个对应的索引。
s = pd.Series([1, 3, 5, np.nan, 6], index=['a', 'b', 'c', 'd', 'e'])
-
DataFrame: 二维表格型数据结构,由一组有序的列组成,每列可以有不同的数据类型。DataFrame既有行索引也有列标签。
df = pd.DataFrame({ 'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': np.array([True,