Pandas数据处理实战：Python数据分析的绝对神器

立即解锁

发布时间: 2025-02-26 05:32:27 阅读量: 112 订阅数: 21

数据分析实战：从Excel到Python的深度探索

数据分析是当今信息技术领域中至关重要的一个分支，它涵盖了数据收集、清洗、处理、建模以及可视化等多个环节。从Excel到Python的数据分析转型，是许多数据工作者必经的历程。Excel作为初学者入门的神器，拥有直观易用的界面和丰富的功能，而Python则以其强大的计算能力和丰富的库支持成为专业数据分析者的首选工具。本篇文章将深入探讨这两个工具在数据分析中的应用，并揭示从Excel到Python过渡的必要性和方法。 Excel在数据分析中的优势主要体现在其直观的操作界面和基础的统计功能上。其内置的表格计算、排序、筛选等功能，使得用户能够快速对数据进行初步处理。此外，PivotTable（透视表）和VLOOKUP函数提供了强大的汇总和查找功能，而数据透视图则能快速生成各种统计图表。然而，当面对大规模或复杂的数据处理任务时，Excel的局限性就显现出来，如计算速度慢、公式编写复杂度高、难以自动化等。 Python的出现，正是为了解决这些问题。Python是一门通用编程语言，尤其在数据分析领域，它拥有众多库的支持，如Pandas用于数据处理，NumPy进行数值计算，Matplotlib和Seaborn用于数据可视化，Scikit-learn则提供了机器学习算法。Pandas库使得数据清洗和预处理变得高效，NumPy则能处理大规模数组计算，而Scikit-learn则提供了从线性回归到深度学习的各种模型，极大地提升了数据分析的效率和精度。从Excel迁移到Python，首先需要理解Python的基本语法和数据结构，如列表、字典、元组和集合。然后，学习如何使用Pandas进行数据操作，包括读取和写入数据、数据清洗、合并与重塑等。接着，熟悉NumPy的数组操作和统计函数，这将帮助我们高效地进行数值计算。对于可视化，Matplotlib和Seaborn提供了丰富的图表类型和定制化选项。通过实战项目，掌握如何运用Scikit-learn进行机器学习，包括特征选择、模型训练、调参和评估。在实际工作中，常常需要结合Excel和Python的优势。例如，可以先在Excel中进行初步的数据探索，然后用Python进行更深入的分析和建模。这种混合使用的方式可以提高工作效率，同时也能充分利用两种工具的优点。从Excel到Python的数据分析转变，不仅意味着技能的升级，更是数据分析思维的提升。掌握Python，意味着可以处理更大规模、更复杂的数据，实现自动化分析流程，为决策提供更为精准的依据。在《数据分析实战：从Excel到Python的深度探索》这本书中，读者将系统地学习这一过程，全面提升自己的数据分析能力。

# 1. Pandas数据处理入门 ## 1.1 为什么选择Pandas 在数据处理领域，Pandas是一个不可或缺的Python库。它提供了一个高效且易于使用的方法来处理结构化数据。开发者选择Pandas是因为其强大的数据处理能力，包括数据清洗、筛选、合并、分组等。它的数据结构，特别是DataFrame，非常直观，非常适合数据科学家和分析师进行快速探索和数据操作。 ## 1.2 安装与设置要开始使用Pandas，首先需要确保已经安装了Python和pip。然后通过pip安装Pandas库： ```shell pip install pandas ``` 安装完成后，就可以开始导入Pandas库并在项目中使用它了： ```python import pandas as pd ``` ## 1.3 基础操作演示 Pandas中最基础的数据结构是Series和DataFrame。Series类似于一维数组，而DataFrame则是一个二维数据结构。下面是一个简单的例子，演示如何创建一个Series和一个DataFrame： ```python # 创建一个Series s = pd.Series([1, 2, 3, 4, 5]) # 创建一个DataFrame df = pd.DataFrame({ 'A': [1, 2, 3], 'B': ['a', 'b', 'c'] }) # 显示数据 print(s) print(df) ``` 这只是一个Pandas数据处理入门的简介。接下来的章节我们将深入探讨Pandas的基础操作与数据清洗，以便可以更好地掌握数据分析的技能。 # 2. Pandas基础操作与数据清洗 ### 2.1 Pandas的核心数据结构 Pandas库的核心数据结构有两大类：Series和DataFrame。Series是一维的数组对象，能够保存任何数据类型（整数，字符串，浮点数，Python对象等）。DataFrame则是一个二维的标签化数据结构，可以看作是一个表格或者说是多个Series的组合。以下是Pandas核心数据结构的详细介绍： #### 2.1.1 Series的基本操作 Series 类似于一维数组，由数据（data）和标签索引（index）组成。数据类型可以是数字、字符串、Python对象等，而索引是一个与数据一一对应的标签数组。下面是一个创建并展示Series的代码示例。 ```python import pandas as pd # 创建一个简单的Series对象 series = pd.Series([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]) # 打印Series对象 print(series) ``` 上述代码创建了一个包含11个数字的Series对象。Pandas会自动为Series的索引赋值，从0开始递增。但是也可以自定义索引。 ```python # 创建一个Series对象，并自定义索引 series_custom_index = pd.Series([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5], index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k']) # 打印Series对象和索引 print(series_custom_index) print(series_custom_index.index) ``` 上述代码创建了一个带有自定义索引字母表的Series对象。打印索引时会显示这些自定义的标签。 #### 2.1.2 DataFrame的数据操作 DataFrame是一个二维的、表格型的数据结构。它包含了一个有序的列列表，每列可以包含不同的数据类型（数值、字符串、布尔值等）。列的标签被称为列名，每行也有一个标签，称为索引。 ```python # 创建一个简单的DataFrame对象 data = {'Name': ['John', 'Anna'], 'Age': [28, 22]} df = pd.DataFrame(data) # 打印DataFrame对象 print(df) ``` 上述代码创建了一个包含两列（Name和Age）以及对应行数据的DataFrame对象。在实际应用中，DataFrame可以用来处理更为复杂的数据集。接下来，我们通过数据的选取、切片、筛选等操作来进一步了解Series和DataFrame的数据操作方法。这些操作是进行数据探索和分析的基础。 ### 2.2 数据清洗实战技巧数据清洗是数据预处理的一个关键步骤，目的是从原始数据中移除错误、噪声、重复项和不完整的数据等，以便进行后续的数据分析和建模。 #### 2.2.1 缺失值的处理在实际数据集中，缺失值是很常见的问题。Pandas提供了一系列的方法来处理缺失值，包括删除含有缺失值的行或列，以及填充缺失值。 ```python # 创建一个带有缺失值的DataFrame import numpy as np df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [4, np.nan, np.nan, 3]}) # 删除含有缺失值的行 df_dropped_rows = df.dropna() # 删除含有缺失值的列 df_dropped_columns = df.dropna(axis=1) # 使用指定值填充缺失值 df_filled = df.fillna(0) ``` 代码块中展示了三种处理缺失值的方法：`dropna`用于删除含有缺失值的行或列，`fillna`用于填充缺失值。 #### 2.2.2 异常值的检测与处理异常值是数据中的不正常值，可能会对分析结果产生负面影响。检测和处理异常值是数据清洗的重要环节。 ```python # 使用Z-Score检测异常值 from scipy import stats import numpy as np # 创建一个数据集 np.random.seed(0) data = np.random.randn(100) data[0] += 3 data[1] -= 4 # 计算Z-Score z_scores = np.abs(stats.zscore(data)) threshold = 3 # 设置阈值 data_clean = data[(z_scores < threshold)] # 输出清理后的数据 print(data_clean) ``` 上述代码使用了统计学中的Z-Score方法来检测异常值。数据集中的数据如果其Z-Score的绝对值大于一个阈值（这里设置为3），则视为异常值，并在后续的步骤中将其移除。 #### 2.2.3 数据的合并与重塑在处理复杂数据集时，常常需要合并多个数据源，以及重塑数据的结构。 ```python # 合并两个DataFrame df1 = pd.DataFrame({'Name': ['John', 'Anna'], 'Age': [28, 22]}) df2 = pd.DataFrame({'Name': ['Tom', 'Alice'], 'Job': ['Engineer', 'Doctor']}) # 使用merge函数合并 merged_df = pd.merge(df1, df2, on='Name') print(merged_df) # 数据的重塑操作，使用pivot_table data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'], 'B': ['one', 'one', 'two', 'two', 'one', 'one'], 'C': [1, 2, 3, 4, 5, 6], 'D': [7, 8, 9, 10, 11, 12]} df = pd.DataFrame(data) pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc=np.sum) print(pivot) ``` 上述代码块展示了如何使用`merge`方法来合并两个DataFrame，并通过`pivot_table`方法将数据进行重塑。这对于整理和准备数据进行进一步分析非常有用。 ### 2.3 数据筛选与分组聚合 Pandas为数据筛选和分组聚合操作提供了强大而灵活的工具。这些操作可以帮助我们从数据集中提取有用信息，洞察数据的潜在价值。 #### 2.3.1 条件筛选和布尔索引筛选数据可以基于条件表达式，使用布尔索引来实现。 ```python # 创建一个DataFrame df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) # 使用布尔索引进行筛选 filtered_df = df[df['A'] > 2] print(filtered_df) ``` 布尔索引非常强大，可以组合多个条件，并使用逻辑运算符，如 `|`（或）、`&`（与）以及 `~`（非）。 #### 2.3.2 分组操作与聚合函数分组操作允许我们将数据集分为若干个小组，对每个小组应用某种函数，通常使用聚合函数，如求和、平均值、最大值等。 ```python # 使用groupby进行分组操作 grouped = df.groupby('A') # 对每个分组应用求和聚合函数 sum_by_group = grouped.sum() print(sum_by_group) ``` 上述代码展示了如何对DataFrame按照列'A'进行分组，并对每个分组应用求和聚合函数。结果是一个新的DataFrame，其中包含了每个分组的聚合结果。 #### 2.3.3 数据透视表的应用数据透视表是处理和分析数据的强大工具。它能够将大量数据转换为清晰的汇总表格形式，通常用于统计分析和数据可视化。 ```python # 创建一个数据透视表 pivot_table = df.pivot_table(index='A', columns='B', aggfunc=np.sum) print(pivot_table) ``` 上述代码展示了如何创建一个数据透视表，其中`index`参数定义了行索引，`columns`定义了列索引，而`aggfunc`定义了聚合函数。数据透视表将数据集从宽格式转换为长格式，方便了进一步的数据分析。以上章节详细介绍了Pandas的基础操作与数据清洗技术，这些内容是数据分析师和数据科学家在实际工作中不可或缺的技能。掌握这些技能可以帮助处理实际数据集中的常见问题，为更高级的数据分析和机器学习任务打下坚实的基础。在接下来的章节中，我们将深入探讨Pandas的高级数据处理功能和性能优化策略。 # 3. Pandas高级数据处理 ## 3.1 时间序列分析时间序列分析是Pandas数据处理中的高级应用之一。它涉及到时间数据的创建、处理和分析。无论是金融市场数据的分析，还是网站访问量的趋势预测，时间序列分析都扮演着关键的角色。 ### 3.1.1 时间序列数据的创建与处理时间序列数据通常是指按时间顺序排列的数据点集合，这些数据点可以是股票价格、天气温度或任何按时间间隔记录的度量值。Pandas为处理这类数据提供了强大的工具和函数。首先，创建一个时间序列数据，可以使用`pandas.date_range`函数，这个函数能够生成一个日期范围，非常适合用来初始化时间序列数据。 ```python import pandas as pd # 创建一个从2020-01-01开始，每月最后一个工作日的日期序列 date_index = pd.date_range(start='2020-01-01', periods=12, freq='BMS') # 创建一个Pandas Series对象，赋予时间索引 series = pd.Series(range(12), index=date_index) print(series) ``` 通过上述代码，我们可以看到如何利用`date_range`创建一个时间序列，并将其用作Series对象的索引。`freq='BMS'`参数表示每月最后一个工作日，其中`BMS`是`Business Month Start`的缩写。接下来是对时间序列数据的处理。Pandas提供了众多用于时间序列数据操作的方法，例如重采样(`resample`)和时间移位(`shift`)等。 ```python # 重采样：将数据按月聚合，并计算每月的总和 monthly_sum = series.resample('M').sum() # 时间移位：将数据向上移动1个时间单位 shifted_series = series.shift(1) print(monthly_sum) print(shifted_series) ``` 在该示例中，`resample('M')`方法按月重新采样时间序列数据，`sum()`方法计算每个月的总和。`shift(1)`方法则将时间序列中的所有数据向上移动了1个时间单位，这常用于计算移动平均值等时间序列分析方法。 ### 3.1.2 时间序列的重采样与频率转换在时间序列分析中，重采样是一种常见的操作，它允许我们将数据从一个频率转换为另一个频率。例如，将日数据转换为月数据，以便进行趋势分析。使用Pandas的`resample`方法可以轻松实现这一点。它与`groupby`类似，但它专门用于时间序列数据。 ```python # 假设有一个按小时记录的股票价格数据 df = pd.DataFrame({ 'Price': [100.1, 100.2, 100.5, 100.4, 100.3, 100.7, 101.0, 100.8], 'Time': pd.date_range('2023-01-01 08:00', periods=8, freq='H') }) # 重采样：将每小时的价格数据转换为每日的收盘价（假设为每日最后一个交易时间的价格） daily_close_prices = df.set_index('Time').resample('D')['Price'].last() print(daily_close_prices) ``` 在上述代码中，`resample('D')`表示按天进行重采样，而`last()`函数则是获取每组中最后一个值，用于模拟每日结束时的收盘价。频率转换是重采样的特殊情况，它关注于改变数据的时间间隔。例如，将分钟级数据转换为小时级数据。 ```python # 使用`asfreq`方法将每小时的数据转换为每半小时的数据 half_hour_data = daily_close_prices.asfreq('30Min') print(half_hour_data) ``` 通过`asfreq('30Min')`，我们可以看到如何将按天采样的数据转换为按半小时采样的数据。 ## 3.2 文本数据处理 Pandas不仅在数值数据处理方面表现出色，对于文本数据，它也提供了许多有用的功能。文本数据处理包括提取、清洗、转换和分析等操作。 ### 3.2.1 文本数据的提取与处理在数据集中，文本数据往往是非结构化的，需要提取出有用的信息。Pandas支持通过字符串操作和正则表达式来进行这些操作。 ```python # 假设我们有一个包含公司名称和地址的DataFrame data = { 'Company': ['Company A', 'Company B', 'Company C'], 'Address': ['123 Main St, NY', '456 Oak St, CA', '789 Pine St, TX'] } df = pd.DataFrame(data) # 提取地址中的州名 df['State'] = df['Address'].str.extract(r',\s*([A-Z]{2})') print(df) ``` 在这个例子中，我们使用`str.extract`方法配合正则表达式提取地址中的州名。这个正则表达式`r',\s*([A-Z]{2})'`表示匹配逗号后跟任意空白字符，然后捕获两个大写字母代表的州名缩写。 ### 3.2.2 正则表达式在文本数据中的应用正则表达式是一种强大的文本匹配工具，能够定义复杂的文本模式。Pandas内置了支持正则表达式的字符串方法。 ```python # 使用正则表达式删除地址字符串中的所有数字 df['Address_No_Numbers'] = df['Address'].str.replace('\d+', '', regex=True) print(df['Address_No_Numbers']) ``` 在上面的代码中，我们使用`str.replace`方法将地址中的所有数字替换为空字符串。这里的正则表达式`\d+`匹配一个或多个数字。 ## 3.3 数据可视化数据可视化是数据分析中一个非常重要的环节，它可以帮助我们理解数据的特征，发现数据间的关联，以及呈现分析结果。 ### 3.3.1 Pandas内建绘图功能 Pandas的绘图功能基于matplotlib，并提供了非常方便的接口来绘制各种图表，包括折线图、柱状图、散点图、直方图等。 ```python import matplotlib.pyplot as plt # 绘制时间序列数据的折线图 daily_close_prices.plot() plt.title('Daily Close Prices') plt.xlabel('Date') plt.ylabel('Price') plt.show() ``` 在这段代码中，我们使用了`plot()`方法绘制了一个折线图，展现了时间序列数据的变化趋势。通过`title`, `xlabel`和`ylabel`方法，我们设置了图表的标题和坐标轴标签。 ### 3.3.2 Matplotlib和Seaborn的集成使用尽管Pandas的绘图功能非常方便，但在某些情况下，使用专门的绘图库如Matplotlib和Seaborn会提供更多的灵活性和更丰富的图表类型。 ```python import seaborn as sns # 使用Seaborn绘制时间序列数据的散点图 plt.figure(figsize=(10, 5)) sns.scatterplot(x=daily_close_prices.index, y=daily_close_prices.values) plt.xticks(rotation=45) plt.title('Daily Close Prices Scatter Plot') plt.show() ``` 在这段代码中，我们使用了Seaborn库来绘制散点图，能够展示更多的数据点细节，而且`scatterplot`方法非常直观。通过以上章节内容，我们看到Pandas如何支持高级时间序列分析、文本数据处理，以及数据可视化等强大功能，从而满足从简单数据处理到复杂数据分析的广泛需求。 # 4. Pandas项目案例与性能优化 ## 4.1 真实项目案例分析在本节中，我们将探索Pandas在现实世界项目中的应用，这将包括数据导入与预处理、进行数据探索性分析，以及最终建立数据分析报告的整个流程。 ### 4.1.1 数据导入与预处理数据导入通常是指从各种数据源中读取数据到Pandas的DataFrame结构中。常见数据源包括CSV文件、Excel表格、数据库查询结果以及网络API返回的数据等。 ```python import pandas as pd # 从CSV文件导入数据 data = pd.read_csv('sales_data.csv') # 从Excel文件导入数据 data_excel = pd.read_excel('sales_data.xlsx', sheet_name='Sheet1') # 从数据库导入数据 # 假设使用的是SQLite数据库 con = sqlite3.connect('sales.db') data_db = pd.read_sql_query("SELECT * FROM sales_table", con) ``` 数据预处理是数据科学中至关重要的一环。在Pandas中，我们可以利用诸如`fillna()`、`dropna()`、`replace()`、`apply()`等函数对数据进行清洗。 ```python # 填充缺失值 data.fillna(method='ffill', inplace=True) # 删除重复数据 data.drop_duplicates(inplace=True) # 替换特定值 data.replace('未知', 'Unknown', inplace=True) # 应用自定义函数到DataFrame def custom_function(x): # 假设函数用于数据类型转换或数据清洗 return x data['new_column'] = data['existing_column'].apply(custom_function) ``` ### 4.1.2 数据探索性分析数据探索性分析（EDA）是数据分析过程中的一个关键步骤，通常包括计算统计摘要、数据可视化以及识别数据中的模式和异常。 ```python # 计算基本统计量 summary_stats = data.describe() # 查看数据分布 import matplotlib.pyplot as plt data['column_of_interest'].hist() plt.title('Distribution of Column') plt.xlabel('Value') plt.ylabel('Frequency') plt.show() # 检查缺失值情况 missing_values = data.isnull().sum() ``` ### 4.1.3 建立数据分析报告数据分析报告是将分析结果整合并以易于理解的方式呈现出来。它通常包含数据摘要、关键发现、图表和可视化元素。 ```markdown # 数据分析报告 ## 1. 数据摘要 ### 1.1 统计摘要统计摘要包括数据集中各个特征的均值、标准差、最小值、四分位数和最大值等。 | 特征 | 均值 | 标准差 | 最小值 | 最大值 | 缺失值计数 | |----------|--------|--------|--------|--------|------------| | Feature1 | XX.XX | XX.XX | XX | XX | XX | | Feature2 | XX.XX | XX.XX | XX | XX | XX | | ... | ... | ... | ... | ... | ... | ## 2. 关键发现 ### 2.1 市场趋势分析此处通过可视化和关键数据展示市场趋势。 ### 2.2 客户行为分析分析客户的购买行为，识别主要购买群体。 ## 3. 结论与建议根据分析结果，提出基于数据的结论和改进策略。 ``` ## 4.2 性能优化策略在处理大量数据时，性能优化是确保任务高效执行的关键。性能优化策略包括优化数据结构、代码优化技巧以及并行处理与内存管理。 ### 4.2.1 优化数据结构数据结构的选择直接影响着计算效率。Pandas提供了多种数据结构，如`Series`和`DataFrame`，我们可以根据数据的类型和操作需要选择合适的数据结构。 ```python # 使用dtype参数优化内存使用 data_optimized = pd.read_csv('sales_data.csv', dtype={'column1': 'int32', 'column2': 'float32'}) # 使用category类型减少内存占用 data_optimized['category_column'] = data_optimized['category_column'].astype('category') ``` ### 4.2.2 代码优化技巧代码层面的优化包括使用向量化操作替代循环、利用Pandas内置函数替代纯Python函数以及选择合适的函数参数等。 ```python # 使用向量化操作替代循环 # 假设我们需要对DataFrame中的某列数据进行平方运算 data['column squared'] = data['column'] ** 2 ``` ### 4.2.3 并行处理与内存管理随着数据集的增大，单线程处理可能成为瓶颈。Pandas支持使用Dask等库进行并行处理，同时也有内存管理的策略来优化性能。 ```python # 使用Dask进行并行处理 import dask.dataframe as dd dask_data = dd.read_csv('large_sales_data.csv') # 执行并行计算 result = dask_data.groupby('column').agg({'other_column': 'sum'}) result_computed = result.compute() ``` 通过这些策略，我们可以显著提高Pandas在处理大数据集时的性能，从而使得分析工作更加高效和准确。 # 5. Pandas与其他Python库的集成 ## 5.1 NumPy与Pandas的交互使用 ### 5.1.1 利用NumPy进行高效计算 NumPy是Python科学计算的基础库，提供高性能的多维数组对象和工具。Pandas在设计时就考虑到了与NumPy的兼容性，这意味着我们可以在Pandas中无缝使用NumPy的高效计算能力。 #### 示例代码 ```python import numpy as np import pandas as pd # 创建一个Pandas的Series对象 s = pd.Series(np.random.randn(5)) # 应用NumPy函数 s_abs = np.abs(s) # 计算绝对值 s_squared = np.square(s) # 计算平方 print(s_abs) print(s_squared) ``` #### 参数说明 - `np.random.randn(5)`：生成5个符合标准正态分布的随机数。 - `np.abs()`：计算数组元素的绝对值。 - `np.square()`：计算数组元素的平方。 ### 5.1.2 数据类型转换与处理在Pandas中处理数据时，可能会需要将数据类型进行转换，NumPy的数据类型是Pandas处理数据类型转换时的重要参考。 #### 示例代码 ```python # 创建一个包含整数的DataFrame df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]}) # 转换为NumPy数组 array = df.values # 转换数据类型为float array_float = array.astype(np.float) print(array_float) ``` #### 参数说明 - `.values`：将DataFrame转换为NumPy数组。 - `.astype(np.float)`：将数组的数据类型转换为浮点数。 ## 5.2 Scikit-learn与Pandas的结合 ### 5.2.1 数据预处理与模型训练 Scikit-learn是Python中一个强大的机器学习库。Pandas能够方便地进行数据的预处理，为机器学习模型的训练提供准备好的数据。 #### 示例代码 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier # 加载iris数据集 iris = load_iris() data = pd.DataFrame(iris.data, columns=iris.feature_names) target = pd.Series(iris.target) # 数据集分割 X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42) # 训练模型 model = RandomForestClassifier() model.fit(X_train, y_train) # 预测测试集结果 predictions = model.predict(X_test) print(predictions) ``` #### 参数说明 - `load_iris()`：加载iris数据集。 - `train_test_split()`：分割数据集为训练集和测试集。 - `RandomForestClassifier()`：创建一个随机森林分类器实例。 ### 5.2.2 特征工程与模型评估特征工程是机器学习中非常关键的步骤，Pandas与Scikit-learn联合使用可以大大简化特征选择、特征提取、特征转换等过程。 #### 示例代码 ```python from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score # 特征缩放 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 重新训练模型 model.fit(X_train_scaled, y_train) # 重新预测 predictions_scaled = model.predict(X_test_scaled) # 评估模型准确率 accuracy = accuracy_score(y_test, predictions_scaled) print("Model accuracy:", accuracy) ``` #### 参数说明 - `StandardScaler()`：标准化数据特征，使之具有单位方差。 - `accuracy_score()`：计算预测准确率。 ## 5.3 Web数据爬取与Pandas应用 ### 5.3.1 使用requests和BeautifulSoup进行网页数据爬取网络爬虫是获取网络数据的重要手段。结合Pandas，可以高效地将爬取的数据整理并分析。 #### 示例代码 ```python import requests from bs4 import BeautifulSoup import pandas as pd # 请求网页 url = 'https://en.wikipedia.org/wiki/List_of_cities_by_population' response = requests.get(url) # 解析网页 soup = BeautifulSoup(response.text, 'html.parser') table = soup.find('table', {'class': 'wikitable'}) # 提取表格数据 data = [] for row in table.find_all('tr')[1:]: cols = row.find_all('td') cols = [ele.text.strip() for ele in cols] data.append([ele for ele in cols if ele]) # 去除空值 # 转换为DataFrame df = pd.DataFrame(data, columns=['Rank', 'City', 'Country', 'Population', 'Date', 'Notes']) print(df.head()) ``` #### 参数说明 - `requests.get(url)`：使用requests库向指定URL发送GET请求。 - `BeautifulSoup`：解析HTML内容。 - `table.find('table', {'class': 'wikitable'})`：查找class为wikitable的表格元素。 ### 5.3.2 数据清洗与存储爬取的数据往往需要清洗才能用于分析。Pandas提供了丰富的数据清洗功能，且易于将清洗后的数据存储到多种格式中。 #### 示例代码 ```python # 数据清洗 df['Population'] = df['Population'].str.replace(',', '').astype(float) # 存储数据 df.to_csv('city_population.csv', index=False) ``` #### 参数说明 - `.str.replace(',', '')`：去除人口数字符串中的逗号。 - `.astype(float)`：转换数据类型为浮点数。 - `to_csv('city_population.csv', index=False)`：将DataFrame保存为CSV文件，不包含索引列。以上章节详细阐述了如何将Pandas与其他Python库集成使用，无论是与NumPy的计算结合、Scikit-learn在机器学习模型的预处理与评估，还是Web数据爬取与清洗，Pandas都显示出了其在数据处理领域的灵活性与实用性。这为数据科学家和分析师提供了强大的工具集合，以应对各种复杂的数据问题。

最低0.47元/天解锁专栏

赠100次下载

点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

Pandas数据处理实战：Python数据分析的绝对神器

相关推荐

专栏目录

Pandas数据处理实战：Python数据分析的绝对神器

相关推荐

Python数据分析与挖掘实战

Python与大数据专业分析课件(470P).pdf

掌握数据处理神器：《Python Pandas深度探索》实战指南

Python数据分析实战：NumPy、Pandas和Matplotlib，数据处理和可视化神器

Python数据科学手册：Numpy, Pandas, Matplotlib与机器学习实战

解决Pandas挑战，掌握数据分析神器

Python开发抖音表白神器实战教程

【Python数据处理神器】Pandas 2.0.3：10大安装与升级技巧，立马上手！

深入解析HTMLParser：Python解析神器的5大高级用法

从线程隔离到拦截器：Feign 跨服务传递请求头的完整方案

HuangCongQing_3D-LIDAR-Multi-Object-Tracking_27176_1755661296358.zip

专栏目录

最新推荐

STM8点阵屏汉字显示：用户界面设计与体验优化的终极指南

【C#跨平台开发与Focas1_2 SDK】：打造跨平台CNC应用的终极指南

【BT-audio音频抓取工具比较】：主流工具功能对比与选择指南

【wxWidgets多媒体处理】：实现跨平台音频与视频播放

【故障诊断工具箱】：飞利浦接口调试与问题排查技巧全记录

【游戏物理引擎基础】：迷宫游戏中的物理效果实现

【调试与性能优化】：LMS滤波器在Verilog中的实现技巧

【企业级应用高性能选择】：View堆栈效果库的挑选与应用

MATLAB程序设计模式优化：提升pv_matlab项目可维护性的最佳实践

【评估情感分析模型】：准确解读准确率、召回率与F1分数