利用pandas将‘basketball.csv’中的数据导入名为dataset的DataFrame对象中,并使用drop_duplicates()函数对dataset中的Date列进行去重,不保留副本。将去重结果dealed和dataset返回。 测试说明 若导入csv文件的结果正确,将输出'Correctly read CSV file!'. 若去重结果正确,将输出'Correctly drop duplicated parts!'.
时间: 2025-06-24 15:44:13 浏览: 14
### 使用 Pandas 处理 CSV 文件并去重
为了完成此任务,可以通过 `pandas` 库实现以下操作:
1. **读取 CSV 数据**:使用 `pd.read_csv()` 函数将 `'basketball.csv'` 中的数据加载到 DataFrame 对象中。
2. **去重 Date 列**:调用 `drop_duplicates()` 方法对指定列(这里是 `Date` 列)执行去重操作。设置参数 `subset='Date'` 来限定仅针对该列进行去重,并通过 `keep='first'` 参数保留第一次出现的记录[^1]。
3. **返回结果**:分别返回原始数据集和经过去重处理的结果。
以下是完整的代码实现:
```python
import pandas as pd
def duplicate():
'''
返回值:
dealed: 对dataset的Date列进行去重后的DataFrame类型数据
dataset: 初始读入的basketball.csv的数据
'''
# 导入CSV文件至DataFrame对象
dataset = pd.read_csv('basketball.csv')
# 去重Date列,不保留副本
dealed = dataset.drop_duplicates(subset='Date', keep='first', inplace=False)
# 返回去重后的结果以及原始数据
return dealed, dataset
```
#### 关键点解析
- **`pd.read_csv('basketball.csv')`**: 将 CSV 文件中的数据加载为一个 DataFrame 对象[^5]。
- **`drop_duplicates(subset='Date', keep='first', inplace=False)`**:
- `subset='Date'`: 指定只对 `Date` 列进行去重。
- `keep='first'`: 保留首次出现的重复项。
- `inplace=False`: 不修改原 DataFrame 的内容,而是返回一个新的 DataFrame。
---
### 注意事项
如果需要进一步验证或调试代码,可以加入打印语句来观察中间结果:
```python
print(dataset.head()) # 查看原始数据前几行
print(dealed.head()) # 查看去重后数据前几行
```
此外,确保运行环境已安装 `pandas` 库。如果没有安装,可通过以下命令安装:
```bash
pip install pandas
```
---
阅读全文
相关推荐




















