天池竞赛二手车价格预测项目源码+项目说明+数据集.zip资源-CSDN下载

共13个文件

csv：11个

rar：1个

py：1个

版权申诉

数据集

5星 · 超过95%的资源 19 浏览量 2024-01-23 22:55:43 上传评论 4 收藏 172.47MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

天池竞赛二手车价格预测项目源码+项目说明+数据集.zip （13个子文件）

code_20105

base test

used_car_sample_submit.csv 439KB

train_nn.csv 69.97MB

lgb_train.csv 3.46MB

text_tree.csv 65MB

lgb_test.csv 1.19MB

used_car_testB_20200421.csv 17.06MB

predictions.csv 1.21MB

nn_test.csv 1.17MB

used_car_train_20200313.csv 51.77MB

nn_train.csv 3.31MB

train_tree.rar 76.01MB

test_nn.csv 23.36MB

used_car_main.py 30KB

#导入需要使用的库 import warnings warnings.filterwarnings('ignore') import os import pandas as pd import numpy as np import tensorflow as tf import matplotlib.pyplot as plt from tensorflow.keras import layers # print(tf.__version__) # print(tf.keras.__version__) from tensorflow_core.python.keras.callbacks import LearningRateScheduler #需要到此包下面找 import tensorflow_core from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import MinMaxScaler import tensorflow as tf import tensorflow_core.python.keras as keras import tensorflow_core.python.keras.backend as K import lightgbm as lgb from catboost import CatBoostRegressor from sklearn.model_selection import KFold, RepeatedKFold from sklearn.metrics import mean_absolute_error import time """ —————————————————————————————————————————————以下为树模型的数据处理————————————————————————————————————————————— """ path = os.path.abspath(os.path.dirname(os.getcwd()) + os.path.sep + ".") Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ') Test_data = pd.read_csv(path+'used_car_testB_20200421.csv', sep=' ') """ 一、预测值处理，处理目标值长尾分布的问题 """ Train_data['price'] = np.log1p(Train_data['price']) # 合并方便后面的操作 df = pd.concat([Train_data, Test_data], ignore_index=True) # print(df.info()) """ 二、数据简单预处理，分三步进行 """ ## 1、第一步处理无用值和基本无变化的值 #SaleID肯定没用，但是我们可以用来统计别的特征的group数量 #name一般没什么好挖掘的，不过同名的好像不少，可以挖掘一下 df['name_count'] = df.groupby(['name'])['SaleID'].transform('count') del df['name'] #seller有一个特殊值，训练集特有测试集没有，把它删除掉 df.drop(df[df['seller'] == 1].index, inplace=True) del df['offerType'] del df['seller'] ## 2、第二步处理缺失值 # 以下特征全部填充众数 df['fuelType'] = df['fuelType'].fillna(0) df['gearbox'] = df['gearbox'].fillna(0) df['bodyType'] = df['bodyType'].fillna(0) df['model'] = df['model'].fillna(0) ## 3、第三步处理异常值 # 异常值就目前初步判断，只有notRepairedDamage的值有问题，还有题目规定了范围的power。处理一下 df['power'] = df['power'].map(lambda x: 600 if x>600 else x) df['notRepairedDamage'] = df['notRepairedDamage'].astype('str').apply(lambda x: x if x != '-' else None).astype('float32') """ 三、以上为数据简单预处理，以下为特征工程（特征工程） """ ## 1、时间，地区啥的 #挖掘时间中的年月日 from datetime import datetime def date_process(x): year = int(str(x)[:4]) month = int(str(x)[4:6]) day = int(str(x)[6:8]) if month < 1: month = 1 date = datetime(year, month, day) return date df['regDate'] = df['regDate'].apply(date_process) df['creatDate'] = df['creatDate'].apply(date_process) df['regDate_year'] = df['regDate'].dt.year df['regDate_month'] = df['regDate'].dt.month df['regDate_day'] = df['regDate'].dt.day df['creatDate_year'] = df['creatDate'].dt.year df['creatDate_month'] = df['creatDate'].dt.month df['creatDate_day'] = df['creatDate'].dt.day df['car_age_day'] = (df['creatDate'] - df['regDate']).dt.days df['car_age_year'] = round(df['car_age_day'] / 365, 1) #留取一位小数 #提取地区中的信息 df['regionCode_count'] = df.groupby(['regionCode'])['SaleID'].transform('count') print(df['regionCode']) df['city'] = df['regionCode'].apply(lambda x : str(x)[:2]) print(df['city']) ## 2、分类特征 # 对可分类的连续特征进行分桶，kilometer是已经分桶了 bin = [i*10 for i in range(31)] df['power_bin'] = pd.cut(df['power'], bin, labels=False) tong = df[['power_bin', 'power']].head() bin = [i*10 for i in range(24)] df['model_bin'] = pd.cut(df['model'], bin, labels=False) tong = df[['model_bin', 'model']].head() # 将稍微取值多一点的分类特征与price进行特征组合，做了非常多组，但是在最终使用的时候， # 每组分开测试，挑选真正work的特征 Train_gb = Train_data.groupby("regionCode") all_info = {} for kind, kind_data in Train_gb: #kind:索引， king_data：数据 info = {} kind_data = kind_data[kind_data['price'] > 0] info['regionCode_amount'] = len(kind_data) info['regionCode_price_max'] = kind_data.price.max() info['regionCode_price_median'] = kind_data.price.median() info['regionCode_price_min'] = kind_data.price.min() info['regionCode_price_sum'] = kind_data.price.sum() info['regionCode_price_std'] = kind_data.price.std() info['regionCode_price_mean'] = kind_data.price.mean() info['regionCode_price_skew'] = kind_data.price.skew() info['regionCode_price_kurt'] = kind_data.price.kurt() info['regionCode_mad'] = kind_data.price.mad() all_info[kind] = info brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "regionCode"}) df = df.merge(brand_fe, how='left', on='regionCode') Train_gb = Train_data.groupby("brand") all_info = {} for kind, kind_data in Train_gb: info = {} kind_data = kind_data[kind_data['price'] > 0] info['brand_amount'] = len(kind_data) info['brand_price_max'] = kind_data.price.max() info['brand_price_median'] = kind_data.price.median() info['brand_price_min'] = kind_data.price.min() info['brand_price_sum'] = kind_data.price.sum() info['brand_price_std'] = kind_data.price.std() info['brand_price_mean'] = kind_data.price.mean() info['brand_price_skew'] = kind_data.price.skew() info['brand_price_kurt'] = kind_data.price.kurt() info['brand_price_mad'] = kind_data.price.mad() all_info[kind] = info brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "brand"}) df = df.merge(brand_fe, how='left', on='brand') Train_gb = Train_data.groupby("model") all_info = {} for kind, kind_data in Train_gb: info = {} kind_data = kind_data[kind_data['price'] > 0] info['model_amount'] = len(kind_data) info['model_price_max'] = kind_data.price.max() info['model_price_median'] = kind_data.price.median() info['model_price_min'] = kind_data.price.min() info['model_price_sum'] = kind_data.price.sum() info['model_price_std'] = kind_data.price.std() info['model_price_mean'] = kind_data.price.mean() info['model_price_skew'] = kind_data.price.skew() info['model_price_kurt'] = kind_data.price.kurt() info['model_price_mad'] = kind_data.price.mad() all_info[kind] = info brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "model"}) df = df.merge(brand_fe, how='left', on='model') Train_gb = Train_data.groupby("kilometer") all_info = {} for kind, kind_data in Train_gb: info = {} kind_data = kind_data[kind_data['price'] > 0] info['kilometer_amount'] = len(kind_data) info['kilometer_price_max'] = kind_data.price.max() info['kilometer_price_median'] = kind_data.price.median() info['kilometer_price_min'] = kind_data.price.min() info['kilometer_price_sum'] = kind_data.price.sum() info['kilometer_price_std'] = kind_data.price.std() info['kilometer_price_mean'] = kind_data.price.mean() info['kilometer_price_skew'] = kind_data.price.skew() info['kilometer_price_kurt'] = kind_data.price.kurt() info['kilometer_price_mad'] = kind_data.price.mad() all_info[kind] = info brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "kilometer"}) df = df.merge(brand_fe, how='left', on='kilometer') Train_gb = Train_data.groupby("bodyType") all_info = {} for kind, kind_data in Train_gb: info = {} kind_data = kind_data[kind_data['price'] > 0] info['bodyType_amount'] = len(kind_data) info['bodyType_price_max'] = kind_data.price.max()

评论收藏

内容反馈

版权申诉