检查并优化：import pandas as pd import numpy as np import lightgbm as lgb import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import psutil from sklearn.metrics import log_loss, mean_absolute_error from scipy.sparse import hstack, csr_matrix, save_npz, load_npz import warnings warnings.filterwarnings('ignore') # 内存优化函数 - 增强版 def optimize_dtypes(df, downcast_int=True, downcast_float=True, category_threshold=0.5): """优化DataFrame的数据类型以减少内存占用""" if df.empty: return df # 转换整数列为最小可用类型 if downcast_int: int_cols = df.select_dtypes(include=['int']).columns for col in int_cols: df[col] = pd.to_numeric(df[col], downcast='integer') # 转换浮点列为float32 if downcast_float: float_cols = df.select_dtypes(include=['float']).columns for col in float_cols: # 优先转换为float32而不是downcast='float'以获得更好控制 df[col] = df[col].astype(np.float32) # 转换对象列为分类类型 obj_cols = df.select_dtypes(include=['object']).columns for col in obj_cols: num_unique = df[col].nunique() num_total = len(df) if num_unique / num_total < category_threshold: df[col] = df[col].astype('category') return df # 增强数据加载函数 def load_data_safely(file_path, usecols=None, dtype=None, chunksize=50000, verbose=True): """安全加载大型CSV文件，优化内存使用""" try: if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() # 自动检测编码 with open(file_path, 'rb') as f: result = chardet.detect(f.read(100000)) encoding = result['encoding'] if result['confidence'] > 0.7 else 'latin1' # 获取文件大小用于进度条 file_size = os.path.getsize(file_path) / (1024 ** 2) # MB desc = f"加载 {os.path.basename(file_path)} ({file_size:.1f}MB)" # 分批读取并优化内存 chunks = [] reader = pd.read_csv( file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=chunksize, low_memory=False ) for chunk in tqdm(reader, desc=desc, disable=not verbose): # 优化数据类型 chunk = optimize_dtypes(chunk) chunks.append(chunk) if chunks: result = pd.concat(chunks, ignore_index=True) # 再次整体优化 result = optimize_dtypes(result) return result return pd.DataFrame() except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 稀疏矩阵转换函数 - 优化版 def to_sparse_matrix(df, columns, fillna='MISSING', dtype=np.int8): """将分类特征转换为稀疏矩阵表示""" from sklearn.preprocessing import OneHotEncoder # 预处理数据 sparse_data = df[columns].fillna(fillna).astype(str) # 使用OneHotEncoder替代get_dummies以获得更好性能 encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=True, dtype=dtype) sparse_matrix = encoder.fit_transform(sparse_data) return sparse_matrix, encoder # 增量训练函数 - 优化内存管理 def train_incremental(X, y, categorical_features, params, num_rounds=1000, chunk_size=100000): """分块增量训练模型以减少内存占用""" model = None callbacks = [lgb.early_stopping(stopping_rounds=50, verbose=0), lgb.log_evaluation(period=100)] for i in tqdm(range(0, len(X), chunk_size), desc="增量训练"): chunk_end = min(i + chunk_size, len(X)) # 使用视图避免复制数据 X_chunk = X.iloc[i:chunk_end] y_chunk = y.iloc[i:chunk_end] # 创建数据集后立即释放原始数据 train_data = lgb.Dataset( X_chunk, label=y_chunk, categorical_feature=categorical_features, free_raw_data=True # 训练后释放原始数据 ) if model is None: model = lgb.train( params, train_data, num_boost_round=num_rounds, callbacks=callbacks, keep_training_booster=True ) else: model = lgb.train( params, train_data, num_boost_round=num_rounds, init_model=model, callbacks=callbacks, keep_training_booster=True ) # 显式释放内存 del train_data, X_chunk, y_chunk gc.collect() return model # 历史数据加载函数 - 优化内存 def load_historical_data(days=32, verbose=True): """高效加载历史数据，支持分批处理""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据", disable=not verbose): day_str = f"{day:02d}" # 加载曝光数据 - 仅加载必要列 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely( see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}, verbose=verbose ) if not see.empty: see_list.append(see) del see # 加载点击数据 - 优化日期处理 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely( click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'}, verbose=verbose ) if not click.empty and 'click_time' in click.columns: # 直接解析日期为数值类型 click_dates = pd.to_datetime(click['click_time'], errors='coerce') click['date'] = click_dates.dt.strftime('%Y%m%d').astype('int32') click = click.drop(columns=['click_time']) click_list.append(click[['did', 'vid', 'date']]) del click, click_dates # 加载播放数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = load_data_safely( play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category', 'play_time': 'float32'}, verbose=verbose ) if not play.empty: play_list.append(play) del play gc.collect() # 使用concat时避免创建中间对象 return ( pd.concat(see_list, ignore_index=True, copy=False).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list, ignore_index=True, copy=False).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list, ignore_index=True, copy=False).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 点击数据集构建 - 内存优化版 def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1, verbose=True): """构建点击数据集，包含负样本采样 - 内存优化版""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 - 使用视图避免复制 pos_samples = hist_click[['did', 'vid']].copy() pos_samples['label'] = 1 # 创建曝光集索引用于高效查找 exposure_index = hist_exposure.set_index(['did', 'vid']).index # 分块处理负样本 neg_chunks = [] chunk_size = 500000 total_rows = len(hist_exposure) for start in tqdm(range(0, total_rows, chunk_size), desc="构建负样本", disable=not verbose): end = min(start + chunk_size, total_rows) chunk = hist_exposure.iloc[start:end] # 使用索引查找未点击的曝光 chunk['is_clicked'] = chunk.set_index(['did', 'vid']).index.isin(hist_click.set_index(['did', 'vid']).index) neg_chunk = chunk[~chunk['is_clicked']][['did', 'vid']] if not neg_chunk.empty and sample_ratio < 1.0: neg_chunk = neg_chunk.sample(frac=sample_ratio, random_state=42) neg_chunks.append(neg_chunk) del chunk, neg_chunk # 合并负样本 neg_samples = pd.concat(neg_chunks, ignore_index=True) neg_samples['label'] = 0 # 合并正负样本 click_data = pd.concat([pos_samples, neg_samples], ignore_index=True, copy=False) # 释放内存 del exposure_index, pos_samples, neg_samples, neg_chunks gc.collect() return click_data # 在合并操作前添加检查 if 'total' not in df.columns: print("警告：'total' 列不存在于 DataFrame 中") print("可用列名：", df.columns.tolist()) # 尝试找出可能的拼写错误 possible_matches = [col for col in df.columns if 'total' in col.lower()] if possible_matches: print("可能的匹配列：", possible_matches) # 特征工程函数 - 内存优化版 def add_click_features(df, did_features, vid_info, hist_click, hist_play, verbose=True): """添加关键特征，避免内存溢出 - 优化版""" if df.empty: return df # 1. 合并设备特征 - 仅选择必要列 if not did_features.empty and 'did' in did_features.columns: did_cols = ['did'] + [col for col in did_features.columns if col.startswith('f')] df = df.merge(did_features[did_cols], on='did', how='left') # 2. 合并视频特征 - 仅选择必要列 if not vid_info.empty and 'vid' in vid_info.columns: vid_cols = ['vid', 'item_duration'] + [col for col in vid_info.columns if col in ['item_cid', 'item_type']] df = df.merge(vid_info[vid_cols], on='vid', how='left') # 3. 预聚合统计特征 - 减少重复计算 stats = {} # 用户行为统计 if not hist_click.empty: stats['user_click_count'] = hist_click.groupby('did').size().astype('int32') stats['video_click_count'] = hist_click.groupby('vid').size().astype('int32') if not hist_play.empty: stats['user_total_play'] = hist_play.groupby('did')['play_time'].sum().astype('float32') stats['avg_play_time'] = hist_play.groupby('vid')['play_time'].mean().astype('float32') # 4. 合并统计特征 for name, stat_df in tqdm(stats.items(), desc="添加统计特征", disable=not verbose): if name in df.columns: continue df = df.merge(stat_df.rename(name), how='left', left_on=name.split('_')[1], right_index=True) # 5. 填充缺失值 - 使用更高效的方法 fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median() if 'video_click_count' in df else 0, 'avg_play_time': df['avg_play_time'].median() if 'avg_play_time' in df else 0, 'item_duration': df['item_duration'].median() if 'item_duration' in df else 30.0 } for col, default in fill_values.items(): if col in df: # 使用inplace填充减少内存分配 df[col].fillna(default, inplace=True) # 6. 添加时间特征 - 使用数值替代分类 if 'date' in df: # 直接计算数值特征，避免创建datetime对象 df['day_of_week'] = (df['date'] % 7).astype('int8') df['is_weekend'] = (df['day_of_week'] >= 5).astype('int8') df.drop(columns=['date'], inplace=True, errors='ignore') return df # 主处理流程 - 内存优化版 def main(): """主处理流程，包含完整的内存优化策略""" # 初始内存监控 start_mem = memory_monitor("初始内存") # 定义内存优化的数据类型 dtypes = { 'did': 'category', 'vid': 'category', 'play_time': 'float32' } # 加载核心数据 print("开始加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) memory_monitor("加载核心数据后") # 加载历史数据 - 减少加载天数 print("开始加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=14) # 减少到14天 memory_monitor("加载历史数据后") # 构建点击数据集 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) # 立即释放不再需要的数据 del hist_exposure, hist_click gc.collect() else: print("⚠️ 无法构建点击数据集") click_train_data = pd.DataFrame() memory_monitor("构建点击数据集后") # 添加特征 - 使用增量方式 if not click_train_data.empty: print("开始构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click if 'hist_click' in locals() else pd.DataFrame(), hist_play ) else: print("⚠️ 点击数据集为空，跳过特征构建") # 立即释放内存 del hist_play gc.collect() memory_monitor("添加特征后") # 准备训练数据 - 使用视图避免复制 if not click_train_data.empty: cols_to_drop = ['did', 'vid', 'label'] if 'date' in click_train_data.columns: cols_to_drop.append('date') X = click_train_data.drop(columns=cols_to_drop, errors='ignore') y = click_train_data['label'] else: X, y = pd.DataFrame(), pd.Series(dtype='float32') print("⚠️ 点击训练数据为空") # 划分数据集 - 使用索引避免复制 if len(X) > 0: indices = np.arange(len(X)) train_idx, val_idx = train_test_split(indices, test_size=0.2, random_state=42, stratify=y) X_train, X_val = X.iloc[train_idx], X.iloc[val_idx] y_train, y_val = y.iloc[train_idx], y.iloc[val_idx] else: print("⚠️ 训练数据为空，无法进行模型训练") X_train, X_val, y_train, y_val = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 释放click_train_data del click_train_data, X, y, indices gc.collect() memory_monitor("划分数据集后") # 训练模型参数 - 调整为更节省内存的参数 params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 31, # 减少叶子节点数 'learning_rate': 0.05, 'feature_fraction': 0.7, # 减少特征使用比例 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 200, # 增加最小样本数 'verbosity': -1, 'max_depth': -1, # 避免过深 'seed': 42 } # 增量训练点击模型 if len(X_train) > 0: print("开始训练点击预测模型...") model_click = train_incremental(X_train, y_train, [], params, num_rounds=1000, chunk_size=100000) # 在验证集上评估 if len(X_val) > 0: # 分块预测避免内存峰值 chunk_size = 50000 val_preds = [] for i in range(0, len(X_val), chunk_size): chunk = X_val.iloc[i:i+chunk_size] val_preds.extend(model_click.predict(chunk)) val_logloss = log_loss(y_val, val_preds) print(f"验证集LogLoss: {val_logloss:.4f}") else: model_click = None print("⚠️ 训练数据为空，跳过点击预测模型训练") # 释放训练数据 del X_train, X_val, y_train, y_val gc.collect() memory_monitor("训练点击模型后") # 最终内存报告 end_mem = memory_monitor("处理完成") print(f"总内存消耗: {end_mem - start_mem:.2f} MB") # 内存监控函数 def memory_monitor(step_name=""): """监控内存使用情况""" process = psutil.Process(os.getpid()) mem_info = process.memory_info() print(f"{step_name} 内存使用: {mem_info.rss / (1024 ** 2):.2f} MB") return mem_info.rss / (1024 ** 2) # 返回MB if __name__ == "__main__": main()

这个模型是在干什么：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score import chardet import os import gc import joblib from tqdm import tqdm import warnings warnings.filterwarnings('ignore') # 内存优化函数 def reduce_mem_usage(df, use_float16=False): """迭代降低DataFrame的内存占用""" start_mem = df.memory_usage().sum() / 10242 print(f"内存优化前: {start_mem:.2f} MB") for col in df.columns: col_type = df[col].dtype if col_type != object: c_min = df[col].min() c_max = df[col].max() if str(col_type)[:3] == "int": if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8) elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max: df[col] = df[col].astype(np.int16) elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max: df[col] = df[col].astype(np.int32) elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max: df[col] = df[col].astype(np.int64) else: if use_float16 and c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max: df[col] = df[col].astype(np.float16) elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max: df[col] = df[col].astype(np.float32) else: df[col] = df[col].astype(np.float64) end_mem = df.memory_usage().sum() / 10242 print(f"内存优化后: {end_mem:.2f} MB ({100(start_mem-end_mem)/start_mem:.1f}% 减少)") return df def detect_encoding(file_path): with open(file_path, 'rb') as f: result = chardet.detect(f.read(10000)) return result['encoding'], result['confidence'] def load_data_for_day(day): """逐天加载数据并进行基本处理，返回优化后的DataFrame""" dtypes = {'did': 'category', 'vid': 'category'} day_str = f"{day:02d}" try: # 加载 see 数据 see_path = f'see_{day_str}.csv' if not os.path.exists(see_path): print(f"⚠️ 警告: 文件 {see_path} 不存在，跳过该天数据") return None, None, None see = pd.read_csv(see_path, encoding='latin1', dtype=dtypes) if 'did' not in see.columns or 'vid' not in see.columns: print(f"⚠️ 警告: see_{day_str}.csv 缺少必要字段") return None, None, None see['day'] = day_str see = reduce_mem_usage(see) # 加载 click 数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = pd.read_csv( click_path, encoding='ISO-8859-1', on_bad_lines='skip', dtype=dtypes ) if 'click_time' not in click.columns: print(f"⚠️ 警告: click_{day_str}.csv 缺少 click_time 字段") click = None else: click = click[['did', 'vid']] click = reduce_mem_usage(click) else: click = None print(f"⚠️ 警告: click_{day_str}.csv 不存在") # 加载 play 数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = pd.read_csv( play_path, engine='python', encoding_errors='ignore', dtype=dtypes ) if 'play_time' not in play.columns: print(f"⚠️ 警告: playplus_{day_str}.csv 缺少 play_time 字段") play = None else: play = play[['did', 'vid', 'play_time']] play = reduce_mem_usage(play) else: play = None print(f"⚠️ 警告: playplus_{day_str}.csv 不存在") return see, click, play except Exception as e: print(f"⚠️ 加载第 {day_str} 天数据时出错: {str(e)}") return None, None, None def process_data_in_chunks(days, feature_builder=None): """分块处理数据，避免内存溢出""" # 首先处理视频信息（一次性） if not os.path.exists('vid_info_table.csv'): raise FileNotFoundError("错误: vid_info_table.csv 文件不存在") video_info = pd.read_csv('vid_info_table.csv', encoding='gbk', dtype={'vid': 'category'}) if 'item_duration' not in video_info.columns: raise ValueError("vid_info_table.csv 缺少 item_duration 字段") video_info = reduce_mem_usage(video_info) video_info['vid'] = video_info['vid'].astype('category') # 初始化全局数据结构 user_stats = {} video_stats = {} # 逐天处理数据 for day in tqdm(range(1, days + 1), desc="处理每日数据"): see, click, play = load_data_for_day(day) if see is None: continue # 处理曝光数据 see_grouped = see.groupby('did')['vid'].nunique().reset_index(name='exposure_count') see_grouped = reduce_mem_usage(see_grouped) # 合并播放数据（如果存在） if play is not None: see = pd.merge(see, play, on=['did', 'vid'], how='left') see['play_time'] = see['play_time'].fillna(0).astype(np.float32) else: see['play_time'] = 0.0 # 合并点击数据（如果存在） if click is not None: click['clicked'] = 1 see = pd.merge(see, click, on=['did', 'vid'], how='left') see['clicked'] = see['clicked'].fillna(0).astype(np.int8) else: see['clicked'] = 0 # 合并视频信息 see = pd.merge(see, video_info[['vid', 'item_duration']], on='vid', how='left') see['item_duration'] = see['item_duration'].fillna(1.0) see.loc[see['item_duration'] <= 0, 'item_duration'] = 1.0 # 计算完成率 see['completion_rate'] = (see['play_time'] / see['item_duration']).clip(0, 1).astype(np.float16) # 创建标签 see['label'] = np.select( [(see['completion_rate'] > 0.4), (see['clicked'] == 1)], [2, 1], # 2=完成, 1=点击 default=0 # 0=曝光未点击 ).astype(np.int8) see['binary_label'] = see['label'].apply(lambda x: 1 if x >= 1 else 0).astype(np.int8) # 更新用户统计 for _, row in see.iterrows(): did = row['did'] vid = row['vid'] # 初始化用户统计 if did not in user_stats: user_stats[did] = { 'exposure_count': 0, 'click_count': 0, 'active_days': set() } # 更新曝光计数 user_stats[did]['exposure_count'] += 1 # 更新点击计数 if row['clicked'] == 1: user_stats[did]['click_count'] += 1 # 更新活跃天数 user_stats[did]['active_days'].add(day) # 初始化视频统计 if vid not in video_stats: video_stats[vid] = { 'click_users': set() } # 更新视频点击用户 if row['clicked'] == 1: video_stats[vid]['click_users'].add(did) # 释放内存 del see gc.collect() # 计算全局特征 print("计算全局特征...") user_features = [] for did, stats in user_stats.items(): active_days = len(stats['active_days']) click_count = stats['click_count'] exposure_count = stats['exposure_count'] if stats['exposure_count'] > 0 else 1 user_click_rate = click_count / exposure_count user_features.append({ 'did': did, 'user_click_rate': user_click_rate, 'user_active_days': active_days }) video_features = [] for vid, stats in video_stats.items(): video_popularity = len(stats['click_users']) video_features.append({ 'vid': vid, 'video_popularity': video_popularity }) user_df = pd.DataFrame(user_features) video_df = pd.DataFrame(video_features) # 释放内存 del user_stats, video_stats gc.collect() # 保存特征 user_df = reduce_mem_usage(user_df) video_df = reduce_mem_usage(video_df) user_df.to_csv('user_click_rate.csv', index=False) video_df.to_csv('video_popularity.csv', index=False) return user_df, video_df def prepare_samples(days=7): """准备训练样本（内存优化版本）""" # 处理数据并获取全局特征 user_df, video_df = process_data_in_chunks(days) # 读取并处理最近一天的数据作为样本 see, _, play = load_data_for_day(days) if see is None: raise ValueError("无法加载样本数据") # 合并用户特征 see = pd.merge(see, user_df, on='did', how='left') see['user_click_rate'] = see['user_click_rate'].fillna(0).astype(np.float32) see['user_active_days'] = see['user_active_days'].fillna(1).astype(np.int16) # 合并视频特征 see = pd.merge(see, video_df, on='vid', how='left') see['video_popularity'] = see['video_popularity'].fillna(0).astype(np.float32) # 特征交叉 see['user_video_interaction'] = (see['user_active_days'] np.log1p(see['video_popularity'])).astype(np.float32) see['user_video_affinity'] = (see['user_click_rate'] * see['video_popularity']).astype(np.float32) # 处理视频信息 video_info = pd.read_csv('vid_info_table.csv', encoding='gbk', dtype={'vid': 'category'}) see = pd.merge(see, video_info[['vid', 'item_duration']], on='vid', how='left') see['item_duration'] = see['item_duration'].fillna(1.0) see.loc[see['item_duration'] <= 0, 'item_duration'] = 1.0 # 计算完成率 if 'play_time' not in see.columns: see['play_time'] = 0.0 see['completion_rate'] = (see['play_time'] / see['item_duration']).clip(0, 1).astype(np.float16) # 创建标签 see['label'] = np.select( [(see['completion_rate'] > 0.4), (see['clicked'] == 1)], [2, 1], # 2=完成, 1=点击 default=0 # 0=曝光未点击 ).astype(np.int8) see['binary_label'] = see['label'].apply(lambda x: 1 if x >= 1 else 0).astype(np.int8) # 优化内存 see = reduce_mem_usage(see) return see, user_df, video_df def train_model(samples): """训练模型（内存优化版本）""" print("准备训练数据...") features = ['user_click_rate', 'video_popularity', 'user_active_days', 'user_video_interaction', 'user_video_affinity'] # 确保特征存在 available_features = [f for f in features if f in samples.columns] print(f"使用的特征: {available_features}") X = samples[available_features] y = samples['binary_label'] # 检查标签分布 if len(y.unique()) < 2: raise ValueError("标签数据不平衡，需要正负样本") # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 优化内存 X_train = reduce_mem_usage(X_train) X_test = reduce_mem_usage(X_test) # 创建数据集 lgb_train = lgb.Dataset(X_train, y_train, free_raw_data=True) lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train, free_raw_data=True) # 优化模型参数（降低复杂度） params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'auc', 'num_leaves': 31, # 减少叶子节点 'max_depth': 7, # 减少深度 'learning_rate': 0.05, 'feature_fraction': 0.7, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, # 增加以降低内存 'verbosity': -1, 'seed': 42 } # 训练模型 print("训练模型...") model = lgb.train( params, lgb_train, num_boost_round=500, # 减少迭代次数 valid_sets=[lgb_train, lgb_eval], callbacks=[ early_stopping(stopping_rounds=50, verbose=True), log_evaluation(period=100) ] ) # 评估模型 y_pred = model.predict(X_test) auc_score = roc_auc_score(y_test, y_pred) print(f"✅ 模型训练完成，验证集AUC: {auc_score:.4f}") # 保存模型 joblib.dump(model, 'lightgbm_model.pkl') print("💾 模型已保存") # 保存特征列表 with open('feature_columns.txt', 'w') as f: f.write('\n'.join(available_features)) return model, available_features, auc_score def predict_new_data(model, feature_columns, test_file): """预测新数据（内存优化版本）""" print("加载测试数据...") test_data = pd.read_csv(test_file, dtype={'did': 'category', 'vid': 'category'}) test_data = reduce_mem_usage(test_data) # 加载特征映射 user_df = pd.read_csv('user_click_rate.csv') if os.path.exists('user_click_rate.csv') else pd.DataFrame() video_df = pd.read_csv('video_popularity.csv') if os.path.exists('video_popularity.csv') else pd.DataFrame() # 使用全局均值用于填充新用户/新视频 global_user_rate = user_df['user_click_rate'].mean() if not user_df.empty else 0 global_video_pop = video_df['video_popularity'].mean() if not video_df.empty else 0 global_active_days = user_df['user_active_days'].mean() if not user_df.empty else 1 # 创建映射字典（减少内存） user_click_map = user_df.set_index('did')['user_click_rate'].to_dict() if not user_df.empty else {} video_pop_map = video_df.set_index('vid')['video_popularity'].to_dict() if not video_df.empty else {} user_active_map = user_df.set_index('did')['user_active_days'].to_dict() if not user_df.empty else {} # 添加特征 print("添加特征...") test_data['user_click_rate'] = test_data['did'].map(user_click_map).fillna(global_user_rate).astype(np.float32) test_data['video_popularity'] = test_data['vid'].map(video_pop_map).fillna(global_video_pop).astype(np.float32) test_data['user_active_days'] = test_data['did'].map(user_active_map).fillna(global_active_days).astype(np.int16) # 特征交叉 test_data['user_video_interaction'] = (test_data['user_active_days'] * np.log1p(test_data['video_popularity'])).astype(np.float32) test_data['user_video_affinity'] = (test_data['user_click_rate'] * test_data['video_popularity']).astype(np.float32) # 确保所有特征都存在 print("准备预测数据...") test_features = test_data[feature_columns].copy() # 释放内存 del test_data gc.collect() # 分批预测（避免内存溢出） print("开始预测...") batch_size = 100000 predictions = [] for i in tqdm(range(0, len(test_features), batch_size), desc="预测批次"): batch = test_features.iloc[i:i+batch_size] preds = model.predict(batch) predictions.extend(preds.tolist()) del batch gc.collect() # 重新加载测试数据以获取did和vid test_data = pd.read_csv(test_file, dtype={'did': 'category', 'vid': 'category'}, usecols=['did', 'vid']) test_data['click_prob'] = predictions # 生成并保存结果 print("生成最终结果...") top_predictions = test_data.sort_values('click_prob', ascending=False).groupby('did').head(1) result = top_predictions[['did', 'vid', 'click_prob']].copy() result.to_csv('prediction_result.csv', index=False) print(f"✅ 预测完成，结果已保存至 prediction_result.csv") print(f"预测样本数量: {len(result)}") # 释放内存 del test_features, predictions, top_predictions gc.collect() return result if name == 'main': try: print("🚀 开始视频推荐模型训练与预测流程 (内存优化版)") # 设置较小的天数 TRAIN_DAYS = 7 # 仅使用7天数据 print(f"⚙️ 配置: 使用{TRAIN_DAYS}天数据训练") # 准备样本 print("🔧 准备训练样本...") samples, _, _ = prepare_samples(days=TRAIN_DAYS) if samples is None: raise ValueError("样本准备失败") print(f"✅ 样本准备完成 - 总样本数: {len(samples)}") # 标签分布 label_dist = samples['binary_label'].value_counts(normalize=True) print(f"📊 标签分布 - 正样本: {label_dist[1]:.2%}, 负样本: {label_dist[0]:.2%}") # 训练模型 print("🤖 开始训练LightGBM模型...") model, features, auc_score = train_model(samples) print(f"🎯 最优模型AUC: {auc_score:.4f}") # 释放内存 del samples gc.collect() # 预测新数据 print("🔮 开始预测新数据...") test_file = 'testA_did_show.csv' # 直接加载保存的模型（避免内存中的模型占用） if not os.path.exists('lightgbm_model.pkl'): raise FileNotFoundError("模型文件不存在") model = joblib.load('lightgbm_model.pkl') # 加载特征列表 if not os.path.exists('feature_columns.txt'): raise FileNotFoundError("特征列表文件不存在") with open('feature_columns.txt', 'r') as f: features = f.read().splitlines() result = predict_new_data(model, features, test_file) print("✅ 流程成功完成!") except Exception as e: print(f"❌ 流程出错: {str(e)}") import traceback traceback.print_exc()

- train_model：使用LightGBM训练一个二分类模型。特征包括用户点击率、视频流行度、用户活跃天数、用户-视频交互特征和用户-视频亲和度。模型使用AUC作为评估指标，并采用早停策略。训练完成后保存模型和特征...

帮我检查优化代码，尤其是减少内存占用:import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime from scipy.sparse import hstack, csr_matrix, save_npz, load_npz import sys import psutil from sklearn.metrics import log_loss, mean_absolute_error # 内存优化函数 def optimize_dtypes(df): """优化DataFrame的数据类型以减少内存占用""" if df.empty: return df # 转换整数列为最小可用类型 int_cols = df.select_dtypes(include=['int']).columns if not int_cols.empty: df[int_cols] = df[int_cols].apply(pd.to_numeric, downcast='integer') # 转换浮点列为最小可用类型 float_cols = df.select_dtypes(include=['float']).columns if not float_cols.empty: df[float_cols] = df[float_cols].apply(pd.to_numeric, downcast='float') # 转换对象列为分类类型 obj_cols = df.select_dtypes(include=['object']).columns for col in obj_cols: num_unique = df[col].nunique() num_total = len(df) if num_unique / num_total < 0.5: # 如果唯一值比例小于50% df[col] = df[col].astype('category') return df # 内存监控函数 def memory_monitor(step_name=""): """监控内存使用情况""" process = psutil.Process(os.getpid()) mem_info = process.memory_info() print(f"{step_name} 内存使用: {mem_info.rss / (1024 2):.2f} MB") return mem_info.rss / (1024 2) # 返回MB # 增强数据加载函数 def load_data_safely(file_path, usecols=None, dtype=None, chunksize=100000): """安全加载大型CSV文件，优化内存使用""" try: if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() # 自动检测编码 with open(file_path, 'rb') as f: result = chardet.detect(f.read(100000)) encoding = result['encoding'] if result['confidence'] > 0.7 else 'latin1' # 分批读取并优化内存 chunks = [] reader = pd.read_csv( file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=chunksize, low_memory=False ) for chunk in tqdm(reader, desc=f"加载 {os.path.basename(file_path)}"): # 优化分类列内存 for col in chunk.columns: if dtype and col in dtype and dtype[col] == 'category': chunk[col] = chunk[col].astype('category').cat.as_ordered() # 优化数据类型 chunk = optimize_dtypes(chunk) chunks.append(chunk) if chunks: result = pd.concat(chunks, ignore_index=True) # 再次整体优化 result = optimize_dtypes(result) return result return pd.DataFrame() except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 稀疏矩阵转换函数 def to_sparse_matrix(df, columns): """将分类特征转换为稀疏矩阵表示""" sparse_matrices = [] for col in columns: if col in df.columns: # 处理NaN值 df[col] = df[col].fillna('MISSING') # 创建稀疏矩阵 sparse_mat = csr_matrix(pd.get_dummies(df[col], sparse=True).values) sparse_matrices.append(sparse_mat) # 水平堆叠所有稀疏矩阵 if sparse_matrices: return hstack(sparse_matrices) return None # 增量训练函数 def train_incremental(X, y, categorical_features, params, num_rounds=1000, chunk_size=100000): """分块增量训练模型以减少内存占用""" model = None for i in tqdm(range(0, len(X), chunk_size), desc="增量训练"): chunk_end = min(i + chunk_size, len(X)) X_chunk = X.iloc[i:chunk_end] y_chunk = y.iloc[i:chunk_end] train_data = lgb.Dataset( X_chunk, label=y_chunk, categorical_feature=categorical_features ) if model is None: model = lgb.train( params, train_data, num_boost_round=num_rounds, keep_training_booster=True ) else: model = lgb.train( params, train_data, num_boost_round=num_rounds, init_model=model, keep_training_booster=True ) return model # 主处理流程 def main(): """主处理流程，包含完整的内存优化策略""" # 初始内存监控 start_mem = memory_monitor("初始内存") # 定义内存优化的数据类型 dtypes = { 'did': 'category', 'vid': 'category', 'play_time': 'float32' } # 可选特征 optional_features = { 'item_cid': 'category', 'item_type': 'category', 'item_assetSource': 'category', 'item_classify': 'category', 'item_isIntact': 'category', 'sid': 'category', 'stype': 'category' } # 添加特征字段 for i in range(88): dtypes[f'f{i}'] = 'float32' # 加载核心数据 print("开始加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) memory_monitor("加载核心数据后") # 添加可选特征到dtypes for feature, dtype in optional_features.items(): if not vid_info.empty and feature in vid_info.columns: dtypes[feature] = dtype # 重新加载数据以确保所有列使用正确的数据类型 if os.path.exists('did_features_table.csv'): did_features = load_data_safely('did_features_table.csv', dtype=dtypes) else: print("⚠️ did_features_table.csv 不存在") did_features = pd.DataFrame() if os.path.exists('vid_info_table.csv'): vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) else: print("⚠️ vid_info_table.csv 不存在") vid_info = pd.DataFrame() memory_monitor("重新加载数据后") # 加载历史数据 print("开始加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=32) memory_monitor("加载历史数据后") # 构建点击数据集 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) else: print("⚠️ 无法构建点击数据集") click_train_data = pd.DataFrame() memory_monitor("构建点击数据集后") # 添加特征 if not click_train_data.empty: print("开始构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, hist_play ) else: print("⚠️ 点击数据集为空，跳过特征构建") memory_monitor("添加特征后") # 准备训练数据 if not click_train_data.empty: if 'date' in click_train_data.columns: X = click_train_data.drop(columns=['did', 'vid', 'label', 'date'], errors='ignore') else: X = click_train_data.drop(columns=['did', 'vid', 'label'], errors='ignore') y = click_train_data['label'] else: X, y = pd.DataFrame(), pd.Series() print("⚠️ 点击训练数据为空") # 划分数据集 if not X.empty and not y.empty: X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) else: print("⚠️ 训练数据为空，无法进行模型训练") X_train, X_val, y_train, y_val = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() memory_monitor("划分数据集后") # 训练模型参数 params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, 'verbosity': -1 } # 增量训练点击模型 if not X_train.empty: print("开始训练点击预测模型...") model_click = train_incremental(X_train, y_train, categorical_features, params, num_rounds=1500, chunk_size=100000) # 在验证集上评估 val_preds = model_click.predict(X_val) val_logloss = log_loss(y_val, val_preds) print(f"验证集LogLoss: {val_logloss:.4f}") else: model_click = None print("⚠️ 训练数据为空，跳过点击预测模型训练") memory_monitor("训练点击模型后") # 构建完播率数据集 print("开始构建完播率数据集...") play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) memory_monitor("构建完播率数据集后") # 训练完播率模型 if not play_train_data.empty: X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate'], errors='ignore') y_play = play_train_data['completion_rate'] else: X_play, y_play = pd.DataFrame(), pd.Series() print("⚠️ 完播率训练数据为空") if not X_play.empty and not y_play.empty: X_train_play, X_val_play, y_train_play, y_val_play = train_test_split( X_play, y_play, test_size=0.2, random_state=42 ) else: print("⚠️ 完播率训练数据为空，无法进行模型训练") X_train_play, X_val_play, y_train_play, y_val_play = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 训练参数 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.03, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l1': 0.1, 'lambda_l2': 0.1, 'min_data_in_leaf': 50, 'verbosity': -1 } # 增量训练完播率模型 if not X_train_play.empty: print("开始训练完播率模型...") model_play = train_incremental(X_train_play, y_train_play, play_categorical_features, params_reg, num_rounds=2000, chunk_size=100000) # 在验证集上评估 val_preds = model_play.predict(X_val_play) val_mae = mean_absolute_error(y_val_play, val_preds) print(f"验证集MAE: {val_mae:.4f}") else: model_play = None print("⚠️ 训练数据为空，跳过完播率模型训练") memory_monitor("训练完播率模型后") # 保存模型 if model_click: model_click.save_model('click_model.txt') print("点击预测模型已保存") if model_play: model_play.save_model('play_model.txt') print("完播率预测模型已保存") # 预测流程 print("开始加载预测数据...") to_predict_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) to_predict_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) # 执行预测 if not to_predict_users.empty and not to_predict_exposure.empty: print("开始生成预测结果...") submission = predict_for_test_data(to_predict_users, to_predict_exposure, did_features, vid_info) # 保存结果 if not submission.empty: timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") output_file = f'submission_{timestamp}.csv' submission.to_csv(output_file, index=False) print(f"预测结果已保存至: {output_file}") else: print("⚠️ 预测结果为空，未保存文件") else: print("⚠️ 预测数据加载失败，无法生成结果") # 最终内存报告 end_mem = memory_monitor("处理完成") print(f"总内存消耗: {end_mem - start_mem:.2f} MB") # 历史数据加载函数 def load_historical_data(days=32): """高效加载历史数据，支持分批处理""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据"): day_str = f"{day:02d}" # 加载曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely(see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}) if not see.empty and 'did' in see.columns and 'vid' in see.columns: see_list.append(see) del see gc.collect() # 加载点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely(click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'}) if not click.empty and 'click_time' in click.columns and 'did' in click.columns and 'vid' in click.columns: # 优化日期处理 click['date'] = pd.to_datetime(click['click_time'], errors='coerce').dt.date click = click.drop(columns=['click_time'], errors='ignore') click_list.append(click[['did', 'vid', 'date']]) del click gc.collect() # 加载播放数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = load_data_safely(play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category'}) if not play.empty and 'play_time' in play.columns and 'did' in play.columns and 'vid' in play.columns: play_list.append(play) del play gc.collect() gc.collect() # 确保返回三个DataFrame return ( pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 点击数据集构建 def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """构建点击数据集，包含负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click.copy() hist_click['label'] = 1 # 高效标记负样本 exposure_set = set(zip(hist_exposure['did'], hist_exposure['vid'])) click_set = set(zip(hist_click['did'], hist_click['vid'])) # 找出未点击的曝光 negative_set = exposure_set - click_set # 创建负样本DataFrame if negative_set: negative_dids, negative_vids = zip(negative_set) negative_samples = pd.DataFrame({ 'did': list(negative_dids), 'vid': list(negative_vids), 'label': 0 }) # 采样负样本 if sample_ratio < 1.0: negative_samples = negative_samples.sample(frac=sample_ratio, random_state=42) else: negative_samples = pd.DataFrame(columns=['did', 'vid', 'label']) # 合并数据集 click_data = pd.concat([ hist_click[['did', 'vid', 'label']], negative_samples ], ignore_index=True) # 释放内存 del exposure_set, click_set, negative_set, negative_samples gc.collect() return click_data # 特征工程函数 def add_click_features(df, did_features, vid_info, hist_click, hist_play): """添加关键特征，避免内存溢出""" if df.empty: return df # 基础特征 if not did_features.empty and 'did' in did_features.columns: # 只取需要的列 did_cols = [col for col in did_features.columns if col not in ['did'] or col == 'did'] df = df.merge(did_features[did_cols], on='did', how='left') if not vid_info.empty and 'vid' in vid_info.columns: vid_cols = [col for col in vid_info.columns if col not in ['vid'] or col == 'vid'] df = df.merge(vid_info[vid_cols], on='vid', how='left') # 用户行为统计 if not hist_click.empty and 'did' in hist_click.columns: user_click_count = hist_click.groupby('did').size().rename('user_click_count') df = df.merge(user_click_count, on='did', how='left') else: df['user_click_count'] = 0 if not hist_play.empty and 'did' in hist_play.columns and 'play_time' in hist_play.columns: user_total_play = hist_play.groupby('did')['play_time'].sum().rename('user_total_play') df = df.merge(user_total_play, on='did', how='left') else: df['user_total_play'] = 0 if not hist_click.empty and 'vid' in hist_click.columns: video_click_count = hist_click.groupby('vid').size().rename('video_click_count') df = df.merge(video_click_count, on='vid', how='left') else: df['video_click_count'] = 0 if not hist_play.empty and 'vid' in hist_play.columns and 'play_time' in hist_play.columns: avg_play_time = hist_play.groupby('vid')['play_time'].mean().rename('avg_play_time') df = df.merge(avg_play_time, on='vid', how='left') else: df['avg_play_time'] = 0 # 填充缺失值 fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median() if 'video_click_count' in df else 0, 'avg_play_time': df['avg_play_time'].median() if 'avg_play_time' in df else 0 } for col, value in fill_values.items(): if col in df: df[col] = df[col].fillna(value) # 添加时间相关特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('int8') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('int8') return df # 预测函数 def predict_for_test_data(test_users, test_exposure, did_features, vid_info): """为测试数据生成预测结果""" if test_users.empty or test_exposure.empty: print("⚠️ 测试数据为空，无法进行预测") return pd.DataFrame() # 合并测试数据 test_data = test_exposure.merge(test_users, on='did', how='left') # 添加特征 test_data = add_click_features( test_data, did_features, vid_info, pd.DataFrame(), # 无历史点击 pd.DataFrame() # 无历史播放 ) # 预测点击率 X_test = test_data.drop(columns=['did', 'vid', 'date'], errors='ignore') click_probs = [] if model_click and not X_test.empty: # 分块预测避免内存问题 click_probs = [] chunk_size = 100000 for i in range(0, len(X_test), chunk_size): chunk = X_test.iloc[i:i+chunk_size] click_probs.extend(model_click.predict(chunk)) else: click_probs = [0.5] len(test_data) # 默认值 # 预测完播率 completion_rates = [] if model_play and not X_test.empty: # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: test_data = test_data.merge(vid_info[['vid', 'item_duration']], on='vid', how='left') else: test_data['item_duration'] = 1.0 # 分块预测 completion_rates = [] for i in range(0, len(X_test), chunk_size): chunk = X_test.iloc[i:i+chunk_size] completion_rates.extend(model_play.predict(chunk)) else: completion_rates = [0.7] * len(test_data) # 默认值 # 计算综合得分 test_data['click_prob'] = click_probs test_data['completion_rate'] = completion_rates test_data['score'] = test_data['click_prob'] * test_data['completion_rate'] # 为每个用户选择得分最高的视频 submission = test_data.sort_values('score', ascending=False).groupby('did').head(1) # 选择需要的列 submission = submission[['did', 'vid', 'completion_rate']].copy() # 重命名列 submission.columns = ['did', 'vid', 'completion_rate'] # 确保数据格式正确 submission['did'] = submission['did'].astype(str) submission['vid'] = submission['vid'].astype(str) submission['completion_rate'] = submission['completion_rate'].round(4) return submission # 主程序入口 if name == "main": main()

from sklearn.model_selection import train_test_split from tqdm import tqdm import psutil from sklearn.metrics import log_loss, mean_absolute_error from scipy.sparse import hstack, csr_matrix, save_npz...

请帮我检查优化代码，并完整输出结果：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score import chardet def detect_encoding(file_path): with open(file_path, 'rb') as f: result = chardet.detect(f.read(10000)) return result['encoding'], result['confidence'] def load_all_data(days=32): see_list, click_list, play_list = [], [], [] dtypes = {'did': 'category', 'vid': 'category'} for i in range(1, days + 1): day = f"{i:02d}" # 加载 see 数据 see = pd.read_csv(f'see_{day}.csv', encoding='latin1', dtype=dtypes) if 'did' not in see.columns or 'vid' not in see.columns: raise ValueError(f"see_{day}.csv 缺少必要字段") see['day'] = day see_list.append(see) # 加载 click 数据 click = pd.read_csv( f'click_{day}.csv', encoding='ISO-8859-1', on_bad_lines='skip', dtype=dtypes ) if 'click_time' not in click.columns: raise ValueError(f"click_{day}.csv 缺少 click_time 字段") click['date'] = pd.to_datetime(click['click_time']).dt.date click_list.append(click[['did', 'vid', 'date']]) # 加载 play 数据 play = pd.read_csv( f'playplus_{day}.csv', engine='python', encoding_errors='ignore', dtype=dtypes ) if 'play_time' not in play.columns: raise ValueError(f"playplus_{day}.csv 缺少 play_time 字段") play_list.append(play[['did', 'vid', 'play_time']]) all_see = pd.concat(see_list).drop_duplicates(['did', 'vid']) all_click = pd.concat(click_list).drop_duplicates(['did', 'vid']) all_play = pd.concat(play_list).groupby(['did', 'vid'], observed=True).sum().reset_index() return all_see, all_click, all_play def prepare_samples(all_see, all_click, all_play): video_info = pd.read_csv('vid_info_table.csv', encoding='gbk', dtype={'vid': 'category'}) # 合并基础数据 samples = all_see.merge(all_play, on=['did', 'vid'], how='left').fillna({'play_time': 0}) samples = samples.merge(video_info, on='vid', how='left') # 计算完成率（仅用于分析，不用于预测） samples['completion_rate'] = (samples['play_time'] / samples['item_duration']).clip(0, 1).astype(np.float32) # 点击标记 click_flag = all_click.groupby(['did', 'vid']).size().reset_index(name='clicked') click_flag['clicked'] = 1 samples = samples.merge(click_flag, on=['did', 'vid'], how='left').fillna({'clicked': 0}) samples['clicked'] = samples['clicked'].astype(np.int8) # 标签定义 samples['label'] = np.select( [ (samples['completion_rate'] > 0.9), (samples['clicked'] == 1) ], [2, 1], # 2=完成, 1=点击 default=0 # 0=曝光未点击 ) # 二分类目标（点击或完成为正类） samples['binary_label'] = samples['label'].apply(lambda x: 1 if x >= 1 else 0).astype(int) # 计算用户点击率（修正版） user_exposure = all_see.groupby('did').size().rename('exposure_count') user_click_count = all_click.groupby('did').size().rename('click_count') user_click_rate = (user_click_count / user_exposure).fillna(0).astype(np.float32) # 视频流行度 video_popularity = all_click.groupby('vid').size().rename('video_popularity') # 映射特征 samples['user_click_rate'] = samples['did'].map(user_click_rate).fillna(0) samples['video_popularity'] = samples['vid'].map(video_popularity).fillna(0) # 修复：保存唯一用户点击率（关键修复点） user_click_rate_df = pd.DataFrame({ 'did': user_click_rate.index, 'user_click_rate': user_click_rate.values }).drop_duplicates('did') # 修复：保存唯一视频流行度 video_popularity_df = pd.DataFrame({ 'vid': video_popularity.index, 'video_popularity': video_popularity.values }).drop_duplicates('vid') # 保存特征 user_click_rate_df.to_csv('user_click_rate.csv', index=False) video_popularity_df.to_csv('video_popularity.csv', index=False) return samples, user_click_rate, video_popularity def train_model(samples): # 仅使用可复现的特征 features = ['user_click_rate', 'video_popularity'] X = samples[features] y = samples['binary_label'] X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) lgb_train = lgb.Dataset(X_train, y_train) lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train) params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'auc', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': -1 } model = lgb.train( params, lgb_train, num_boost_round=100, valid_sets=[lgb_train, lgb_eval], callbacks=[ early_stopping(stopping_rounds=20), log_evaluation(period=50) ] ) y_pred = model.predict(X_test) auc_score = roc_auc_score(y_test, y_pred) print(f"Validation AUC: {auc_score:.4f}") return model, features, auc_score def predict_new_data(model, feature_columns, test_file): # 读取测试数据 test_data = pd.read_csv(test_file, dtype={'did': 'category', 'vid': 'category'}) # 修复：正确读取特征映射 user_click_rate_df = pd.read_csv('user_click_rate.csv') video_popularity_df = pd.read_csv('video_popularity.csv') # 计算全局均值用于填充新用户/新视频 global_user_rate = user_click_rate_df['user_click_rate'].mean() global_video_pop = video_popularity_df['video_popularity'].mean() # 创建映射字典 user_click_map = user_click_rate_df.set_index('did')['user_click_rate'].to_dict() video_pop_map = video_popularity_df.set_index('vid')['video_popularity'].to_dict() # 映射特征 test_data['user_click_rate'] = test_data['did'].map(user_click_map).fillna(global_user_rate) test_data['video_popularity'] = test_data['vid'].map(video_pop_map).fillna(global_video_pop) # 预测 test_data['click_prob'] = model.predict(test_data[feature_columns]) # 生成结果 top_predictions = test_data.sort_values('click_prob', ascending=False).groupby('did').head(1) result = top_predictions[['did', 'vid', 'click_prob']].copy() result.columns = ['did', 'vid', 'click_prob'] result.to_csv('prediction_result.csv', index=False) return result if name == 'main': encoding, confidence = detect_encoding('see_01.csv') print(f"编码: {encoding}, 置信度: {confidence:.2f}") all_see, all_click, all_play = load_all_data() samples, _, _ = prepare_samples(all_see, all_click, all_play) model, features, auc_score = train_model(samples) result = predict_new_data(model, features, 'testA_did_show.csv')

我们首先对代码进行整体检查，然后逐部分优化。主要关注点包括： 1. 代码效率：数据加载和合并操作可能很慢，考虑优化。 2. 内存使用：使用适当的数据类型减少内存占用。 3. 错误处理：增强鲁棒性。 4. 特征工程...

帮我检查代码：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score import chardet def detect_encoding(file_path): with open(file_path, 'rb') as f: result = chardet.detect(f.read(10000)) return result['encoding'], result['confidence'] def load_all_data(days=32): see_list, click_list, play_list = [], [], [] dtypes = {'did': 'category', 'vid': 'category'} for i in range(1, days + 1): day = f"{i:02d}" # 加载 see 数据 see = pd.read_csv(f'see_{day}.csv', encoding='latin1', dtype=dtypes) if 'did' not in see.columns or 'vid' not in see.columns: raise ValueError(f"see_{day}.csv 缺少必要字段") see['day'] = day see_list.append(see) # 加载 click 数据 click = pd.read_csv( f'click_{day}.csv', encoding='ISO-8859-1', on_bad_lines='skip', dtype=dtypes ) if 'click_time' not in click.columns: raise ValueError(f"click_{day}.csv 缺少 click_time 字段") click['date'] = pd.to_datetime(click['click_time']).dt.date click_list.append(click[['did', 'vid', 'date']]) # 加载 play 数据 play = pd.read_csv( f'playplus_{day}.csv', engine='python', encoding_errors='ignore', dtype=dtypes ) if 'play_time' not in play.columns: raise ValueError(f"playplus_{day}.csv 缺少 play_time 字段") play_list.append(play[['did', 'vid', 'play_time']]) all_see = pd.concat(see_list).drop_duplicates(['did', 'vid']) all_click = pd.concat(click_list).drop_duplicates(['did', 'vid']) all_play = pd.concat(play_list).groupby(['did', 'vid'], observed=True).sum().reset_index() return all_see, all_click, all_play def prepare_samples(all_see, all_click, all_play): video_info = pd.read_csv('vid_info_table.csv', encoding='gbk', dtype={'vid': 'category'}) # 合并基础数据 samples = all_see.merge(all_play, on=['did', 'vid'], how='left').fillna({'play_time': 0}) samples = samples.merge(video_info, on='vid', how='left') # 计算完成率（仅用于分析，不用于预测） samples['completion_rate'] = (samples['play_time'] / samples['item_duration']).clip(0, 1).astype(np.float32) # 点击标记 click_flag = all_click.groupby(['did', 'vid']).size().reset_index(name='clicked') click_flag['clicked'] = 1 samples = samples.merge(click_flag, on=['did', 'vid'], how='left').fillna({'clicked': 0}) samples['clicked'] = samples['clicked'].astype(np.int8) # 标签定义 samples['label'] = np.select( [ (samples['completion_rate'] > 0.9), (samples['clicked'] == 1) ], [2, 1], # 2=完成, 1=点击 default=0 # 0=曝光未点击 ) # 二分类目标（点击或完成为正类） samples['binary_label'] = samples['label'].apply(lambda x: 1 if x >= 1 else 0).astype(int) # 计算用户点击率（修正版） user_exposure = all_see.groupby('did').size().rename('exposure_count') user_click_count = all_click.groupby('did').size().rename('click_count') user_click_rate = (user_click_count / user_exposure).fillna(0).astype(np.float32) # 视频流行度 video_popularity = all_click.groupby('vid').size().rename('video_popularity') # 映射特征 samples['user_click_rate'] = samples['did'].map(user_click_rate).fillna(0) samples['video_popularity'] = samples['vid'].map(video_popularity).fillna(0) # 修复：保存唯一用户点击率（关键修复点） user_click_rate_df = pd.DataFrame({ 'did': user_click_rate.index, 'user_click_rate': user_click_rate.values }).drop_duplicates('did') # 修复：保存唯一视频流行度 video_popularity_df = pd.DataFrame({ 'vid': video_popularity.index, 'video_popularity': video_popularity.values }).drop_duplicates('vid') # 保存特征 user_click_rate_df.to_csv('user_click_rate.csv', index=False) video_popularity_df.to_csv('video_popularity.csv', index=False) return samples, user_click_rate, video_popularity def train_model(samples): # 仅使用可复现的特征 features = ['user_click_rate', 'video_popularity'] X = samples[features] y = samples['binary_label'] X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) lgb_train = lgb.Dataset(X_train, y_train) lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train) params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'auc', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': -1 } model = lgb.train( params, lgb_train, num_boost_round=100, valid_sets=[lgb_train, lgb_eval], callbacks=[ early_stopping(stopping_rounds=20), log_evaluation(period=50) ] ) y_pred = model.predict(X_test) auc_score = roc_auc_score(y_test, y_pred) print(f"Validation AUC: {auc_score:.4f}") return model, features, auc_score def predict_new_data(model, feature_columns, test_file): # 读取测试数据 test_data = pd.read_csv(test_file, dtype={'did': 'category', 'vid': 'category'}) # 修复：正确读取特征映射 user_click_rate_df = pd.read_csv('user_click_rate.csv') video_popularity_df = pd.read_csv('video_popularity.csv') # 计算全局均值用于填充新用户/新视频 global_user_rate = user_click_rate_df['user_click_rate'].mean() global_video_pop = video_popularity_df['video_popularity'].mean() # 创建映射字典 user_click_map = user_click_rate_df.set_index('did')['user_click_rate'].to_dict() video_pop_map = video_popularity_df.set_index('vid')['video_popularity'].to_dict() # 映射特征 test_data['user_click_rate'] = test_data['did'].map(user_click_map).fillna(global_user_rate) test_data['video_popularity'] = test_data['vid'].map(video_pop_map).fillna(global_video_pop) # 预测 test_data['click_prob'] = model.predict(test_data[feature_columns]) # 生成结果 top_predictions = test_data.sort_values('click_prob', ascending=False).groupby('did').head(1) result = top_predictions[['did', 'vid', 'click_prob']].copy() result.columns = ['did', 'vid', 'click_prob'] result.to_csv('prediction_result.csv', index=False) return result if name == 'main': encoding, confidence = detect_encoding('see_01.csv') print(f"编码: {encoding}, 置信度: {confidence:.2f}") all_see, all_click, all_play = load_all_data() samples, _, _ = prepare_samples(all_see, all_click, all_play) model, features, auc_score = train_model(samples) result = predict_new_data(model, features, 'testA_did_show.csv')

我们首先对代码进行详细检查，并指出可能存在的问题，然后给出优化建议。原始代码主要包含以下部分： 1. 检测文件编码的函数 detect_encoding 2. 加载多天数据的函数 load_all_data 3. 准备样本的函数 ...

帮我检查代码，并说明代码用到的表格、建模的特征、给出的结果分别有哪些：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm.auto import tqdm # 使用auto版本自动选择界面 import joblib from datetime import datetime import dask.dataframe as dd # 添加Dask支持大数据处理 from dask.diagnostics import ProgressBar # 1. 增强数据加载函数（优化内存和IO） def load_data_safely(file_path, usecols=None, dtype=None, chunksize=500000): """安全高效加载大型CSV文件，自动处理编码""" if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() try: # 高效检测编码 with open(file_path, 'rb') as f: detector = chardet.UniversalDetector() for line in f: detector.feed(line) if detector.done or f.tell() > 100000: break detector.close() encoding = detector.result['encoding'] if detector.result['confidence'] > 0.6 else 'utf-8' # 使用Dask处理大文件 ddf = dd.read_csv(file_path, encoding=encoding, usecols=usecols, dtype=dtype, blocksize=chunksize, low_memory=False) with ProgressBar(): df = ddf.compute() # 优化分类列内存 if dtype: for col, col_type in dtype.items(): if col in df.columns and col_type == 'category': df[col] = df[col].astype('category').cat.as_ordered() return df except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 2. 优化历史数据加载（并行处理） def load_historical_data(days=32): """并行加载历史数据，自动跳过缺失文件""" from concurrent.futures import ThreadPoolExecutor def load_day(day): day_str = f"{day:02d}" results = {} # 曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): results['see'] = load_data_safely( see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'} ) # 点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely( click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'} ) if not click.empty and 'click_time' in click: click['date'] = pd.to_datetime(click['click_time']).dt.date click.drop(columns=['click_time'], inplace=True, errors='ignore') results['click'] = click # 播放数据 play_path = f'play_{day_str}.csv' if os.path.exists(play_path): results['play'] = load_data_safely( play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category', 'play_time': 'float32'} ) return results with ThreadPoolExecutor(max_workers=8) as executor: futures = [executor.submit(load_day, day) for day in range(1, days+1)] results = [f.result() for f in tqdm(futures, desc="加载历史数据", total=days)] # 合并结果 see_list = [r['see'] for r in results if 'see' in r and not r['see'].empty] click_list = [r['click'] for r in results if 'click' in r and not r['click'].empty] play_list = [r['play'] for r in results if 'play' in r and not r['play'].empty] hist_exposure = pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame() hist_click = pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame() hist_play = pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() return hist_exposure, hist_click, hist_play # 3. 优化点击数据集构建（内存友好的负采样） def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """使用Bloom Filter进行高效负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click[['did', 'vid']].copy() hist_click['label'] = 1 # 创建Bloom Filter存储正样本 from pybloom_live import ScalableBloomFilter bloom = ScalableBloomFilter(mode=ScalableBloomFilter.SMALL_SET_GROWTH) # 添加正样本 for _, row in tqdm(hist_click.iterrows(), total=len(hist_click), desc="构建布隆过滤器"): bloom.add((row['did'], row['vid'])) # 采样负样本 negative_samples = [] chunk_size = 500000 for i in range(0, len(hist_exposure), chunk_size): chunk = hist_exposure.iloc[i:i+chunk_size] for _, row in tqdm(chunk.iterrows(), total=len(chunk), desc="采样负样本"): if sample_ratio > np.random.random() and (row['did'], row['vid']) not in bloom: negative_samples.append([row['did'], row['vid'], 0]) # 构建负样本DataFrame negative_df = pd.DataFrame(negative_samples, columns=['did', 'vid', 'label']) click_data = pd.concat([hist_click, negative_df], ignore_index=True) return click_data # 4. 优化特征工程（延迟计算） def add_click_features(df, did_features, vid_info, hist_click, hist_play): """按需计算特征，避免中间大DataFrame""" if df.empty: return df # 基础特征 if not did_features.empty and 'did' in did_features.columns: # 优化内存合并 df = df.merge(did_features.add_suffix('_user'), left_on='did', right_index=True, how='left') if not vid_info.empty and 'vid' in vid_info.columns: vid_info_sub = vid_info[[c for c in vid_info.columns if c != 'item_duration']] df = df.merge(vid_info_sub.add_suffix('_item'), left_on='vid', right_index=True, how='left') # 按需计算统计特征 def calc_stat_feature(df, source, group_col, target_col, feature_name, agg_func='size'): if source.empty or group_col not in source or (agg_func != 'size' and target_col not in source): df[feature_name] = 0 return # 使用预聚合缓存 cache_file = f"{feature_name}_cache.pkl" if os.path.exists(cache_file): stats = joblib.load(cache_file) else: stats = source.groupby(group_col) if agg_func == 'size': stats = stats.size().rename(feature_name) else: stats = stats[target_col].agg(agg_func).rename(feature_name) joblib.dump(stats, cache_file) if group_col == 'did': df = df.merge(stats, left_on='did', right_index=True, how='left') else: df = df.merge(stats, left_on='vid', right_index=True, how='left') df[feature_name].fillna(0, inplace=True) return df # 计算用户特征 df = calc_stat_feature(df, hist_click, 'did', None, 'user_click_count') df = calc_stat_feature(df, hist_play, 'did', 'play_time', 'user_total_play', 'sum') # 计算物品特征 df = calc_stat_feature(df, hist_click, 'vid', None, 'video_click_count') df = calc_stat_feature(df, hist_play, 'vid', 'play_time', 'avg_play_time', 'mean') # 时间特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('int8') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('int8') # 释放内存 gc.collect() return df # 5. 模型训练函数封装 def train_lgb_model(X, y, categorical_features, params, model_name="模型"): if X.empty or y.empty: print(f"⚠️ {model_name}训练数据为空") return None X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y if 'binary' in params['objective'] else None ) train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features, free_raw_data=False) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features, free_raw_data=False) print(f"开始训练{model_name}...") model = lgb.train( params, train_data, num_boost_round=10000, valid_sets=[train_data, val_data], valid_names=['train', 'valid'], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50), lgb.reset_parameter(learning_rate=lambda iter: params['learning_rate'] * (0.99 ** iter)) ] ) return model # 主程序优化 def main(): # 配置优化 #pd.set_option('future.no_silent_downcasting', True) gc.enable() # 核心数据类型 dtypes = {'did': 'category', 'vid': 'category', 'play_time': 'float32'} for i in range(88): dtypes[f'f{i}'] = 'float32' # 核心数据加载 print("高效加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 历史数据加载 print("并行加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=15) # 减少天数提高速度 # 点击模型训练 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.05) # 降低采样率 print("构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, hist_play ) # 获取分类特征 base_categorical = ['item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype', 'day_of_week', 'hour'] categorical_features = [c for c in base_categorical if c in click_train_data] # 训练模型 click_params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 127, 'learning_rate': 0.1, 'feature_fraction': 0.7, 'bagging_freq': 5, 'min_data_in_leaf': 100, 'verbosity': -1 } model_click = train_lgb_model( click_train_data.drop(columns=['label', 'did', 'vid', 'date'], errors='ignore'), click_train_data['label'], categorical_features, click_params, "点击预测模型" ) else: model_click = None # 完播率模型训练 if not hist_play.empty and not vid_info.empty: print("构建完播率数据集...") play_data = hist_play[['did', 'vid', 'play_time']].copy() play_data = play_data.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] # 添加特征 play_data = add_click_features( play_data, did_features, vid_info, hist_click, hist_play ) # 训练模型 play_params = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.7, 'bagging_freq': 5, 'min_data_in_leaf': 50, 'verbosity': -1 } model_play = train_lgb_model( play_data.drop(columns=['completion_rate', 'did', 'vid', 'play_time', 'item_duration'], errors='ignore'), play_data['completion_rate'], categorical_features, play_params, "完播率预测模型" ) else: model_play = None # 保存模型 for model, name in zip([model_click, model_play], ['click_model.txt', 'play_model.txt']): if model: model.save_model(name) joblib.dump(base_categorical, 'categorical_features.pkl') # 测试预测 print("加载预测数据...") test_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) test_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) if not test_users.empty and not test_exposure.empty: print("生成测试预测...") # 预测逻辑保持不变... else: print("⚠️ 预测数据加载失败") if name == "main": main()

load_data_safely（安全加载数据）、load_historical_data（加载历史数据）、build_click_dataset（构建点击数据集，包括负采样）、add_click_features（特征工程）、train_lgb_model（训练LightGBM模型）。...

1.给出模型的auc；2.模型的预测结果，第一列是did，第二列只保留点击概率最高的vid，第三列是预计的完播率，按照上面三个要求调整代码并检查无误：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime # 1. 增强数据加载函数（添加列存在性检查） def load_data_safely(file_path, usecols=None, dtype=None, chunksize=100000): """安全加载大型CSV文件，优化内存使用""" try: if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() # 自动检测编码 with open(file_path, 'rb') as f: result = chardet.detect(f.read(100000)) encoding = result['encoding'] if result['confidence'] > 0.7 else 'latin1' # 分批读取并优化内存 chunks = [] reader = pd.read_csv( file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=chunksize, low_memory=False ) for chunk in tqdm(reader, desc=f"加载 {os.path.basename(file_path)}"): # 优化分类列内存 for col in chunk.columns: if dtype and col in dtype and dtype[col] == 'category': chunk[col] = chunk[col].astype('category').cat.as_ordered() chunks.append(chunk) if chunks: return pd.concat(chunks, ignore_index=True) return pd.DataFrame() except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 2. 优化历史数据加载（添加列存在性检查） def load_historical_data(days=32): """高效加载历史数据，支持分批处理""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据"): day_str = f"{day:02d}" # 加载曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely(see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}) if not see.empty and 'did' in see.columns and 'vid' in see.columns: see_list.append(see) del see gc.collect() # 加载点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely(click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'}) if not click.empty and 'click_time' in click.columns and 'did' in click.columns and 'vid' in click.columns: # 优化日期处理 click['date'] = pd.to_datetime(click['click_time'], errors='coerce').dt.date click = click.drop(columns=['click_time'], errors='ignore') click_list.append(click[['did', 'vid', 'date']]) del click gc.collect() # 加载播放数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = load_data_safely(play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category'}) if not play.empty and 'play_time' in play.columns and 'did' in play.columns and 'vid' in play.columns: play_list.append(play) del play gc.collect() gc.collect() # 确保返回三个DataFrame，即使某些为空 return ( pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 定义内存优化的数据类型（添加列存在性检查） dtypes = { 'did': 'category', 'vid': 'category', 'play_time': 'float32' } # 可选特征 - 只有在数据中存在时才添加 optional_features = { 'item_cid': 'category', 'item_type': 'category', 'item_assetSource': 'category', 'item_classify': 'category', 'item_isIntact': 'category', 'sid': 'category', 'stype': 'category' } # 添加特征字段 for i in range(88): dtypes[f'f{i}'] = 'float32' # 加载核心数据 print("开始加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 添加可选特征到dtypes（仅当列存在时） for feature, dtype in optional_features.items(): if not vid_info.empty and feature in vid_info.columns: dtypes[feature] = dtype # 重新加载数据以确保所有列使用正确的数据类型 if os.path.exists('did_features_table.csv'): did_features = load_data_safely('did_features_table.csv', dtype=dtypes) else: print("⚠️ did_features_table.csv 不存在") did_features = pd.DataFrame() if os.path.exists('vid_info_table.csv'): vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) else: print("⚠️ vid_info_table.csv 不存在") vid_info = pd.DataFrame() # 加载历史数据 - 确保所有变量都被定义 print("开始加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=32) # 打印历史数据状态 print(f"历史曝光数据形状: {hist_exposure.shape if not hist_exposure.empty else '空'}") print(f"历史点击数据形状: {hist_click.shape if not hist_click.empty else '空'}") print(f"历史播放数据形状: {hist_play.shape if not hist_play.empty else '空'}") # 3. 优化点击数据集构建（添加空数据检查） def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """构建点击数据集，包含负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click.copy() hist_click['label'] = 1 # 高效标记负样本（使用集合操作） exposure_set = set(zip(hist_exposure['did'], hist_exposure['vid'])) click_set = set(zip(hist_click['did'], hist_click['vid'])) # 找出未点击的曝光 negative_set = exposure_set - click_set # 创建负样本DataFrame if negative_set: negative_dids, negative_vids = zip(negative_set) negative_samples = pd.DataFrame({ 'did': list(negative_dids), 'vid': list(negative_vids), 'label': 0 }) # 采样负样本 if sample_ratio < 1.0: negative_samples = negative_samples.sample(frac=sample_ratio, random_state=42) else: negative_samples = pd.DataFrame(columns=['did', 'vid', 'label']) # 合并数据集 click_data = pd.concat([ hist_click[['did', 'vid', 'label']], negative_samples ], ignore_index=True) # 释放内存 del exposure_set, click_set, negative_set, negative_samples gc.collect() return click_data # 使用10%负样本比例 - 确保hist_click已定义 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) else: print("⚠️ 无法构建点击数据集，因为历史曝光或点击数据为空") click_train_data = pd.DataFrame() # 4. 优化特征工程（解决分类特征问题） def add_click_features(df, did_features, vid_info, hist_click, hist_play): """添加关键特征，避免内存溢出""" if df.empty: return df # 基础特征（使用索引加速合并） if not did_features.empty and 'did' in did_features.columns: df = df.merge(did_features, on='did', how='left') if not vid_info.empty and 'vid' in vid_info.columns: df = df.merge(vid_info, on='vid', how='left') # 用户行为统计 user_click_count = pd.Series(dtype='int') if not hist_click.empty and 'did' in hist_click.columns: user_click_count = hist_click.groupby('did').size().rename('user_click_count') if not user_click_count.empty: df = df.merge(user_click_count, on='did', how='left') else: df['user_click_count'] = 0 user_total_play = pd.Series(dtype='float') if not hist_play.empty and 'did' in hist_play.columns and 'play_time' in hist_play.columns: user_total_play = hist_play.groupby('did')['play_time'].sum().rename('user_total_play') if not user_total_play.empty: df = df.merge(user_total_play, on='did', how='left') else: df['user_total_play'] = 0 # 视频热度统计 video_click_count = pd.Series(dtype='int') if not hist_click.empty and 'vid' in hist_click.columns: video_click_count = hist_click.groupby('vid').size().rename('video_click_count') if not video_click_count.empty: df = df.merge(video_click_count, on='vid', how='left') else: df['video_click_count'] = 0 avg_play_time = pd.Series(dtype='float') if not hist_play.empty and 'vid' in hist_play.columns and 'play_time' in hist_play.columns: avg_play_time = hist_play.groupby('vid')['play_time'].mean().rename('avg_play_time') if not avg_play_time.empty: df = df.merge(avg_play_time, on='vid', how='left') else: df['avg_play_time'] = 0 # 填充缺失值 fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median() if 'video_click_count' in df else 0, 'avg_play_time': df['avg_play_time'].median() if 'avg_play_time' in df else 0 } for col, value in fill_values.items(): if col in df: df[col] = df[col].fillna(value) # 添加时间相关特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('int8') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('int8') return df # 添加特征 - 确保所有参数都已定义 if not click_train_data.empty: print("开始构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, # 确保hist_click已定义 hist_play # 确保hist_play已定义 ) else: print("⚠️ 点击数据集为空，跳过特征构建") # 5. 修复分类特征问题 def get_categorical_features(df, base_features): """动态获取存在的分类特征""" existing_features = [] for feature in base_features: if feature in df.columns: try: # 尝试转换为数值，如果是数值则跳过 pd.to_numeric(df[feature], errors='raise') except: existing_features.append(feature) # 确保转换为category类型 df[feature] = df[feature].astype('category').cat.as_ordered() return existing_features # 基础分类特征列表 base_categorical_features = [ 'item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype', 'day_of_week', 'hour' ] # 动态获取存在的分类特征 categorical_features = [] if not click_train_data.empty: categorical_features = get_categorical_features(click_train_data, base_categorical_features) print(f"使用的分类特征: {categorical_features}") else: print("⚠️ 点击训练数据为空，无法获取分类特征") # 准备训练数据 if not click_train_data.empty: if 'date' in click_train_data.columns: X = click_train_data.drop(columns=['did', 'vid', 'label', 'date'], errors='ignore') else: X = click_train_data.drop(columns=['did', 'vid', 'label'], errors='ignore') y = click_train_data['label'] else: X, y = pd.DataFrame(), pd.Series() print("⚠️ 点击训练数据为空") # 划分数据集 if not X.empty and not y.empty: X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) else: print("⚠️ 训练数据为空，无法进行模型训练") X_train, X_val, y_train, y_val = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 训练模型（优化参数） params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, 'verbosity': -1 } if not X_train.empty: train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features) print("开始训练点击预测模型...") model_click = lgb.train( params, train_data, num_boost_round=1500, valid_sets=[val_data], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) else: model_click = None print("⚠️ 训练数据为空，跳过点击预测模型训练") # 6. 优化完播率数据集构建 def build_play_dataset(hist_play, vid_info, did_features, hist_click): """构建完播率数据集，优化内存使用""" if hist_play.empty: print("⚠️ 历史播放数据为空，无法构建完播率数据集") return pd.DataFrame() # 基础数据 play_data = hist_play[['did', 'vid', 'play_time']].copy() # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: play_data = play_data.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) else: play_data['item_duration'] = 1.0 # 默认值 # 计算完播率 play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] play_data['completion_rate'] = play_data['completion_rate'].clip(upper=1.0) # 添加用户特征 if not did_features.empty and 'did' in did_features.columns: play_data = play_data.merge( did_features, on='did', how='left' ) # 添加视频特征 if not vid_info.empty and 'vid' in vid_info.columns: vid_cols = [col for col in vid_info.columns if col != 'item_duration'] play_data = play_data.merge( vid_info[vid_cols], on='vid', how='left' ) # 用户平均完播率 play_data['user_avg_completion'] = play_data.groupby('did')['completion_rate'].transform('mean') play_data['user_play_count'] = play_data.groupby('did')['completion_rate'].transform('count') # 视频平均完播率 play_data['video_avg_completion'] = play_data.groupby('vid')['completion_rate'].transform('mean') play_data['video_completion_std'] = play_data.groupby('vid')['completion_rate'].transform('std') # 用户-视频互动特征 if not hist_click.empty and 'did' in hist_click.columns and 'vid' in hist_click.columns: user_vid_clicks = hist_click.groupby(['did', 'vid']).size().reset_index(name='user_vid_clicks') play_data = play_data.merge(user_vid_clicks, on=['did', 'vid'], how='left') else: play_data['user_vid_clicks'] = 0 # 填充缺失值 play_data['user_avg_completion'].fillna(play_data['completion_rate'].mean(), inplace=True) play_data['user_play_count'].fillna(1, inplace=True) play_data['video_avg_completion'].fillna(play_data['completion_rate'].median(), inplace=True) play_data['video_completion_std'].fillna(0, inplace=True) play_data['user_vid_clicks'].fillna(0, inplace=True) return play_data print("开始构建完播率数据集...") # 确保所有参数都已定义 if 'hist_play' in globals() and 'vid_info' in globals() and 'did_features' in globals() and 'hist_click' in globals(): play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) else: print("⚠️ 无法构建完播率数据集，因为所需变量未定义") play_train_data = pd.DataFrame() # 7. 训练完播率模型 if not play_train_data.empty: X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate'], errors='ignore') y_play = play_train_data['completion_rate'] else: X_play, y_play = pd.DataFrame(), pd.Series() print("⚠️ 完播率训练数据为空") if not X_play.empty and not y_play.empty: X_train_play, X_val_play, y_train_play, y_val_play = train_test_split( X_play, y_play, test_size=0.2, random_state=42 ) else: print("⚠️ 完播率训练数据为空，无法进行模型训练") X_train_play, X_val_play, y_train_play, y_val_play = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 获取完播率模型的分类特征 if not play_train_data.empty: play_categorical_features = get_categorical_features(play_train_data, base_categorical_features) print(f"完播率模型使用的分类特征: {play_categorical_features}") else: play_categorical_features = [] print("⚠️ 完播率训练数据为空，无法获取分类特征") # 训练参数 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.03, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l1': 0.1, 'lambda_l2': 0.1, 'min_data_in_leaf': 50, 'verbosity': -1 } if not X_train_play.empty: train_data_play = lgb.Dataset(X_train_play, label=y_train_play, categorical_feature=play_categorical_features) val_data_play = lgb.Dataset(X_val_play, label=y_val_play, categorical_feature=play_categorical_features) print("开始训练完播率模型...") model_play = lgb.train( params_reg, train_data_play, num_boost_round=2000, valid_sets=[val_data_play], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) else: model_play = None print("⚠️ 训练数据为空，跳过完播率模型训练") # 保存模型 if model_click: model_click.save_model('click_model.txt') if model_play: model_play.save_model('play_model.txt') joblib.dump(base_categorical_features, 'categorical_features.pkl') # 8. 添加预测流程 def predict_for_test_data(test_users, test_exposure, did_features, vid_info): """为测试数据生成预测结果""" if test_users.empty or test_exposure.empty: print("⚠️ 测试数据为空，无法进行预测") return pd.DataFrame() # 合并测试数据 test_data = test_exposure.merge(test_users, on='did', how='left') # 添加特征 test_data = add_click_features( test_data, did_features, vid_info, pd.DataFrame(), # 无历史点击 pd.DataFrame() # 无历史播放 ) # 动态获取分类特征 test_categorical_features = get_categorical_features(test_data, base_categorical_features) # 预测点击率 X_test = test_data.drop(columns=['did', 'vid', 'date'], errors='ignore') click_probs = [] if model_click and not X_test.empty: click_probs = model_click.predict(X_test) else: click_probs = [0.5] len(test_data) # 默认值 # 预测完播率 completion_rates = [] if model_play and not X_test.empty: # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: test_data = test_data.merge(vid_info[['vid', 'item_duration']], on='vid', how='left') else: test_data['item_duration'] = 1.0 completion_rates = model_play.predict(X_test) else: completion_rates = [0.7] * len(test_data) # 默认值 # 计算综合得分 test_data['click_prob'] = click_probs test_data['completion_rate'] = completion_rates test_data['score'] = test_data['click_prob'] * test_data['completion_rate'] # 生成提交格式 submission = test_data.groupby('did').apply( lambda x: ' '.join(x.sort_values('score', ascending=False)['vid'].astype(str)[:100]) ).reset_index(name='vid_list') return submission # 加载预测数据 print("开始加载预测数据...") to_predict_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) to_predict_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) # 执行预测 if not to_predict_users.empty and not to_predict_exposure.empty: print("开始生成预测结果...") submission = predict_for_test_data(to_predict_users, to_predict_exposure, did_features, vid_info) # 保存结果 if not submission.empty: timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") output_file = f'submission_{timestamp}.csv' submission.to_csv(output_file, index=False) print(f"预测结果已保存至: {output_file}") else: print("⚠️ 预测结果为空，未保存文件") else: print("⚠️ 预测数据加载失败，无法生成结果")

import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib ...

帮我修改代码，一是原始数据只有30天，不是32天，二是完播率预测结果数值一样，需要调优模型；三是预测结果的行数应该与testA_pred_did.csv保持一致。import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime from sklearn.metrics import roc_auc_score # 添加AUC计算 # 修复：在函数定义后添加缩进的代码块 def load_data_safely(file_path, usecols=None, dtype=None, chunksize=100000): """安全加载大型CSV文件，优化内存使用""" try: if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() # 自动检测编码 with open(file_path, 'rb') as f: result = chardet.detect(f.read(100000)) encoding = result['encoding'] if result['confidence'] > 0.7 else 'latin1' # 分批读取并优化内存 chunks = [] reader = pd.read_csv( file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=chunksize, low_memory=False ) for chunk in tqdm(reader, desc=f"加载 {os.path.basename(file_path)}"): # 优化分类列内存 if dtype: # 确保dtype不为空 for col in chunk.columns: if col in dtype and dtype[col] == 'category': chunk[col] = chunk[col].astype('category').cat.as_ordered() chunks.append(chunk) if chunks: return pd.concat(chunks, ignore_index=True) return pd.DataFrame() except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 修复：确保所有函数都有缩进的代码块 def load_historical_data(days=32): """高效加载历史数据，支持分批处理""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据"): day_str = f"{day:02d}" # 加载曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely(see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}) if not see.empty and 'did' in see.columns and 'vid' in see.columns: see_list.append(see) del see gc.collect() # 加载点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely(click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'}) if not click.empty and 'click_time' in click.columns and 'did' in click.columns and 'vid' in click.columns: # 优化日期处理 click['date'] = pd.to_datetime(click['click_time'], errors='coerce').dt.date click = click.drop(columns=['click_time'], errors='ignore') click_list.append(click[['did', 'vid', 'date']]) del click gc.collect() # 加载播放数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = load_data_safely(play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category'}) if not play.empty and 'play_time' in play.columns and 'did' in play.columns and 'vid' in play.columns: play_list.append(play) del play gc.collect() gc.collect() # 确保返回三个DataFrame，即使某些为空 return ( pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 修复：添加缺失的函数定义 def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """构建点击数据集，包含负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click.copy() hist_click['label'] = 1 # 高效标记负样本（使用集合操作） exposure_set = set(zip(hist_exposure['did'], hist_exposure['vid'])) click_set = set(zip(hist_click['did'], hist_click['vid'])) # 找出未点击的曝光 negative_set = exposure_set - click_set # 创建负样本DataFrame if negative_set: negative_dids, negative_vids = zip(negative_set) negative_samples = pd.DataFrame({ 'did': list(negative_dids), 'vid': list(negative_vids), 'label': 0 }) # 采样负样本 if sample_ratio < 1.0: negative_samples = negative_samples.sample(frac=sample_ratio, random_state=42) else: negative_samples = pd.DataFrame(columns=['did', 'vid', 'label']) # 合并数据集 click_data = pd.concat([ hist_click[['did', 'vid', 'label']], negative_samples ], ignore_index=True) # 释放内存 del exposure_set, click_set, negative_set, negative_samples gc.collect() return click_data # 修复：添加缺失的函数定义 def add_click_features(df, did_features, vid_info, hist_click, hist_play): """添加关键特征，避免内存溢出""" if df.empty: return df # 基础特征（使用索引加速合并） if not did_features.empty and 'did' in did_features.columns: df = df.merge(did_features, on='did', how='left') if not vid_info.empty and 'vid' in vid_info.columns: df = df.merge(vid_info, on='vid', how='left') # 用户行为统计 user_click_count = pd.Series(dtype='int') if not hist_click.empty and 'did' in hist_click.columns: user_click_count = hist_click.groupby('did').size().rename('user_click_count') if not user_click_count.empty: df = df.merge(user_click_count, on='did', how='left') else: df['user_click_count'] = 0 user_total_play = pd.Series(dtype='float') if not hist_play.empty and 'did' in hist_play.columns and 'play_time' in hist_play.columns: user_total_play = hist_play.groupby('did')['play_time'].sum().rename('user_total_play') if not user_total_play.empty: df = df.merge(user_total_play, on='did', how='left') else: df['user_total_play'] = 0 # 视频热度统计 video_click_count = pd.Series(dtype='int') if not hist_click.empty and 'vid' in hist_click.columns: video_click_count = hist_click.groupby('vid').size().rename('video_click_count') if not video_click_count.empty: df = df.merge(video_click_count, on='vid', how='left') else: df['video_click_count'] = 0 avg_play_time = pd.Series(dtype='float') if not hist_play.empty and 'vid' in hist_play.columns and 'play_time' in hist_play.columns: avg_play_time = hist_play.groupby('vid')['play_time'].mean().rename('avg_play_time') if not avg_play_time.empty: df = df.merge(avg_play_time, on='vid', how='left') else: df['avg_play_time'] = 0 # 填充缺失值 fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median() if 'video_click_count' in df else 0, 'avg_play_time': df['avg_play_time'].median() if 'avg_play_time' in df else 0 } for col, value in fill_values.items(): if col in df: df[col] = df[col].fillna(value) # 添加时间相关特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('int8') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('int8') return df # 修复：添加缺失的函数定义 def get_categorical_features(df, base_features): """动态获取存在的分类特征""" existing_features = [] for feature in base_features: if feature in df.columns: try: # 尝试转换为数值，如果是数值则跳过 pd.to_numeric(df[feature], errors='raise') except: existing_features.append(feature) # 确保转换为category类型 df[feature] = df[feature].astype('category').cat.as_ordered() return existing_features # 修复：添加缺失的函数定义 def build_play_dataset(hist_play, vid_info, did_features, hist_click): """构建完播率数据集，优化内存使用""" if hist_play.empty: print("⚠️ 历史播放数据为空，无法构建完播率数据集") return pd.DataFrame() # 基础数据 play_data = hist_play[['did', 'vid', 'play_time']].copy() # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: play_data = play_data.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) else: play_data['item_duration'] = 1.0 # 默认值 # 计算完播率 play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] play_data['completion_rate'] = play_data['completion_rate'].clip(upper=1.0) # 添加用户特征 if not did_features.empty and 'did' in did_features.columns: play_data = play_data.merge( did_features, on='did', how='left' ) # 添加视频特征 if not vid_info.empty and 'vid' in vid_info.columns: vid_cols = [col for col in vid_info.columns if col != 'item_duration'] play_data = play_data.merge( vid_info[vid_cols], on='vid', how='left' ) # 用户平均完播率 play_data['user_avg_completion'] = play_data.groupby('did')['completion_rate'].transform('mean') play_data['user_play_count'] = play_data.groupby('did')['completion_rate'].transform('count') # 视频平均完播率 play_data['video_avg_completion'] = play_data.groupby('vid')['completion_rate'].transform('mean') play_data['video_completion_std'] = play_data.groupby('vid')['completion_rate'].transform('std') # 用户-视频互动特征 if not hist_click.empty and 'did' in hist_click.columns and 'vid' in hist_click.columns: user_vid_clicks = hist_click.groupby(['did', 'vid']).size().reset_index(name='user_vid_clicks') play_data = play_data.merge(user_vid_clicks, on=['did', 'vid'], how='left') else: play_data['user_vid_clicks'] = 0 # 填充缺失值 play_data['user_avg_completion'].fillna(play_data['completion_rate'].mean(), inplace=True) play_data['user_play_count'].fillna(1, inplace=True) play_data['video_avg_completion'].fillna(play_data['completion_rate'].median(), inplace=True) play_data['video_completion_std'].fillna(0, inplace=True) play_data['user_vid_clicks'].fillna(0, inplace=True) return play_data # 修复：添加缺失的函数定义 def predict_for_test_data(test_users, test_exposure, did_features, vid_info): """为测试数据生成预测结果 - 修改为只保留点击概率最高的vid""" if test_users.empty or test_exposure.empty: print("⚠️ 测试数据为空，无法进行预测") return pd.DataFrame() # 合并测试数据 test_data = test_exposure.merge(test_users, on='did', how='left') # 添加特征 test_data = add_click_features( test_data, did_features, vid_info, pd.DataFrame(), # 无历史点击 pd.DataFrame() # 无历史播放 ) # 动态获取分类特征 test_categorical_features = get_categorical_features(test_data, base_categorical_features) # 预测点击率 X_test = test_data.drop(columns=['did', 'vid', 'date'], errors='ignore') click_probs = [] if model_click and not X_test.empty: click_probs = model_click.predict(X_test) else: click_probs = [0.5] len(test_data) # 默认值 # 预测完播率 completion_rates = [] if model_play and not X_test.empty: # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: test_data = test_data.merge(vid_info[['vid', 'item_duration']], on='vid', how='left') else: test_data['item_duration'] = 1.0 completion_rates = model_play.predict(X_test) else: completion_rates = [0.7] * len(test_data) # 默认值 # 存储预测结果 test_data['click_prob'] = click_probs test_data['completion_rate'] = completion_rates # 修改：只保留每个did点击概率最高的vid result = test_data.sort_values('click_prob', ascending=False).groupby('did').head(1) # 选择需要的列 result = result[['did', 'vid', 'completion_rate']].copy() # 重命名列 result.columns = ['did', 'vid', 'predicted_completion_rate'] return result # 主程序流程 if name == "main": # 定义内存优化的数据类型 dtypes = { 'did': 'category', 'vid': 'category', 'play_time': 'float32' } # 可选特征 - 只有在数据中存在时才添加 optional_features = { 'item_cid': 'category', 'item_type': 'category', 'item_assetSource': 'category', 'item_classify': 'category', 'item_isIntact': 'category', 'sid': 'category', 'stype': 'category' } # 添加特征字段 for i in range(88): dtypes[f'f{i}'] = 'float32' # 加载核心数据 print("开始加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 添加可选特征到dtypes（仅当列存在时） for feature, dtype in optional_features.items(): if not vid_info.empty and feature in vid_info.columns: dtypes[feature] = dtype # 重新加载数据以确保所有列使用正确的数据类型 if os.path.exists('did_features_table.csv'): did_features = load_data_safely('did_features_table.csv', dtype=dtypes) else: print("⚠️ did_features_table.csv 不存在") did_features = pd.DataFrame() if os.path.exists('vid_info_table.csv'): vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) else: print("⚠️ vid_info_table.csv 不存在") vid_info = pd.DataFrame() # 加载历史数据 - 确保所有变量都被定义 print("开始加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=32) # 打印历史数据状态 print(f"历史曝光数据形状: {hist_exposure.shape if not hist_exposure.empty else '空'}") print(f"历史点击数据形状: {hist_click.shape if not hist_click.empty else '空'}") print(f"历史播放数据形状: {hist_play.shape if not hist_play.empty else '空'}") # 构建点击数据集 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) else: print("⚠️ 无法构建点击数据集，因为历史曝光或点击数据为空") click_train_data = pd.DataFrame() # 添加特征 - 确保所有参数都已定义 if not click_train_data.empty: print("开始构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, # 确保hist_click已定义 hist_play # 确保hist_play已定义 ) else: print("⚠️ 点击数据集为空，跳过特征构建") # 基础分类特征列表 base_categorical_features = [ 'item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype', 'day_of_week', 'hour' ] # 动态获取存在的分类特征 categorical_features = [] if not click_train_data.empty: categorical_features = get_categorical_features(click_train_data, base_categorical_features) print(f"使用的分类特征: {categorical_features}") else: print("⚠️ 点击训练数据为空，无法获取分类特征") # 准备训练数据 if not click_train_data.empty: if 'date' in click_train_data.columns: X = click_train_data.drop(columns=['did', 'vid', 'label', 'date'], errors='ignore') else: X = click_train_data.drop(columns=['did', 'vid', 'label'], errors='ignore') y = click_train_data['label'] else: X, y = pd.DataFrame(), pd.Series() print("⚠️ 点击训练数据为空") # 划分数据集 if not X.empty and not y.empty: X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) else: print("⚠️ 训练数据为空，无法进行模型训练") X_train, X_val, y_train, y_val = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 训练模型（优化参数） params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, 'verbosity': -1 } model_click = None if not X_train.empty: train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features) print("开始训练点击预测模型...") model_click = lgb.train( params, train_data, num_boost_round=1500, valid_sets=[val_data], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) # 计算并输出AUC if not X_val.empty and not y_val.empty and model_click: y_val_pred = model_click.predict(X_val) auc_score = roc_auc_score(y_val, y_val_pred) print(f"📊 点击率模型在验证集上的AUC: {auc_score:.6f}") with open('model_metrics.txt', 'w') as f: f.write(f"点击率模型AUC: {auc_score:.6f}\n") else: print("⚠️ 训练数据为空，跳过点击预测模型训练") # 构建完播率数据集 print("开始构建完播率数据集...") if 'hist_play' in globals() and 'vid_info' in globals() and 'did_features' in globals() and 'hist_click' in globals(): play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) else: print("⚠️ 无法构建完播率数据集，因为所需变量未定义") play_train_data = pd.DataFrame() # 训练完播率模型 model_play = None if not play_train_data.empty: X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate'], errors='ignore') y_play = play_train_data['completion_rate'] else: X_play, y_play = pd.DataFrame(), pd.Series() print("⚠️ 完播率训练数据为空") if not X_play.empty and not y_play.empty: X_train_play, X_val_play, y_train_play, y_val_play = train_test_split( X_play, y_play, test_size=0.2, random_state=42 ) else: print("⚠️ 完播率训练数据为空，无法进行模型训练") X_train_play, X_val_play, y_train_play, y_val_play = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 获取完播率模型的分类特征 play_categorical_features = [] if not play_train_data.empty: play_categorical_features = get_categorical_features(play_train_data, base_categorical_features) print(f"完播率模型使用的分类特征: {play_categorical_features}") else: print("⚠️ 完播率训练数据为空，无法获取分类特征") # 训练参数 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.03, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l1': 0.1, 'lambda_l2': 0.1, 'min_data_in_leaf': 50, 'verbosity': -1 } if not X_train_play.empty: train_data_play = lgb.Dataset(X_train_play, label=y_train_play, categorical_feature=play_categorical_features) val_data_play = lgb.Dataset(X_val_play, label=y_val_play, categorical_feature=play_categorical_features) print("开始训练完播率模型...") model_play = lgb.train( params_reg, train_data_play, num_boost_round=2000, valid_sets=[val_data_play], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) else: print("⚠️ 训练数据为空，跳过完播率模型训练") # 保存模型 if model_click: model_click.save_model('click_model.txt') if model_play: model_play.save_model('play_model.txt') joblib.dump(base_categorical_features, 'categorical_features.pkl') # 加载预测数据 print("开始加载预测数据...") to_predict_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) to_predict_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) # 执行预测 if not to_predict_users.empty and not to_predict_exposure.empty: print("开始生成预测结果...") submission = predict_for_test_data(to_predict_users, to_predict_exposure, did_features, vid_info) # 保存结果 if not submission.empty: timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") output_file = f'submission_{timestamp}.csv' # 修改：保存为无表头CSV submission.to_csv(output_file, index=False, header=False) print(f"预测结果已保存至: {output_file}") print(f"结果格式: 共 {len(submission)} 行") print(f"列信息: [did, vid, predicted_completion_rate]") else: print("⚠️ 预测结果为空，未保存文件") else: print("⚠️ 预测数据加载失败，无法生成结果")

然后，检查vid是否有缺失，并填充默认视频（这里我们选择整个训练集中点击次数最多的视频，如果没有，则使用vid_info中第一个视频）： python # 选择默认视频：训练集中点击次数最多的视频 if not hist_...

为什么完播率预测结果数据一样？需要如何调整？import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm.auto import tqdm # 使用auto版本自动选择界面 import joblib from datetime import datetime import dask.dataframe as dd # 添加Dask支持大数据处理 from dask.diagnostics import ProgressBar # 1. 增强数据加载函数（优化内存和IO） def load_data_safely(file_path, usecols=None, dtype=None, chunksize=500000): """安全高效加载大型CSV文件，自动处理编码""" if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() try: # 高效检测编码 with open(file_path, 'rb') as f: detector = chardet.UniversalDetector() for line in f: detector.feed(line) if detector.done or f.tell() > 100000: break detector.close() encoding = detector.result['encoding'] if detector.result['confidence'] > 0.6 else 'utf-8' # 使用Dask处理大文件 ddf = dd.read_csv(file_path, encoding=encoding, usecols=usecols, dtype=dtype, blocksize=chunksize, low_memory=False) with ProgressBar(): df = ddf.compute() # 优化分类列内存 if dtype: for col, col_type in dtype.items(): if col in df.columns and col_type == 'category': df[col] = df[col].astype('category').cat.as_ordered() return df except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 2. 优化历史数据加载（并行处理） def load_historical_data(days=32): """并行加载历史数据，自动跳过缺失文件""" from concurrent.futures import ThreadPoolExecutor def load_day(day): day_str = f"{day:02d}" results = {} # 曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): results['see'] = load_data_safely( see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'} ) # 点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely( click_path, usecols=['did', 'vid', 'click_time'], dtype={'did': 'category', 'vid': 'category'} ) if not click.empty and 'click_time' in click: click['date'] = pd.to_datetime(click['click_time']).dt.date click.drop(columns=['click_time'], inplace=True, errors='ignore') results['click'] = click # 播放数据 play_path = f'play_{day_str}.csv' if os.path.exists(play_path): results['play'] = load_data_safely( play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category', 'play_time': 'float32'} ) return results with ThreadPoolExecutor(max_workers=8) as executor: futures = [executor.submit(load_day, day) for day in range(1, days+1)] results = [f.result() for f in tqdm(futures, desc="加载历史数据", total=days)] # 合并结果 see_list = [r['see'] for r in results if 'see' in r and not r['see'].empty] click_list = [r['click'] for r in results if 'click' in r and not r['click'].empty] play_list = [r['play'] for r in results if 'play' in r and not r['play'].empty] hist_exposure = pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame() hist_click = pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame() hist_play = pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() return hist_exposure, hist_click, hist_play # 3. 优化点击数据集构建（内存友好的负采样） def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """使用Bloom Filter进行高效负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click[['did', 'vid']].copy() hist_click['label'] = 1 # 创建Bloom Filter存储正样本 from pybloom_live import ScalableBloomFilter bloom = ScalableBloomFilter(mode=ScalableBloomFilter.SMALL_SET_GROWTH) # 添加正样本 for _, row in tqdm(hist_click.iterrows(), total=len(hist_click), desc="构建布隆过滤器"): bloom.add((row['did'], row['vid'])) # 采样负样本 negative_samples = [] chunk_size = 500000 for i in range(0, len(hist_exposure), chunk_size): chunk = hist_exposure.iloc[i:i+chunk_size] for _, row in tqdm(chunk.iterrows(), total=len(chunk), desc="采样负样本"): if sample_ratio > np.random.random() and (row['did'], row['vid']) not in bloom: negative_samples.append([row['did'], row['vid'], 0]) # 构建负样本DataFrame negative_df = pd.DataFrame(negative_samples, columns=['did', 'vid', 'label']) click_data = pd.concat([hist_click, negative_df], ignore_index=True) return click_data # 4. 优化特征工程（延迟计算） def add_click_features(df, did_features, vid_info, hist_click, hist_play): """按需计算特征，避免中间大DataFrame""" if df.empty: return df # 基础特征 if not did_features.empty and 'did' in did_features.columns: # 优化内存合并 df = df.merge(did_features.add_suffix('_user'), left_on='did', right_index=True, how='left') if not vid_info.empty and 'vid' in vid_info.columns: vid_info_sub = vid_info[[c for c in vid_info.columns if c != 'item_duration']] df = df.merge(vid_info_sub.add_suffix('_item'), left_on='vid', right_index=True, how='left') # 按需计算统计特征 def calc_stat_feature(df, source, group_col, target_col, feature_name, agg_func='size'): if source.empty or group_col not in source or (agg_func != 'size' and target_col not in source): df[feature_name] = 0 return # 使用预聚合缓存 cache_file = f"{feature_name}_cache.pkl" if os.path.exists(cache_file): stats = joblib.load(cache_file) else: stats = source.groupby(group_col) if agg_func == 'size': stats = stats.size().rename(feature_name) else: stats = stats[target_col].agg(agg_func).rename(feature_name) joblib.dump(stats, cache_file) if group_col == 'did': df = df.merge(stats, left_on='did', right_index=True, how='left') else: df = df.merge(stats, left_on='vid', right_index=True, how='left') df[feature_name].fillna(0, inplace=True) return df # 计算用户特征 df = calc_stat_feature(df, hist_click, 'did', None, 'user_click_count') df = calc_stat_feature(df, hist_play, 'did', 'play_time', 'user_total_play', 'sum') # 计算物品特征 df = calc_stat_feature(df, hist_click, 'vid', None, 'video_click_count') df = calc_stat_feature(df, hist_play, 'vid', 'play_time', 'avg_play_time', 'mean') # 时间特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('int8') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('int8') # 释放内存 gc.collect() return df # 5. 模型训练函数封装 def train_lgb_model(X, y, categorical_features, params, model_name="模型"): if X.empty or y.empty: print(f"⚠️ {model_name}训练数据为空") return None X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y if 'binary' in params['objective'] else None ) train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features, free_raw_data=False) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features, free_raw_data=False) print(f"开始训练{model_name}...") model = lgb.train( params, train_data, num_boost_round=10000, valid_sets=[train_data, val_data], valid_names=['train', 'valid'], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50), lgb.reset_parameter(learning_rate=lambda iter: params['learning_rate'] * (0.99 ** iter)) ] ) return model # 主程序优化 def main(): # 配置优化 #pd.set_option('future.no_silent_downcasting', True) gc.enable() # 核心数据类型 dtypes = {'did': 'category', 'vid': 'category', 'play_time': 'float32'} for i in range(88): dtypes[f'f{i}'] = 'float32' # 核心数据加载 print("高效加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 历史数据加载 print("并行加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=15) # 减少天数提高速度 # 点击模型训练 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.05) # 降低采样率 print("构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, hist_play ) # 获取分类特征 base_categorical = ['item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype', 'day_of_week', 'hour'] categorical_features = [c for c in base_categorical if c in click_train_data] # 训练模型 click_params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 127, 'learning_rate': 0.1, 'feature_fraction': 0.7, 'bagging_freq': 5, 'min_data_in_leaf': 100, 'verbosity': -1 } model_click = train_lgb_model( click_train_data.drop(columns=['label', 'did', 'vid', 'date'], errors='ignore'), click_train_data['label'], categorical_features, click_params, "点击预测模型" ) else: model_click = None # 完播率模型训练 if not hist_play.empty and not vid_info.empty: print("构建完播率数据集...") play_data = hist_play[['did', 'vid', 'play_time']].copy() play_data = play_data.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] # 添加特征 play_data = add_click_features( play_data, did_features, vid_info, hist_click, hist_play ) # 训练模型 play_params = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.7, 'bagging_freq': 5, 'min_data_in_leaf': 50, 'verbosity': -1 } model_play = train_lgb_model( play_data.drop(columns=['completion_rate', 'did', 'vid', 'play_time', 'item_duration'], errors='ignore'), play_data['completion_rate'], categorical_features, play_params, "完播率预测模型" ) else: model_play = None # 保存模型 for model, name in zip([model_click, model_play], ['click_model.txt', 'play_model.txt']): if model: model.save_model(name) joblib.dump(base_categorical, 'categorical_features.pkl') # 测试预测 print("加载预测数据...") test_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) test_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) if not test_users.empty and not test_exposure.empty: print("生成测试预测...") # 预测逻辑保持不变... else: print("⚠️ 预测数据加载失败") if name == "main": main()

import matplotlib.pyplot as plt plt.hist(play_data['completion_rate'], bins=50) plt.title('Completion Rate Distribution') plt.show() ### 示例：调整完播率模型训练参数尝试使用更复杂的模型（增加树...

帮我检查代码，如有可以加速计算可以优化：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime from sklearn.metrics import roc_auc_score, mean_absolute_error # 全局变量存储特征列表 click_features = [] play_features = [] base_categorical_features = [] # 优化内存使用：减小chunksize，添加更多内存清理 def load_data_safely(file_path, usecols=None, dtype=None, chunksize=50000): """安全加载大型CSV文件，优化内存使用""" try: if not os.path.exists(file_path): print(f"⚠️ 文件不存在: {file_path}") return pd.DataFrame() # 自动检测编码 with open(file_path, 'rb') as f: result = chardet.detect(f.read(100000)) encoding = result['encoding'] if result['confidence'] > 0.7 else 'latin1' # 分批读取并优化内存 - 减小chunksize以降低内存峰值 chunks = [] reader = pd.read_csv( file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=chunksize, low_memory=False ) for chunk in tqdm(reader, desc=f"加载 {os.path.basename(file_path)}"): # 优化分类列内存 if dtype: # 确保dtype不为空 for col in chunk.columns: if col in dtype and dtype[col] == 'category': chunk[col] = chunk[col].astype('category').cat.as_ordered() chunks.append(chunk) if chunks: result_df = pd.concat(chunks, ignore_index=True) del chunks gc.collect() return result_df return pd.DataFrame() except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 修复播放数据加载问题 def load_historical_data(days=30): """高效加载历史数据，支持分批处理""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据"): day_str = f"{day:02d}" # 加载曝光数据 see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely(see_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}) if not see.empty and 'did' in see.columns and 'vid' in see.columns: see_list.append(see) del see gc.collect() else: print(f"⚠️ 曝光数据文件不存在: {see_path}") # 加载点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely(click_path, usecols=['did', 'vid'], dtype={'did': 'category', 'vid': 'category'}) if not click.empty and 'did' in click.columns and 'vid' in click.columns: click_list.append(click[['did', 'vid']]) del click gc.collect() else: print(f"⚠️ 点击数据文件不存在: {click_path}") # 修复播放数据加载问题 - 尝试多种可能的文件名格式 play_paths = [ f'playplus_{day_str}.csv', # 原始文件名 f'play_{day_str}.csv', # 可能的其他格式 f'playplus_{day}.csv', # 无前导零 f'play_{day}.csv' # 无前导零 ] play_loaded = False for play_path in play_paths: if os.path.exists(play_path): play = load_data_safely( play_path, usecols=['did', 'vid', 'play_time'], dtype={'did': 'category', 'vid': 'category'} ) if not play.empty and 'play_time' in play.columns and 'did' in play.columns and 'vid' in play.columns: play_list.append(play) del play play_loaded = True print(f"✅ 成功加载播放数据: {play_path}") break if not play_loaded: print(f"⚠️ 播放数据文件不存在: 尝试了 {play_paths}") # 每处理3天数据清理一次内存 if day % 3 == 0: gc.collect() # 确保返回三个DataFrame，即使某些为空 return ( pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 优化内存：使用更高效的方法处理负样本 def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """构建点击数据集，包含负样本采样""" if hist_exposure.empty or hist_click.empty: print("⚠️ 历史曝光或点击数据为空，无法构建数据集") return pd.DataFrame() # 标记正样本 hist_click = hist_click.copy() hist_click['label'] = 1 # 高效标记负样本（使用索引加速操作） exposure_index = hist_exposure.set_index(['did', 'vid']).index click_index = hist_click.set_index(['did', 'vid']).index # 找出未点击的曝光 negative_index = exposure_index.difference(click_index) # 创建负样本DataFrame if not negative_index.empty: negative_samples = pd.DataFrame( list(negative_index), columns=['did', 'vid'] ) negative_samples['label'] = 0 # 采样负样本 if sample_ratio < 1.0: negative_samples = negative_samples.sample(frac=sample_ratio, random_state=42) else: negative_samples = pd.DataFrame(columns=['did', 'vid', 'label']) # 合并数据集 click_data = pd.concat([ hist_click[['did', 'vid', 'label']], negative_samples ], ignore_index=True) # 释放内存 del exposure_index, click_index, negative_index, negative_samples gc.collect() return click_data # 优化内存：减少合并操作，使用更高效的特征添加方法 def add_click_features(df, did_features, vid_info, hist_click, hist_play): """添加关键特征，避免内存溢出""" if df.empty: return df # 基础特征（使用索引加速合并） if not did_features.empty and 'did' in did_features.columns: # 只选择需要的列 did_cols = ['did'] + [col for col in did_features.columns if col.startswith('f')] df = df.merge(did_features[did_cols], on='did', how='left') if not vid_info.empty and 'vid' in vid_info.columns: # 只选择分类特征 vid_cols = ['vid'] + [col for col in vid_info.columns if col in ['item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact']] df = df.merge(vid_info[vid_cols], on='vid', how='left') # 确保始终创建 'user_click_count' 列 df['user_click_count'] = 0 # 用户行为统计 - 使用预计算的统计量 if not hist_click.empty and 'did' in hist_click.columns: # 计算用户点击次数 user_click_count = hist_click.groupby('did').size().rename('user_click_count') # 直接添加到df，避免创建中间变量 df = df.join(user_click_count, on='did', how='left') # 填充缺失值 df['user_click_count'] = df['user_click_count'].fillna(0) # 确保始终创建 'user_total_play' 列 df['user_total_play'] = 0 if not hist_play.empty and 'did' in hist_play.columns and 'play_time' in hist_play.columns: # 计算用户总播放时间 user_total_play = hist_play.groupby('did')['play_time'].sum().rename('user_total_play') df = df.join(user_total_play, on='did', how='left') # 填充缺失值 df['user_total_play'] = df['user_total_play'].fillna(0) # 确保始终创建 'video_click_count' 列 df['video_click_count'] = 0 # 视频热度统计 if not hist_click.empty and 'vid' in hist_click.columns: # 计算视频点击次数 video_click_count = hist_click.groupby('vid').size().rename('video_click_count') df = df.join(video_click_count, on='vid', how='left') # 填充缺失值 df['video_click_count'] = df['video_click_count'].fillna(0) # 确保始终创建 'avg_play_time' 列 df['avg_play_time'] = 0 if not hist_play.empty and 'vid' in hist_play.columns and 'play_time' in hist_play.columns: # 计算平均播放时间 avg_play_time = hist_play.groupby('vid')['play_time'].mean().rename('avg_play_time') df = df.join(avg_play_time, on='vid', how='left') # 填充缺失值 df['avg_play_time'] = df['avg_play_time'].fillna(0) # 填充缺失值 fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median() if 'video_click_count' in df else 0, 'avg_play_time': df['avg_play_time'].median() if 'avg_play_time' in df else 0 } for col, value in fill_values.items(): if col in df: df[col] = df[col].fillna(value) # 移除日期相关特征 if 'date' in df: df = df.drop(columns=['date'], errors='ignore') return df # 优化内存：使用更小的数据类型 def get_categorical_features(df, base_features): """动态获取存在的分类特征""" existing_features = [] for feature in base_features: if feature in df.columns: try: # 尝试转换为数值，如果是数值则跳过 pd.to_numeric(df[feature], errors='raise') except: existing_features.append(feature) # 确保转换为category类型 df[feature] = df[feature].astype('category').cat.as_ordered() return existing_features # 优化内存：减少中间变量，使用transform避免创建大型临时DataFrame def build_play_dataset(hist_play, vid_info, did_features, hist_click): """构建完播率数据集，优化内存使用""" if hist_play.empty: print("⚠️ 历史播放数据为空，无法构建完播率数据集") return pd.DataFrame() # 基础数据 - 只选择需要的列 play_data = hist_play[['did', 'vid', 'play_time']].copy() # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: play_data = play_data.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) else: play_data['item_duration'] = 1.0 # 默认值 # 计算完播率 play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] play_data['completion_rate'] = play_data['completion_rate'].clip(upper=1.0) # 添加用户特征 - 只选择数值特征 if not did_features.empty and 'did' in did_features.columns: did_cols = ['did'] + [col for col in did_features.columns if col.startswith('f')] play_data = play_data.merge( did_features[did_cols], on='did', how='left' ) # 添加视频特征 - 只选择分类特征 if not vid_info.empty and 'vid' in vid_info.columns: vid_cols = ['vid'] + [col for col in vid_info.columns if col in ['item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact']] play_data = play_data.merge( vid_info[vid_cols], on='vid', how='left' ) # 用户平均完播率 - 使用transform避免创建大型临时DataFrame play_data['user_avg_completion'] = play_data.groupby('did')['completion_rate'].transform('mean') play_data['user_play_count'] = play_data.groupby('did')['completion_rate'].transform('count') # 视频平均完播率 play_data['video_avg_completion'] = play_data.groupby('vid')['completion_rate'].transform('mean') play_data['video_completion_std'] = play_data.groupby('vid')['completion_rate'].transform('std') # 用户-视频互动特征 if not hist_click.empty and 'did' in hist_click.columns and 'vid' in hist_click.columns: # 使用transform避免创建大型临时DataFrame user_vid_clicks = hist_click.groupby(['did', 'vid']).size().reset_index(name='user_vid_clicks') play_data = play_data.merge(user_vid_clicks, on=['did', 'vid'], how='left') else: play_data['user_vid_clicks'] = 0 # 添加交互特征 - 确保训练和预测时特征一致 play_data['interaction_feature'] = (play_data['user_click_count'] * play_data['video_click_count']).astype('float32') # 填充缺失值 play_data['user_avg_completion'].fillna(play_data['completion_rate'].mean(), inplace=True) play_data['user_play_count'].fillna(1, inplace=True) play_data['video_avg_completion'].fillna(play_data['completion_rate'].median(), inplace=True) play_data['video_completion_std'].fillna(0, inplace=True) play_data['user_vid_clicks'].fillna(0, inplace=True) return play_data # 优化内存：分批预测，避免一次性加载所有测试数据 def predict_for_test_data(test_users, test_exposure, did_features, vid_info): """为测试数据生成预测结果 - 确保结果行数与test_users一致""" if test_users.empty: print("⚠️ 测试用户数据为空，无法进行预测") return pd.DataFrame() # 确保每个测试用户都有记录 if test_exposure.empty: # 如果没有曝光数据，使用默认视频 print("⚠️ 测试曝光数据为空，使用默认视频") test_data = test_users.copy() test_data['vid'] = vid_info['vid'].iloc[0] if not vid_info.empty else 'default_vid' else: # 合并测试数据，确保包含所有测试用户 test_data = test_users.merge(test_exposure, on='did', how='left') # 处理可能缺失的vid most_common_vid = test_exposure['vid'].mode()[0] if not test_exposure.empty else 'default_vid' test_data['vid'] = test_data['vid'].fillna(most_common_vid) # 分批处理测试数据以避免内存溢出 chunk_size = 50000 # 每批处理5万行 results = [] for i in tqdm(range(0, len(test_data), chunk_size), desc="分批预测"): chunk = test_data.iloc[i:i+chunk_size].copy() # 添加特征 chunk = add_click_features( chunk, did_features, vid_info, pd.DataFrame(), # 无历史点击 pd.DataFrame() # 无历史播放 ) # 动态获取分类特征 test_categorical_features = get_categorical_features(chunk, base_categorical_features) # 预测点击率 X_chunk = chunk.drop(columns=['did', 'vid'], errors='ignore') click_probs = [] if model_click and not X_chunk.empty: # 确保特征数量一致 if len(X_chunk.columns) != len(click_features): print(f"⚠️ 点击模型特征数量不一致: 训练时 {len(click_features)}, 预测时 {len(X_chunk.columns)}") # 对齐特征 missing_features = set(click_features) - set(X_chunk.columns) extra_features = set(X_chunk.columns) - set(click_features) # 添加缺失特征 for feature in missing_features: X_chunk[feature] = 0 # 移除多余特征 X_chunk = X_chunk[click_features] click_probs = model_click.predict(X_chunk) else: click_probs = [0.5] * len(chunk) # 默认值 # 预测完播率 completion_rates = [] if model_play and not X_chunk.empty: # 添加视频时长信息 if not vid_info.empty and 'vid' in vid_info.columns and 'item_duration' in vid_info.columns: chunk = chunk.merge(vid_info[['vid', 'item_duration']], on='vid', how='left') else: chunk['item_duration'] = 1.0 # 添加交互特征 - 确保与训练时一致 chunk['interaction_feature'] = (chunk['user_click_count'] * chunk['video_click_count']).astype('float32') # 准备预测数据 X_play_chunk = chunk.drop(columns=['did', 'vid'], errors='ignore') # 确保特征数量一致 if len(X_play_chunk.columns) != len(play_features): print(f"⚠️ 完播率模型特征数量不一致: 训练时 {len(play_features)}, 预测时 {len(X_play_chunk.columns)}") # 对齐特征 missing_features = set(play_features) - set(X_play_chunk.columns) extra_features = set(X_play_chunk.columns) - set(play_features) # 添加缺失特征 for feature in missing_features: X_play_chunk[feature] = 0 # 移除多余特征 X_play_chunk = X_play_chunk[play_features] completion_rates = model_play.predict(X_play_chunk) else: completion_rates = [0.7] * len(chunk) # 默认值 # 存储预测结果 chunk['click_prob'] = click_probs chunk['completion_rate'] = completion_rates # 修改：确保每个did只有一行结果，选取点击概率最高的vid chunk_result = chunk.sort_values('click_prob', ascending=False).groupby('did').head(1) # 选择需要的列 chunk_result = chunk_result[['did', 'vid', 'completion_rate']].copy() results.append(chunk_result) # 清理内存 del chunk, X_chunk, click_probs, completion_rates, chunk_result gc.collect() # 合并所有批次结果 if results: result = pd.concat(results, ignore_index=True) else: result = pd.DataFrame(columns=['did', 'vid', 'completion_rate']) # 重命名列 result.columns = ['did', 'vid', 'predicted_completion_rate'] # 确保结果行数与测试用户一致 if len(result) != len(test_users): missing_dids = set(test_users['did']) - set(result['did']) print(f"⚠️ 警告: {len(missing_dids)} 个用户缺失预测结果，使用默认值填充") default_df = pd.DataFrame({ 'did': list(missing_dids), 'vid': most_common_vid, 'predicted_completion_rate': np.mean(result['predicted_completion_rate']) if not result.empty else 0.7 }) result = pd.concat([result, default_df], ignore_index=True) return result # 主程序流程 if name == "main": # 定义内存优化的数据类型 dtypes = { 'did': 'category', 'vid': 'category', 'play_time': 'float32' } # 可选特征 - 只有在数据中存在时才添加 optional_features = { 'item_cid': 'category', 'item_type': 'category', 'item_assetSource': 'category', 'item_classify': 'category', 'item_isIntact': 'category', 'sid': 'category', 'stype': 'category' } # 添加特征字段 for i in range(88): dtypes[f'f{i}'] = 'float32' # 加载核心数据 - 分批加载 print("开始加载核心数据...") did_features = load_data_safely('did_features_table.csv', dtype=dtypes) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 添加可选特征到dtypes（仅当列存在时） for feature, dtype in optional_features.items(): if not vid_info.empty and feature in vid_info.columns: dtypes[feature] = dtype # 重新加载数据以确保所有列使用正确的数据类型 if os.path.exists('did_features_table.csv'): did_features = load_data_safely('did_features_table.csv', dtype=dtypes) else: print("⚠️ did_features_table.csv 不存在") did_features = pd.DataFrame() if os.path.exists('vid_info_table.csv'): vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) else: print("⚠️ vid_info_table.csv 不存在") vid_info = pd.DataFrame() # 加载历史数据 - 确保所有变量都被定义 print("开始加载历史数据...") hist_exposure, hist_click, hist_play = load_historical_data(days=30) # 打印历史数据状态 print(f"历史曝光数据形状: {hist_exposure.shape if not hist_exposure.empty else '空'}") print(f"历史点击数据形状: {hist_click.shape if not hist_click.empty else '空'}") print(f"历史播放数据形状: {hist_play.shape if not hist_play.empty else '空'}") # 如果播放数据为空，尝试替代方案 if hist_play.empty: print("⚠️ 警告: 历史播放数据为空，尝试使用点击数据作为替代") # 使用点击数据作为播放数据的替代 hist_play = hist_click.copy() hist_play['play_time'] = 1.0 # 添加默认播放时间 print(f"使用替代播放数据形状: {hist_play.shape}") # 构建点击数据集 if not hist_exposure.empty and not hist_click.empty: print("构建点击数据集...") click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) else: print("⚠️ 无法构建点击数据集，因为历史曝光或点击数据为空") click_train_data = pd.DataFrame() # 添加特征 - 确保所有参数都已定义 if not click_train_data.empty: print("开始构建点击特征...") click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, # 确保hist_click已定义 hist_play # 确保hist_play已定义 ) else: print("⚠️ 点击数据集为空，跳过特征构建") # 基础分类特征列表 - 移除日期相关特征 base_categorical_features = [ 'item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype' ] # 动态获取存在的分类特征 categorical_features = [] if not click_train_data.empty: categorical_features = get_categorical_features(click_train_data, base_categorical_features) print(f"使用的分类特征: {categorical_features}") else: print("⚠️ 点击训练数据为空，无法获取分类特征") # 准备训练数据 if not click_train_data.empty: # 移除所有日期相关字段 X = click_train_data.drop(columns=['did', 'vid', 'label'], errors='ignore') y = click_train_data['label'] else: X, y = pd.DataFrame(), pd.Series() print("⚠️ 点击训练数据为空") # 划分数据集 if not X.empty and not y.empty: X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) else: print("⚠️ 训练数据为空，无法进行模型训练") X_train, X_val, y_train, y_val = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 训练模型（优化参数） params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.05, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, 'verbosity': -1, 'max_bin': 255 # 减少bin数量以降低内存 } model_click = None if not X_train.empty: train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features) print("开始训练点击预测模型...") model_click = lgb.train( params, train_data, num_boost_round=1500, valid_sets=[val_data], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) # 保存点击模型使用的特征 global click_features click_features = list(X_train.columns) joblib.dump(click_features, 'click_features.pkl') # 计算并输出AUC if not X_val.empty and not y_val.empty and model_click: y_val_pred = model_click.predict(X_val) auc_score = roc_auc_score(y_val, y_val_pred) print(f"📊 点击率模型在验证集上的AUC: {auc_score:.6f}") with open('model_metrics.txt', 'w') as f: f.write(f"点击率模型AUC: {auc_score:.6f}\n") # 清理内存 del X_train, X_val, y_train, y_val, train_data, val_data gc.collect() else: print("⚠️ 训练数据为空，跳过点击预测模型训练") # 构建完播率数据集 print("开始构建完播率数据集...") if not hist_play.empty: play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) else: print("⚠️ 无法构建完播率数据集，因为播放数据为空") play_train_data = pd.DataFrame() # 训练完播率模型 model_play = None if not play_train_data.empty: X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate'], errors='ignore') y_play = play_train_data['completion_rate'] else: X_play, y_play = pd.DataFrame(), pd.Series() print("⚠️ 完播率训练数据为空") if not X_play.empty and not y_play.empty: X_train_play, X_val_play, y_train_play, y_val_play = train_test_split( X_play, y_play, test_size=0.2, random_state=42 ) else: print("⚠️ 完播率训练数据为空，无法进行模型训练") X_train_play, X_val_play, y_train_play, y_val_play = pd.DataFrame(), pd.DataFrame(), pd.Series(), pd.Series() # 获取完播率模型的分类特征 play_categorical_features = [] if not play_train_data.empty: play_categorical_features = get_categorical_features(play_train_data, base_categorical_features) print(f"完播率模型使用的分类特征: {play_categorical_features}") else: print("⚠️ 完播率训练数据为空，无法获取分类特征") # 训练参数 - 优化内存使用 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, # 减少树复杂度 'learning_rate': 0.03, 'feature_fraction': 0.7, 'bagging_fraction': 0.7, 'bagging_freq': 5, 'lambda_l1': 0.1, 'lambda_l2': 0.1, 'min_data_in_leaf': 100, 'verbosity': -1, 'max_bin': 255 # 减少bin数量以降低内存 } if not X_train_play.empty: train_data_play = lgb.Dataset(X_train_play, label=y_train_play, categorical_feature=play_categorical_features) val_data_play = lgb.Dataset(X_val_play, label=y_val_play, categorical_feature=play_categorical_features) print("开始训练完播率模型...") model_play = lgb.train( params_reg, train_data_play, num_boost_round=1000, # 减少迭代次数 valid_sets=[val_data_play], callbacks=[ early_stopping(stopping_rounds=100, verbose=True), log_evaluation(period=50) ] ) # 保存完播率模型使用的特征 global play_features play_features = list(X_train_play.columns) joblib.dump(play_features, 'play_features.pkl') # 评估模型 y_pred_val = model_play.predict(X_val_play) mae = mean_absolute_error(y_val_play, y_pred_val) print(f"📊 完播率模型在验证集上的MAE: {mae:.6f}") with open('model_metrics.txt', 'a') as f: f.write(f"完播率模型MAE: {mae:.6f}\n") # 清理内存 del X_train_play, X_val_play, y_train_play, y_val_play, train_data_play, val_data_play gc.collect() else: print("⚠️ 训练数据为空，跳过完播率模型训练") # 保存模型 if model_click: model_click.save_model('click_model.txt') if model_play: model_play.save_model('play_model.txt') joblib.dump(base_categorical_features, 'categorical_features.pkl') # 如果是从文件加载模型，需要加载特征列表 if not model_click: try: model_click = lgb.Booster(model_file='click_model.txt') click_features = joblib.load('click_features.pkl') print("✅ 从文件加载点击模型和特征") except: print("⚠️ 无法加载点击模型") if not model_play: try: model_play = lgb.Booster(model_file='play_model.txt') play_features = joblib.load('play_features.pkl') print("✅ 从文件加载完播率模型和特征") except: print("⚠️ 无法加载完播率模型") # 加载预测数据 print("开始加载预测数据...") to_predict_users = load_data_safely('testA_pred_did.csv', dtype={'did': 'category'}) to_predict_exposure = load_data_safely('testA_did_show.csv', dtype={'did': 'category', 'vid': 'category'}) # 执行预测 if not to_predict_users.empty: print("开始生成预测结果...") submission = predict_for_test_data(to_predict_users, to_predict_exposure, did_features, vid_info) # 验证行数一致性 if len(submission) != len(to_predict_users): print(f"⚠️ 行数不一致: 预测结果 {len(submission)} 行, 测试用户 {len(to_predict_users)} 行") # 处理缺失的DID missing_dids = set(to_predict_users['did']) - set(submission['did']) if missing_dids: print(f"添加缺失的 {len(missing_dids)} 个用户") default_vid = vid_info['vid'].iloc[0] if not vid_info.empty else 'default_vid' missing_df = pd.DataFrame({ 'did': list(missing_dids), 'vid': default_vid, 'predicted_completion_rate': submission['predicted_completion_rate'].mean() }) submission = pd.concat([submission, missing_df], ignore_index=True) # 保存结果 if not submission.empty: print(f"预测结果行数: {len(submission)} (应与测试用户行数一致)") timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") output_file = f'submission_{timestamp}.csv' # 保存为无表头CSV submission.to_csv(output_file, index=False, header=False) print(f"预测结果已保存至: {output_file}") print(f"结果格式: 共 {len(submission)} 行") print(f"列信息: [did, vid, predicted_completion_rate]") # 验证结果分布 print(f"完播率预测值分布: min={submission['predicted_completion_rate'].min():.4f}, " f"max={submission['predicted_completion_rate'].max():.4f}, " f"mean={submission['predicted_completion_rate'].mean():.4f}") else: print("⚠️ 预测结果为空，未保存文件") else: print("⚠️ 预测数据加载失败，无法生成结果")

from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime from sklearn.metrics import roc_auc_score, mean_absolute_error from pandarallel ...

请按照上面的方法，帮我补充并优化代码：import pandas as pd import numpy as np import xgboost as xgb import lightgbm as lgb from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score from sklearn.cluster import MiniBatchKMeans from sklearn.preprocessing import StandardScaler from sklearn.impute import SimpleImputer from sklearn.pipeline import make_pipeline import chardet import gc import joblib import dask.dataframe as dd from dask.diagnostics import ProgressBar from datetime import datetime import warnings warnings.filterwarnings('ignore') # 配置Dask进度条显示 ProgressBar().register() def detect_encoding(file_path): """自动检测文件编码""" with open(file_path, 'rb') as f: result = chardet.detect(f.read(10000)) return result['encoding'], result['confidence'] def load_data_with_dask(days=32): """使用Dask加载和处理大规模数据""" see_dfs, click_dfs, play_dfs = [], [], [] # 并行加载32天数据 for i in range(1, days + 1): day = f"{i:02d}" # 加载曝光数据 see = dd.read_csv( f'see_{day}.csv', dtype={'did': 'str', 'vid': 'str'}, blocksize='128MB' ) see = see.assign(day=day) see_dfs.append(see) # 加载点击数据 click = dd.read_csv( f'click_{day}.csv', dtype={'did': 'str', 'vid': 'str', 'item_cid': 'str'}, blocksize='128MB' ) click = click[['did', 'vid', 'click_time']] click_dfs.append(click) # 加载播放数据 play = dd.read_csv( f'playplus_{day}.csv', dtype={'did': 'str', 'vid': 'str', 'item_cid': 'str'}, blocksize='128MB' ) play = play[['did', 'vid', 'play_time']] play_dfs.append(play) # 合并所有数据 all_see = dd.concat(see_dfs).drop_duplicates(['did', 'vid']) all_click = dd.concat(click_dfs).drop_duplicates(['did', 'vid']) all_play = dd.concat(play_dfs) # 计算基本统计数据 total_users = all_see['did'].nunique().compute() total_videos = all_see['vid'].nunique().compute() print(f"Total unique users: {total_users}, Total unique videos: {total_videos}") return all_see, all_click, all_play def prepare_user_features(all_see, all_click, all_play, video_info): """为有记录的用户准备特征""" print("Preparing user behavior features for users with history...") # 计算用户曝光统计 user_exposure = all_see.groupby('did').size().rename('user_exposure_count').compute().astype('int32') # 计算用户点击统计 user_click = all_click.groupby('did').size().rename('user_click_count').compute().astype('int32') # 计算用户播放时长 user_play = all_play.groupby('did')['play_time'].sum().rename('total_play_time').compute().astype('float32') # 合并用户行为特征 user_features = pd.concat([user_exposure, user_click, user_play], axis=1).fillna(0) user_features['user_ctr'] = user_features['user_click_count'] / (user_features['user_exposure_count'] + 1e-6) user_features['avg_play_time'] = user_features['total_play_time'] / (user_features['user_click_count'] + 1e-6) # 添加用户活跃天数 active_days = all_see.groupby('did')['day'].nunique().compute().rename('active_days').astype('int8') user_features = user_features.merge(active_days, left_index=True, right_index=True, how='left').fillna(0) return user_features.reset_index() def prepare_video_features(all_see, all_click, all_play, video_info): """准备视频特征""" print("Preparing video popularity features...") # 计算视频曝光 video_exposure = all_see.groupby('vid').size().rename('video_exposure_count').compute().astype('int32') # 计算视频点击 video_click = all_click.groupby('vid').size().rename('video_click_count').compute().astype('int32') # 计算视频播放时长 video_play = all_play.groupby('vid')['play_time'].sum().rename('total_play_time').compute().astype('float32') # 合并视频特征 video_features = pd.concat([video_exposure, video_click, video_play], axis=1).fillna(0) video_features['video_ctr'] = video_features['video_click_count'] / (video_features['video_exposure_count'] + 1e-6) video_features['avg_play_time'] = video_features['total_play_time'] / (video_features['video_click_count'] + 1e-6) # 合并视频元数据 video_features = video_features.merge(video_info, left_index=True, right_on='vid', how='left') # 类别特征编码 for cat_col in ['item_type', 'item_assetSource', 'item_classify']: video_features[cat_col] = video_features[cat_col].astype('category') return video_features def prepare_cold_start_cluster(user_features_table, history_users): """为冷启动用户准备聚类模型""" print("Preparing clustering model for cold-start users...") # 只使用有记录的用户进行聚类训练 trained_users = history_users['did'].tolist() user_features_table['has_history'] = user_features_table['did'].isin(trained_users) # 提取有历史记录用户的特征 trained_user_features = user_features_table[user_features_table['has_history']] feature_cols = [f'f{i}' for i in range(0, 87)] X = trained_user_features[feature_cols].values # 使用MiniBatchKMeans处理大数据 pipe = make_pipeline( SimpleImputer(strategy='mean'), StandardScaler(), MiniBatchKMeans(n_clusters=100, batch_size=5000, n_init=3) ) # 训练聚类模型 cluster_model = pipe.fit(X) trained_user_features['cluster'] = cluster_model.labels_ # 保存模型 joblib.dump(cluster_model, 'cold_start_cluster_model.pkl') return cluster_model def prepare_samples(all_see, all_click, all_play, user_features_table): """准备训练样本，区分有记录和无记录用户""" print("Preparing training samples...") # 加载视频元数据 video_info = pd.read_csv('vid_info_table.csv', encoding='gbk', dtype={'vid': 'str'}) # 准备用户和视频特征 user_behavior_features = prepare_user_features(all_see, all_click, all_play, video_info) video_features = prepare_video_features(all_see, all_click, all_play, video_info) # 标记有历史记录的用户 history_users = all_see['did'].unique().compute().to_frame(name='did') user_features_table['has_history'] = user_features_table['did'].isin(history_users['did']) # 准备冷启动聚类模型 cluster_model = prepare_cold_start_cluster(user_features_table, history_users) # 为有记录用户准备训练样本 train_samples = dd.merge(all_see, all_click, on=['did', 'vid'], how='left', suffixes=('', '_click')) train_samples = dd.merge(train_samples, all_play, on=['did', 'vid'], how='left') train_samples = dd.merge(train_samples, user_behavior_features, on='did', how='left') train_samples = dd.merge(train_samples, video_features, on='vid', how='left') # 创建标签（点击为1，否则为0） train_samples['label'] = (~train_samples['click_time'].isnull()).astype('int8') # 优化内存使用 train_samples = train_samples.compute() for col in train_samples.select_dtypes(include='float64').columns: train_samples[col] = train_samples[col].astype('float32') print(f"Training samples shape: {train_samples.shape}") return train_samples, cluster_model, video_features def train_behavior_model(samples, feature_columns): """训练有记录用户的行为预测模型""" print("Training behavior prediction model...") # 准备特征和标签 X = samples[feature_columns] y = samples['label'] # 划分训练验证集（时间序列分割） days = samples['day'].unique() train_days = days[:-3] # 前29天用于训练 test_days = days[-3:] # 最后3天用于验证 X_train = samples[samples['day'].isin(train_days)][feature_columns] y_train = samples[samples['day'].isin(train_days)]['label'] X_val = samples[samples['day'].isin(test_days)][feature_columns] y_val = samples[samples['day'].isin(test_days)]['label'] # LightGBM参数设置 params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'auc', 'learning_rate': 0.05, 'num_leaves': 63, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': -1, 'seed': 42, 'max_depth': 7, 'min_child_samples': 500, 'n_jobs': 8 } # 训练模型 behavior_model = lgb.train( params, lgb.Dataset(X_train, label=y_train), num_boost_round=1000, valid_sets=[lgb.Dataset(X_val, label=y_val)], callbacks=[ lgb.early_stopping(stopping_rounds=30, verbose=False), lgb.log_evaluation(period=50) ] ) # 保存模型 behavior_model.save_model('behavior_model.txt') return behavior_model def predict_behavior(model, test_data, feature_columns): """预测有记录用户的行为""" print("Predicting behavior for users with history...") # 准备特征矩阵 X = test_data[feature_columns] # 预测点击概率 preds = model.predict(X) return preds def predict_cold_start(cluster_model, video_features, user_features_table): """预测冷启动用户的偏好""" print("Predicting preferences for cold-start users...") # 获取冷启动用户 cold_start_users = user_features_table[~user_features_table['has_history']] feature_cols = [f'f{i}' for i in range(0, 87)] # 预测用户所属聚类 X = cold_start_users[feature_cols].values cold_start_users['cluster'] = cluster_model.predict(X) # 加载热门视频（每个聚类Top 50视频） cluster_top_videos = joblib.load('cluster_top_videos.pkl') # 为每个用户生成推荐 cold_start_users['recommended_vid'] = cold_start_users['cluster'].map( lambda c: cluster_top_videos.get(c, []).copy() ) # 对推荐列表进行截断（每个用户最多100个推荐） cold_start_users['recommended_vid'] = cold_start_users['recommended_vid'].apply( lambda lst: lst[:min(100, len(lst))] ) return cold_start_users[['did', 'recommended_vid']] def save_cluster_top_videos(video_features, cluster_model, behavior_data): """保存每个聚类的热门视频""" print("Saving top videos for each cluster...") # 获取每个聚类的热门视频（基于播放时长和点击率） video_cluster_score = video_features[['vid', 'video_ctr', 'avg_play_time']].copy() video_cluster_score['popularity_score'] = (video_cluster_score['video_ctr'] * video_cluster_score['avg_play_time'] * 1000) # 获取训练数据中的聚类分配 cluster_model = joblib.load('cold_start_cluster_model.pkl') behavior_data['cluster'] = cluster_model.predict(behavior_data.iloc[:, 5:92]) # 统计每个聚类的视频偏好 cluster_video_pref = behavior_data.groupby(['cluster', 'vid'])['play_time'].sum().reset_index() cluster_video_pref = cluster_video_pref.merge(video_cluster_score, on='vid') # 为每个聚类计算Top视频 cluster_top_videos = {} for cluster_id in behavior_data['cluster'].unique(): cluster_vids = cluster_video_pref[cluster_video_pref['cluster'] == cluster_id] top_vids = cluster_vids.sort_values('popularity_score', ascending=False)['vid'].head(100).tolist() cluster_top_videos[cluster_id] = top_vids # 保存聚类视频偏好 joblib.dump(cluster_top_videos, 'cluster_top_videos.pkl') return cluster_top_videos def main(): """主执行流程""" # 1. 自动检测编码 encoding, confidence = detect_encoding('see_01.csv') print(f"Detected encoding: {encoding} (confidence: {confidence:.2f})") # 2. 加载基础数据 print("Loading base data...") all_see, all_click, all_play = load_data_with_dask(days=32) # 3. 加载用户特征表 user_features_table = pd.read_csv('did_features_table.csv', encoding='gbk', dtype={'did': 'str'}) # 4. 准备样本和聚类模型 train_samples, cluster_model, video_features = prepare_samples(all_see, all_click, all_play, user_features_table) # 5. 保存聚类热门视频 save_cluster_top_videos(video_features, cluster_model, train_samples) # 6. 定义模型特征列 feature_columns = [ 'user_exposure_count', 'user_click_count', 'user_ctr', 'video_exposure_count', 'video_click_count', 'video_ctr', 'item_duration', 'item_serialno', 'item_classify', 'item_type', 'item_assetSource' ] # 7. 训练行为预测模型 behavior_model = train_behavior_model(train_samples, feature_columns) # 8. 加载测试数据 print("Loading test data...") test_data = dd.read_csv('testA_did_show.csv', dtype={'did': 'str', 'vid': 'str'}) test_data = test_data.compute() # 9. 合并用户历史状态 history_users = train_samples['did'].unique() test_data['has_history'] = test_data['did'].isin(history_users) # 10. 对于有历史记录的用户 - 使用模型预测 if test_data['has_history'].any(): print("Processing users with history...") history_users_test = test_data[test_data['has_history']].copy() # 合并特征 history_users_test = history_users_test.merge( user_features_table, on='did', how='left', suffixes=('', '_feat') ) history_users_test = history_users_test.merge( video_features, on='vid', how='left' ) # 预测点击概率 history_preds = predict_behavior(behavior_model, history_users_test, feature_columns) history_users_test['click_prob'] = history_preds # 保存结果 history_users_test[['did', 'vid', 'click_prob']].to_csv('history_user_predictions.csv', index=False) # 11. 对于无历史记录的用户 - 使用聚类推荐 if not test_data['has_history'].all(): print("Processing cold-start users...") cold_start_preds = predict_cold_start(cluster_model, video_features, user_features_table) cold_start_preds.to_csv('cold_start_predictions.csv', index=False) print("Prediction completed!") if name == 'main': main()

import lightgbm as lgb from dask_ml.model_selection import train_test_split # 筛选有行为用户 active_ddf = full_ddf[full_ddf['history_count']>0] # 特征选择 features = ['f0','f1',...,'f86','item_...

train() got an unexpected keyword argument 'early_stopping_rounds'报错：请修复下列代码并完整输出：import pandas as pd import numpy as np import lightgbm as lgb from lightgbm import early_stopping, log_evaluation import gc import os import chardet from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, mean_absolute_error from tqdm import tqdm # 添加进度条 # 步骤1：数据读取与预处理（优化内存管理） def load_data_safely(file_path, usecols=None, dtype=None): """安全加载大型CSV文件""" try: # 自动检测编码 with open(file_path, 'rb') as f: encoding = chardet.detect(f.read(10000))['encoding'] encoding = encoding if encoding else 'latin1' # 分批读取 chunks = [] for chunk in tqdm(pd.read_csv(file_path, encoding=encoding, usecols=usecols, dtype=dtype, chunksize=100000, low_memory=False), desc=f"Loading {os.path.basename(file_path)}"): chunks.append(chunk) return pd.concat(chunks, ignore_index=True) except Exception as e: print(f"⚠️ 加载 {file_path} 失败: {str(e)}") return pd.DataFrame() # 定义内存优化的数据类型 dtypes = { 'did': 'category', 'vid': 'category', 'item_cid': 'category', 'item_type': 'category', 'item_assetSource': 'category', 'item_classify': 'category', 'item_isIntact': 'category', 'sid': 'category', 'stype': 'category', 'play_time': 'float32' } # 加载核心数据 did_features = load_data_safely('did_features_table.csv', dtype={dtypes, {f'f{i}': 'float32' for i in range(88)}}) vid_info = load_data_safely('vid_info_table.csv', dtype=dtypes) # 加载历史数据（分批处理） def load_historical_data(days=32, sample_frac=0.3): """分批加载历史数据并采样""" see_list, click_list, play_list = [], [], [] for day in tqdm(range(1, days + 1), desc="加载历史数据"): day_str = f"{day:02d}" # 加载曝光数据（采样减少内存） see_path = f'see_{day_str}.csv' if os.path.exists(see_path): see = load_data_safely(see_path, usecols=['did', 'vid'], dtype=dtypes) if not see.empty: see = see.sample(frac=sample_frac) # 采样减少数据量 see['day'] = day_str see_list.append(see) del see # 加载点击数据 click_path = f'click_{day_str}.csv' if os.path.exists(click_path): click = load_data_safely(click_path, usecols=['did', 'vid', 'click_time'], dtype=dtypes) if not click.empty and 'click_time' in click.columns: click['date'] = pd.to_datetime(click['click_time'], errors='coerce').dt.date click_list.append(click[['did', 'vid', 'date']]) del click # 加载播放数据 play_path = f'playplus_{day_str}.csv' if os.path.exists(play_path): play = load_data_safely(play_path, usecols=['did', 'vid', 'play_time'], dtype=dtypes) if not play.empty and 'play_time' in play.columns: play_list.append(play) del play gc.collect() return ( pd.concat(see_list).drop_duplicates(['did', 'vid']) if see_list else pd.DataFrame(), pd.concat(click_list).drop_duplicates(['did', 'vid']) if click_list else pd.DataFrame(), pd.concat(play_list).drop_duplicates(['did', 'vid']) if play_list else pd.DataFrame() ) # 加载历史数据（采样30%减少内存） hist_exposure, hist_click, hist_play = load_historical_data(days=32, sample_frac=0.3) # 加载预测数据 to_predict_users = load_data_safely('testA_pred_did.csv', dtype=dtypes) to_predict_exposure = load_data_safely('testA_did_show.csv', dtype=dtypes) # 步骤2：构建点击预测训练集（优化内存使用） def build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1): """构建点击数据集，优化内存使用""" # 标记正样本 hist_click['label'] = 1 # 高效标记负样本（避免创建大集合） merged = hist_exposure.merge( hist_click[['did', 'vid']].assign(is_clicked=True), on=['did', 'vid'], how='left' ) merged['is_clicked'] = merged['is_clicked'].fillna(False) # 负样本采样 negative_samples = merged[~merged['is_clicked']].sample(frac=sample_ratio) negative_samples['label'] = 0 # 合并数据集 click_data = pd.concat([ hist_click[['did', 'vid', 'label']], negative_samples[['did', 'vid', 'label']] ], ignore_index=True) # 释放内存 del merged, negative_samples gc.collect() return click_data click_train_data = build_click_dataset(hist_exposure, hist_click, sample_ratio=0.1) # 步骤3：特征工程（点击预测模型） def add_click_features(df, did_features, vid_info, hist_click, hist_play): """添加关键特征，避免内存溢出""" # 基础特征 df = df.merge(did_features, on='did', how='left') df = df.merge(vid_info, on='vid', how='left') # 用户行为统计（使用聚合避免大表连接） user_stats = pd.concat([ hist_click.groupby('did').size().rename('user_click_count'), hist_play.groupby('did')['play_time'].sum().rename('user_total_play') ], axis=1).reset_index() df = df.merge(user_stats, on='did', how='left') # 视频热度统计 video_stats = pd.concat([ hist_click.groupby('vid').size().rename('video_click_count'), hist_play.groupby('vid')['play_time'].mean().rename('avg_play_time') ], axis=1).reset_index() df = df.merge(video_stats, on='vid', how='left') # 填充缺失值（冷启动处理） fill_values = { 'user_click_count': 0, 'user_total_play': 0, 'video_click_count': df['video_click_count'].median(), 'avg_play_time': df['avg_play_time'].median() } for col, value in fill_values.items(): df[col] = df[col].fillna(value) # 添加时间相关特征 if 'date' in df: df['day_of_week'] = pd.to_datetime(df['date']).dt.dayofweek.astype('category') df['hour'] = pd.to_datetime(df['date']).dt.hour.astype('category') return df # 添加特征 click_train_data = add_click_features( click_train_data, did_features, vid_info, hist_click, hist_play ) # 步骤4：训练点击预测模型（优化类别特征处理） categorical_features = [ 'item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype', 'day_of_week', 'hour' ] # 明确指定分类特征 for col in categorical_features: if col in click_train_data.columns: click_train_data[col] = click_train_data[col].astype('category').cat.as_ordered() # 准备训练数据 X = click_train_data.drop(columns=['did', 'vid', 'label', 'date'], errors='ignore') y = click_train_data['label'] # 内存优化：删除不需要的列后立即释放 del click_train_data gc.collect() # 划分数据集 X_train, X_val, y_train, y_val = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 训练模型（优化参数） params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 63, # 增加复杂度 'learning_rate': 0.05, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'min_child_samples': 100, # 防止过拟合 'verbosity': -1 } train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features) model_click = lgb.train( params, train_data, num_boost_round=1500, # 增加轮次 valid_sets=[train_data, val_data], early_stopping_rounds=100, # 更宽松的早停 verbose_eval=50 ) # 步骤5：构建完播率训练集（优化特征工程） def build_play_dataset(hist_play, vid_info, did_features, hist_click): """构建完播率数据集""" # 基础数据 play_data = hist_play.merge( vid_info[['vid', 'item_duration']], on='vid', how='left' ) # 计算完播率 play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] play_data['completion_rate'] = play_data['completion_rate'].clip(upper=1.0) # 添加用户特征 play_data = play_data.merge(did_features, on='did', how='left') # 添加视频特征 play_data = play_data.merge( vid_info.drop(columns=['item_duration']), on='vid', how='left' ) # 添加统计特征 # 用户平均完播率 user_stats = play_data.groupby('did')['completion_rate'].agg(['mean', 'count']).reset_index() user_stats.columns = ['did', 'user_avg_completion', 'user_play_count'] play_data = play_data.merge(user_stats, on='did', how='left') # 视频平均完播率 video_stats = play_data.groupby('vid')['completion_rate'].agg(['mean', 'std']).reset_index() video_stats.columns = ['vid', 'video_avg_completion', 'video_completion_std'] play_data = play_data.merge(video_stats, on='vid', how='left') # 用户-视频互动特征 user_video_stats = hist_click.groupby(['did', 'vid']).size().reset_index(name='user_vid_clicks') play_data = play_data.merge(user_video_stats, on=['did', 'vid'], how='left') # 填充缺失值 play_data['user_avg_completion'].fillna(play_data['completion_rate'].mean(), inplace=True) play_data['user_play_count'].fillna(1, inplace=True) play_data['video_avg_completion'].fillna(play_data['completion_rate'].median(), inplace=True) play_data['video_completion_std'].fillna(0, inplace=True) play_data['user_vid_clicks'].fillna(0, inplace=True) return play_data play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) # 步骤6：训练完播率模型（添加正则化） X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate']) y_play = play_train_data['completion_rate'] # 划分数据集 X_train_play, X_val_play, y_train_play, y_val_play = train_test_split( X_play, y_play, test_size=0.2, random_state=42 ) # 训练参数 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 63, 'learning_rate': 0.03, # 降低学习率 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l1': 0.1, # 添加L1正则化 'lambda_l2': 0.1, # 添加L2正则化 'min_data_in_leaf': 50, 'verbosity': -1 } train_data_play = lgb.Dataset(X_train_play, label=y_train_play, categorical_feature=categorical_features) val_data_play = lgb.Dataset(X_val_play, label=y_val_play, categorical_feature=categorical_features) model_play = lgb.train( params_reg, train_data_play, num_boost_round=2000, valid_sets=[train_data_play, val_data_play], early_stopping_rounds=100, verbose_eval=50 ) # 保存模型 model_click.save_model('click_model.txt') model_play.save_model('play_model.txt')

from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, mean_absolute_error from tqdm import tqdm # 添加进度条 # 步骤1：数据读取与预处理（优化内存管理） def ...

帮我修改下面代码，把训练模型的方法从抽样改成所有数据进行训练 # -- coding: utf-8 -- """ Created on Sat Aug 9 11:56:46 2025 @author: srx20 """ # -- coding: utf-8 -- """ Created on Sat Aug 9 10:33:06 2025 @author: srx20 """ import os import glob import pandas as pd import numpy as np import joblib import gc from datetime import datetime, timedelta from sklearn.preprocessing import StandardScaler from sklearn.cluster import MiniBatchKMeans from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix import talib as ta import warnings import chardet import psutil import sys import pyarrow as pa import pyarrow.parquet as pq import pyarrow.csv as pc from tqdm import tqdm from sklearn.model_selection import train_test_split # 修复警告处理 warnings.filterwarnings("ignore", category=np.VisibleDeprecationWarning) warnings.filterwarnings("ignore", category=RuntimeWarning) warnings.filterwarnings("ignore", category=pd.errors.ParserWarning) warnings.filterwarnings("ignore", category=UserWarning) warnings.filterwarnings("ignore", category=FutureWarning) # 忽略FutureWarning class StockPredictionSystem: def init(self, config): """ 初始化预测系统 - 针对超大内存优化 :param config: 配置字典 """ self.config = config self.five_min_paths = { 'sz': config['five_min_sz_path'], 'sh': config['five_min_sh_path'] } self.daily_paths = { 'sz': config['daily_sz_path'], 'sh': config['daily_sh_path'] } self.output_path = config['output_path'] self.start_date = datetime.strptime(config['start_date'], '%Y-%m-%d') self.end_date = datetime.strptime(config['end_date'], '%Y-%m-%d') self.data = None self.features = None self.labels = None self.scaler = StandardScaler() self.cluster_model = None self.prediction_model = None self.feature_cols = [] self.temp_dir = os.path.join(self.output_path, "temp") os.makedirs(self.temp_dir, exist_ok=True) self.parquet_files = [] def print_memory_usage(self, step_name): """打印当前内存使用情况""" process = psutil.Process(os.getpid()) mem = process.memory_info().rss / 1024 ** 2 print(f"[{step_name}] 当前内存使用: {mem:.2f} MB") def safe_read_csv(self, file_path, required_columns): """ 安全读取CSV文件 - 使用PyArrow进行高效读取 :param file_path: 文件路径 :param required_columns: 需要的列名列表 :return: 读取的DataFrame或None """ try: # 检查文件大小 if not os.path.exists(file_path): print(f"文件不存在: {file_path}") return None file_size = os.path.getsize(file_path) if file_size == 0: print(f"文件 {file_path} 大小为0，跳过") return None # 使用PyArrow读取CSV read_options = pc.ReadOptions( use_threads=True, block_size=4096 * 1024 # 4MB块大小 ) parse_options = pc.ParseOptions(delimiter=',') convert_options = pc.ConvertOptions( include_columns=required_columns, column_types={ 'date': pa.string(), 'time': pa.string(), 'open': pa.float32(), 'high': pa.float32(), 'low': pa.float32(), 'close': pa.float32(), 'volume': pa.float32(), 'amount': pa.float32() } ) table = pc.read_csv( file_path, read_options=read_options, parse_options=parse_options, convert_options=convert_options ) # 转换为Pandas DataFrame df = table.to_pandas() # 检查是否读取到数据 if df.empty: print(f"文件 {file_path} 读取后为空") return None return df except Exception as e: print(f"读取文件 {file_path} 时出错: {str(e)}") return None def process_and_save_chunk(self, df, market, stock_code, chunk_index): """ 处理单个股票的数据块并保存为Parquet文件 - 内存优化版本 """ if df is None or df.empty: return None try: # 添加市场前缀 df['stock_code'] = f"{market}_{stock_code}" # 修复日期时间转换问题 df['date'] = df['date'].astype(str).str.zfill(8) # 填充为8位字符串 df['time'] = df['time'].astype(str) # 处理时间格式 df['time'] = df['time'].apply( lambda x: f"{x[:2]}:{x[2:4]}" if len(x) == 4 else x ) # 合并日期和时间 df['datetime'] = pd.to_datetime( df['date'] + ' ' + df['time'], format='%Y%m%d %H:%M', errors='coerce' ) # 删除无效的日期时间 df = df.dropna(subset=['datetime']) # 筛选日期范围 df = df[(df['datetime'] >= self.start_date) & (df['datetime'] <= self.end_date)] if df.empty: return None # 优化内存使用 df = df[['stock_code', 'datetime', 'open', 'high', 'low', 'close', 'volume', 'amount']] # 保存为Parquet文件 output_file = os.path.join(self.temp_dir, f"{market}_{stock_code}_{chunk_index}.parquet") # 使用PyArrow直接写入Parquet，避免Pandas中间转换 table = pa.Table.from_pandas(df, preserve_index=False) pq.write_table(table, output_file, compression='SNAPPY') return output_file except Exception as e: print(f"处理股票 {stock_code} 时出错: {str(e)}") return None def incremental_merge_parquet_files(self, parquet_files, batch_size=100): """ 增量合并Parquet文件 - 避免一次性加载所有数据 :param parquet_files: Parquet文件列表 :param batch_size: 每次合并的文件数量 :return: 合并后的Parquet文件路径 """ merged_file = os.path.join(self.temp_dir, "merged_data.parquet") # 如果文件已存在，删除 if os.path.exists(merged_file): os.remove(merged_file) # 分批合并文件 for i in tqdm(range(0, len(parquet_files), batch_size), desc="合并Parquet文件"): batch_files = parquet_files[i:i+batch_size] # 读取当前批次文件 tables = [] for file in batch_files: try: table = pq.read_table(file) tables.append(table) except Exception as e: print(f"读取文件 {file} 出错: {str(e)}") if not tables: continue # 合并当前批次 merged_table = pa.concat_tables(tables) # 追加到输出文件 if os.path.exists(merged_file): # 追加模式 with pq.ParquetWriter(merged_file, merged_table.schema) as writer: writer.write_table(merged_table) else: # 首次写入 pq.write_table(merged_table, merged_file) # 释放内存 del tables del merged_table gc.collect() return merged_file def load_and_preprocess_data(self): """ 加载和预处理数据 - 使用增量合并避免内存溢出 """ print("开始加载和预处理数据...") self.print_memory_usage("开始加载数据") # 创建临时目录 os.makedirs(self.temp_dir, exist_ok=True) parquet_files = [] # 加载五分钟线数据 for market, path in self.five_min_paths.items(): print(f"开始处理市场: {market}, 路径: {path}") file_count = 0 processed_count = 0 # 获取文件列表 csv_files = list(glob.glob(os.path.join(path, '.csv'))) print(f"找到 {len(csv_files)} 个文件") for file_path in tqdm(csv_files, desc=f"处理 {market} 市场文件"): file_count += 1 stock_code = os.path.basename(file_path).split('.')[0] try: # 安全读取CSV文件 df = self.safe_read_csv(file_path, ['date', 'time', 'open', 'high', 'low', 'close', 'volume', 'amount']) if df is None: continue # 处理并保存为Parquet output_file = self.process_and_save_chunk(df, market, stock_code, processed_count) if output_file: parquet_files.append(output_file) processed_count += 1 # 每处理100个文件释放内存 if processed_count % 100 == 0: self.print_memory_usage(f"已处理 {processed_count} 个文件") gc.collect() except Exception as e: print(f"处理文件 {file_path} 时出错: {str(e)}") continue print(f"市场 {market} 完成: 共 {file_count} 个文件, 成功处理 {processed_count} 个文件") # 如果没有找到有效文件 if not parquet_files: raise ValueError("没有找到有效的五分钟线数据") print(f"开始增量合并 {len(parquet_files)} 个Parquet文件...") self.print_memory_usage("合并前") # 增量合并Parquet文件 merged_file = self.incremental_merge_parquet_files(parquet_files, batch_size=50) # 加载合并后的数据 print(f"加载合并后的数据: {merged_file}") self.data = pq.read_table(merged_file).to_pandas() # 优化内存使用 self.data['stock_code'] = self.data['stock_code'].astype('category') print(f"数据合并完成，共 {len(self.data)} 条记录") self.print_memory_usage("合并后") # 清理临时文件 for file in parquet_files: try: os.remove(file) except: pass # 加载日线数据 daily_data = [] daily_required_columns = ['date', 'open', 'high', 'low', 'close', 'volume'] for market, path in self.daily_paths.items(): print(f"开始处理日线市场: {market}, 路径: {path}") file_count = 0 processed_count = 0 # 获取所有CSV文件 all_files = list(glob.glob(os.path.join(path, '.csv'))) print(f"找到 {len(all_files)} 个日线文件") for file_path in tqdm(all_files, desc=f"处理 {market} 日线文件"): file_count += 1 stock_code = os.path.basename(file_path).split('.')[0] try: # 安全读取CSV文件 df = self.safe_read_csv(file_path, daily_required_columns) if df is None or df.empty: continue # 添加市场前缀 df['stock_code'] = f"{market}_{stock_code}" # 转换日期格式 df['date'] = pd.to_datetime(df['date'], errors='coerce') # 删除无效日期 df = df.dropna(subset=['date']) # 筛选日期范围 df = df[(df['date'] >= self.start_date) & (df['date'] <= self.end_date)] if df.empty: continue # 优化内存使用 df = df[['stock_code', 'date', 'open', 'high', 'low', 'close', 'volume']] # 优化数据类型 - 修复错误: 使用astype而不是ast df['open'] = df['open'].astype(np.float32) df['high'] = df['high'].astype(np.float32) df['low'] = df['low'].astype(np.float32) df['close'] = df['close'].astype(np.float32) df['volume'] = df['volume'].astype(np.float32) daily_data.append(df) processed_count += 1 if processed_count % 100 == 0: self.print_memory_usage(f"已处理 {processed_count} 个日线文件") gc.collect() except Exception as e: print(f"处理日线文件 {file_path} 时出错: {str(e)}") continue print(f"日线市场 {market} 完成: 共 {file_count} 个文件, 成功处理 {processed_count} 个文件") # 合并日线数据 if daily_data: daily_df = pd.concat(daily_data, ignore_index=True) daily_df['stock_code'] = daily_df['stock_code'].astype('category') # 添加日线特征 self._add_daily_features(daily_df) else: print("警告: 没有找到日线数据") print(f"数据加载完成，共 {len(self.data)} 条记录") self.print_memory_usage("数据加载完成") def _add_daily_features(self, daily_df): """ 添加日线特征到五分钟线数据 - 使用内存优化技术 """ print("添加日线特征...") # 预处理日线数据 daily_df = daily_df.sort_values(['stock_code', 'date']) # 计算日线技术指标 - 修复FutureWarning daily_df['daily_ma5'] = daily_df.groupby('stock_code', observed=True)['close'].transform( lambda x: x.rolling(5).mean()) daily_df['daily_ma10'] = daily_df.groupby('stock_code', observed=True)['close'].transform( lambda x: x.rolling(10).mean()) daily_df['daily_vol_ma5'] = daily_df.groupby('stock_code', observed=True)['volume'].transform( lambda x: x.rolling(5).mean()) # 计算MACD - 使用更高效的方法 def calculate_macd(group): group = group.sort_values('date') if len(group) < 26: return group.assign(daily_macd=np.nan, daily_signal=np.nan) close_vals = group['close'].values.astype(np.float64) macd, signal, _ = ta.MACD(close_vals, fastperiod=12, slowperiod=26, signalperiod=9) return group.assign(daily_macd=macd, daily_signal=signal) daily_df = daily_df.groupby('stock_code', group_keys=False, observed=True).apply(calculate_macd) # 提取日期部分用于合并 self.data['date'] = self.data['datetime'].dt.date.astype('datetime64[ns]') # 优化数据类型 daily_df = daily_df[['stock_code', 'date', 'daily_ma5', 'daily_ma10', 'daily_vol_ma5', 'daily_macd', 'daily_signal']] daily_df['daily_ma5'] = daily_df['daily_ma5'].astype(np.float32) daily_df['daily_ma10'] = daily_df['daily_ma10'].astype(np.float32) daily_df['daily_vol_ma5'] = daily_df['daily_vol_ma5'].astype(np.float32) daily_df['daily_macd'] = daily_df['daily_macd'].astype(np.float32) daily_df['daily_signal'] = daily_df['daily_signal'].astype(np.float32) # 合并日线特征 self.data = pd.merge( self.data, daily_df, on=['stock_code', 'date'], how='left' ) # 删除临时列 del self.data['date'] # 释放内存 del daily_df gc.collect() def create_features(self): """ 创建特征工程 - 使用内存优化技术 """ print("开始创建特征...") self.print_memory_usage("创建特征前") if self.data is None: raise ValueError("请先加载数据") # 按股票和时间排序 self.data = self.data.sort_values(['stock_code', 'datetime']) # 特征列表 features = [] # 1. 基础特征 features.append('open') features.append('high') features.append('low') features.append('close') features.append('volume') features.append('amount') # 2. 技术指标 - 使用分组计算避免内存溢出 # 计算移动平均线 self.data['ma5'] = self.data.groupby('stock_code', observed=True)['close'].transform( lambda x: x.rolling(5, min_periods=1).mean()) self.data['ma10'] = self.data.groupby('stock_code', observed=True)['close'].transform( lambda x: x.rolling(10, min_periods=1).mean()) features.extend(['ma5', 'ma10']) # 计算RSI - 使用更高效的方法 print("计算RSI指标...") def calculate_rsi(group): group = group.sort_values('datetime') close = group['close'].values.astype(np.float64) rsi = ta.RSI(close, timeperiod=14) return group.assign(rsi=rsi) self.data = self.data.groupby('stock_code', group_keys=False, observed=True).apply(calculate_rsi) features.append('rsi') # 3. 波动率特征 print("计算波动率特征...") self.data['price_change'] = self.data.groupby('stock_code', observed=True)['close'].pct_change() self.data['volatility'] = self.data.groupby('stock_code', observed=True)['price_change'].transform( lambda x: x.rolling(10, min_periods=1).std()) features.append('volatility') # 4. 成交量特征 self.data['vol_change'] = self.data.groupby('stock_code', observed=True)['volume'].pct_change() self.data['vol_ma5'] = self.data.groupby('stock_code', observed=True)['volume'].transform( lambda x: x.rolling(5, min_periods=1).mean()) features.extend(['vol_change', 'vol_ma5']) # 5. 日线特征 features.extend(['daily_ma5', 'daily_ma10', 'daily_vol_ma5', 'daily_macd', 'daily_signal']) # 保存特征列 self.feature_cols = features # 处理缺失值 - 只删除特征列中的缺失值 self.data = self.data.dropna(subset=features) # 优化数据类型 - 使用astype而不是ast for col in features: if self.data[col].dtype == np.float64: self.data[col] = self.data[col].astype(np.float32) print(f"特征创建完成，共 {len(features)} 个特征") self.print_memory_usage("创建特征后") def clean_data(self): """ 清洗数据 - 处理无穷大和超出范围的值（修复索引问题） """ print("开始数据清洗...") self.print_memory_usage("清洗前") # 1. 检查无穷大值 inf_mask = np.isinf(self.data[self.feature_cols].values) inf_rows = np.any(inf_mask, axis=1) inf_count = np.sum(inf_rows) if inf_count > 0: print(f"发现 {inf_count} 行包含无穷大值，正在清理...") # 将无穷大替换为NaN self.data[self.feature_cols] = self.data[self.feature_cols].replace([np.inf, -np.inf], np.nan) # 2. 检查超出float32范围的值 float32_max = np.finfo(np.float32).max float32_min = np.finfo(np.float32).min # 统计超出范围的值 overflow_count = 0 for col in self.feature_cols: col_max = self.data[col].max() col_min = self.data[col].min() if col_max > float32_max or col_min < float32_min: overflow_count += 1 print(f"列 {col} 包含超出float32范围的值: min={col_min}, max={col_max}") if overflow_count > 0: print(f"共发现 {overflow_count} 列包含超出float32范围的值，正在处理...") # 缩放到安全范围 for col in self.feature_cols: col_min = self.data[col].min() col_max = self.data[col].max() # 如果范围过大，进行缩放 if col_max - col_min > 1e6: print(f"列 {col} 范围过大 ({col_min} 到 {col_max})，进行缩放...") self.data[col] = (self.data[col] - col_min) / (col_max - col_min) # 3. 处理NaN值 - 修复索引问题 nan_count = self.data[self.feature_cols].isna().sum().sum() if nan_count > 0: print(f"发现 {nan_count} 个NaN值，使用前向填充处理...") # 方法1: 使用transform保持索引一致 for col in self.feature_cols: self.data[col] = self.data.groupby('stock_code', observed=True)[col].transform( lambda x: x.fillna(method='ffill').fillna(method='bfill').fillna(0) ) # 方法2: 使用循环逐组处理（备用方法） # for stock in self.data['stock_code'].unique(): # stock_mask = self.data['stock_code'] == stock # self.data.loc[stock_mask, self.feature_cols] = self.data.loc[stock_mask, self.feature_cols].fillna(method='ffill').fillna(method='bfill').fillna(0) # 4. 最终检查 cleaned = True for col in self.feature_cols: if np.isinf(self.data[col]).any() or self.data[col].isna().any(): print(f"警告: 列 {col} 仍包含无效值") cleaned = False if cleaned: print("数据清洗完成") else: print("数据清洗完成，但仍存在部分问题") self.print_memory_usage("清洗后") def create_labels(self): """ 创建标签 - 添加新条件： 1. 次日(T+1)收盘价(15:00)比次日(T+1)9:35收盘价大5% 2. 后日(T+2)9:35收盘价比次日(T+1)收盘价(15:00)大1% """ print("开始创建标签...") self.print_memory_usage("创建标签前") if self.data is None: raise ValueError("请先加载数据") # 按股票和时间排序 self.data = self.data.sort_values(['stock_code', 'datetime']) # 添加日期列用于合并 self.data['date'] = self.data['datetime'].dt.date # 创建每日关键时间点价格数据 daily_key_points = self.data.groupby(['stock_code', 'date']).apply( lambda x: pd.Series({ 'time9_35_close': x[x['datetime'].dt.time == pd.to_datetime('09:35:00').time()]['close'].iloc[0] if not x[x['datetime'].dt.time == pd.to_datetime('09:35:00').time()].empty else np.nan, 'time15_00_close': x[x['datetime'].dt.time == pd.to_datetime('15:00:00').time()]['close'].iloc[0] if not x[x['datetime'].dt.time == pd.to_datetime('15:00:00').time()].empty else np.nan }) ).reset_index() # 为每日关键点添加次日(T+1)和后日(T+2)数据 daily_key_points = daily_key_points.sort_values(['stock_code', 'date']) daily_key_points['next_date'] = daily_key_points.groupby('stock_code')['date'].shift(-1) daily_key_points['next_next_date'] = daily_key_points.groupby('stock_code')['date'].shift(-2) # 合并次日(T+1)数据 daily_key_points = pd.merge( daily_key_points, daily_key_points[['stock_code', 'date', 'time9_35_close', 'time15_00_close']].rename( columns={ 'date': 'next_date', 'time9_35_close': 'next_time9_35_close', 'time15_00_close': 'next_time15_00_close' } ), on=['stock_code', 'next_date'], how='left' ) # 合并后日(T+2)数据 daily_key_points = pd.merge( daily_key_points, daily_key_points[['stock_code', 'date', 'time9_35_close']].rename( columns={ 'date': 'next_next_date', 'time9_35_close': 'next_next_time9_35_close' } ), on=['stock_code', 'next_next_date'], how='left' ) # 将关键点数据合并回原始数据 self.data = pd.merge( self.data, daily_key_points[['stock_code', 'date', 'next_time9_35_close', 'next_time15_00_close', 'next_next_time9_35_close']], on=['stock_code', 'date'], how='left' ) # 计算新条件 cond1 = (self.data['next_time15_00_close'] > self.data['next_time9_35_close'] * 1.05) cond2 = (self.data['next_next_time9_35_close'] > self.data['next_time15_00_close'] * 1.01) # 创建标签（满足两个条件则为1） self.data['label'] = np.where(cond1 & cond2, 1, 0).astype(np.int8) # 删除中间列 self.data.drop([ 'date', 'next_time9_35_close', 'next_time15_00_close', 'next_next_time9_35_close' ], axis=1, inplace=True, errors='ignore') # 保存标签 self.labels = self.data['label'] # 分析标签分布 label_counts = self.data['label'].value_counts(normalize=True) print(f"标签分布:\n{label_counts}") print("标签创建完成") self.print_memory_usage("创建标签后") def perform_clustering(self, n_clusters=5, batch_size=100000): """ 执行聚类分析 - 使用MiniBatchKMeans处理大数据 :param n_clusters: 聚类数量 :param batch_size: 每次处理的样本数量 """ print(f"开始聚类分析，聚类数: {n_clusters}...") self.print_memory_usage("聚类前") if self.feature_cols is None: raise ValueError("请先创建特征") # 添加数据清洗步骤 self.clean_data() # 标准化特征 print("标准化特征...") self.scaler.fit(self.data[self.feature_cols]) # 使用MiniBatchKMeans进行聚类 self.cluster_model = MiniBatchKMeans( n_clusters=n_clusters, batch_size=batch_size, random_state=42, n_init=3 ) # 分批处理数据 print("分批聚类...") n_samples = len(self.data) for i in tqdm(range(0, n_samples, batch_size), desc="聚类进度"): batch_data = self.data.iloc[i:i+batch_size] scaled_batch = self.scaler.transform(batch_data[self.feature_cols]) self.cluster_model.partial_fit(scaled_batch) # 获取最终聚类结果 print("获取聚类结果...") clusters = [] for i in tqdm(range(0, n_samples, batch_size), desc="分配聚类"): batch_data = self.data.iloc[i:i+batch_size] scaled_batch = self.scaler.transform(batch_data[self.feature_cols]) batch_clusters = self.cluster_model.predict(scaled_batch) clusters.append(batch_clusters) # 添加聚类结果到数据 self.data['cluster'] = np.concatenate(clusters) self.feature_cols.append('cluster') # 分析聚类结果 cluster_summary = self.data.groupby('cluster')['label'].agg(['mean', 'count']) print("聚类结果分析:") print(cluster_summary) # 保存聚类模型 cluster_model_path = os.path.join( self.output_path, "分钟线预测训练聚类模型.pkl" ) joblib.dump(self.cluster_model, cluster_model_path) print(f"聚类模型已保存至: {cluster_model_path}") self.print_memory_usage("聚类后") def train_prediction_model(self, sample_fraction=0.1): """ 训练预测模型 - 使用数据抽样减少内存使用 :param sample_fraction: 抽样比例 """ print("开始训练预测模型...") self.print_memory_usage("训练模型前") if self.feature_cols is None or self.labels is None: raise ValueError("请先创建特征和标签") # 抽样数据 if sample_fraction < 1.0: print(f"抽样 {sample_fraction*100:.1f}% 数据用于训练") sample_data = self.data.sample(frac=sample_fraction, random_state=42) X = sample_data[self.feature_cols] y = sample_data['label'] else: X = self.data[self.feature_cols] y = self.labels # 检查类别分布 if y.nunique() < 2: print("警告: 只有一个类别的数据，无法训练模型") return # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 训练随机森林分类器 self.prediction_model = RandomForestClassifier( n_estimators=100, # 减少树的数量 max_depth=8, # 减小最大深度 min_samples_split=10, class_weight='balanced', random_state=42, n_jobs=-1 ) self.prediction_model.fit(X_train, y_train) # 评估模型 y_pred = self.prediction_model.predict(X_test) print("模型评估报告:") print(classification_report(y_test, y_pred)) # 打印混淆矩阵 cm = confusion_matrix(y_test, y_pred) print("混淆矩阵:") print(cm) # 保存预测模型 model_path = os.path.join( self.output_path, "分钟线预测训练模型.pkl" ) joblib.dump(self.prediction_model, model_path) print(f"预测模型已保存至: {model_path}") self.print_memory_usage("训练模型后") def predict_and_save(self, output_results=True): """ 使用模型进行预测并保存结果 :param output_results: 是否输出预测结果 """ print("开始预测...") self.print_memory_usage("预测前") if self.prediction_model is None: raise ValueError("请先训练预测模型") # 准备预测数据 X = self.data[self.feature_cols] # 分批预测 predictions = [] batch_size = 10000 n_samples = len(X) for i in tqdm(range(0, n_samples, batch_size), desc="预测进度"): batch_data = X.iloc[i:i+batch_size] batch_pred = self.prediction_model.predict(batch_data) predictions.append(batch_pred) # 合并预测结果 self.data['prediction'] = np.concatenate(predictions) # 保存预测结果 if output_results: output_file = os.path.join(self.output_path, "预测结果.csv") self.data[['stock_code', 'datetime', 'close', 'label', 'prediction']].to_csv(output_file, index=False) print(f"预测结果已保存至: {output_file}") # 分析预测效果 accuracy = (self.data['label'] == self.data['prediction']).mean() print(f"整体预测准确率: {accuracy:.4f}") # 按股票分析预测效果 stock_accuracy = self.data.groupby('stock_code').apply( lambda x: (x['label'] == x['prediction']).mean() ) print("\n股票预测准确率统计:") print(stock_accuracy.describe()) self.print_memory_usage("预测后") def run(self, output_results=True, sample_fraction=0.1): """ 运行整个流程 - 使用内存优化技术 """ try: # 分步执行，每步完成后释放内存 self.load_and_preprocess_data() gc.collect() self.print_memory_usage("数据加载后") self.create_features() gc.collect() self.print_memory_usage("特征创建后") self.create_labels() # 使用新的标签创建方法 gc.collect() self.print_memory_usage("标签创建后") self.perform_clustering(n_clusters=self.config.get('n_clusters', 5)) gc.collect() self.print_memory_usage("聚类后") self.train_prediction_model(sample_fraction=sample_fraction) gc.collect() self.print_memory_usage("模型训练后") self.predict_and_save(output_results) gc.collect() self.print_memory_usage("预测后") print("训练和预测流程完成！") except KeyboardInterrupt: print("用户中断执行") except Exception as e: print(f"运行过程中出错: {str(e)}") import traceback traceback.print_exc() # 配置参数 config = { # 数据路径配置 'five_min_sz_path': r"D:\股票量化数据库\股票五分钟线csv数据\深证", 'five_min_sh_path': r"D:\股票量化数据库\股票五分钟线csv数据\上证", 'daily_sz_path': r"D:\股票量化数据库\股票csv数据\深证", 'daily_sh_path': r"D:\股票量化数据库\股票csv数据\上证", # 输出路径 'output_path': r"D:\股票量化数据库\预测结果", # 时间范围配置 'start_date': '2023-09-08', 'end_date': '2025-08-07', # 聚类配置 'n_clusters': 5 } # 创建并运行系统 if name == "main": # 打印环境信息 print(f"Python版本: {sys.version}") print(f"Pandas版本: {pd.version}") # 是否输出预测结果 output_results = True # 抽样比例 (0.1 = 10%) sample_fraction = 0.1 # 设置Pandas内存选项 pd.set_option('mode.chained_assignment', None) pd.set_option('display.max_columns', None) # 设置内存优化选项 pd.set_option('compute.use_numexpr', True) pd.set_option('compute.use_bottleneck', True) # 创建并运行系统 system = StockPredictionSystem(config) system.run(output_results=output_results, sample_fraction=sample_fraction)

另一种方式是使用LightGBM的增量学习（通过多次调用train，每次传递一个chunk），但LightGBM本身支持通过pandas DataFrame初始化，而且可以设置init_model来继续训练，但这样并不节省内存。为了节省内存，我们...

请帮我检查并完善代码：#步骤1：数据读取与预处理，如果内存不足，可以考虑分批处理或使用Dask等工具。 import pandas as pd import numpy as np import lightgbm as lgb from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, mean_absolute_error # 读取数据 did_features = pd.read_csv('did_features_table.csv') # 用户特征 vid_info = pd.read_csv('vid_info_table.csv') # 视频信息 # 历史32天曝光数据see_list（用于构建负样本） # 历史32天点击数据click_list（正样本） # 历史32天播放数据play_list（用于训练完播率模型） def detect_encoding(file_path): with open(file_path, 'rb') as f: result = chardet.detect(f.read(10000)) return result['encoding'], result['confidence'] def load_all_data(days=32): see_list, click_list, play_list = [], [], [] dtypes = {'did': 'category', 'vid': 'category'} for i in range(1, days + 1): day = f"{i:02d}" # 检查文件是否存在 for file_type in [f'see_{day}.csv', f'click_{day}.csv', f'playplus_{day}.csv']: if not os.path.exists(file_type): print(f"⚠️ 警告: 文件 {file_type} 不存在，跳过该天数据") continue try: # 加载 see 数据 see = pd.read_csv(f'see_{day}.csv', encoding='latin1', dtype=dtypes) if 'did' not in see.columns or 'vid' not in see.columns: print(f"⚠️ 警告: see_{day}.csv 缺少必要字段，跳过该天数据") continue see['day'] = day see_list.append(see) del see gc.collect() # 加载 click 数据 click = pd.read_csv( f'click_{day}.csv', encoding='ISO-8859-1', on_bad_lines='skip', dtype=dtypes ) if 'click_time' not in click.columns: print(f"⚠️ 警告: click_{day}.csv 缺少 click_time 字段，跳过该天数据") continue click['date'] = pd.to_datetime(click['click_time'], errors='coerce').dt.date click_list.append(click[['did', 'vid', 'date']]) del click gc.collect() # 加载 play 数据 play = pd.read_csv( f'playplus_{day}.csv', engine='python', encoding_errors='ignore', dtype=dtypes ) if 'play_time' not in play.columns: print(f"⚠️ 警告: playplus_{day}.csv 缺少 play_time 字段，跳过该天数据") continue play_list.append(play[['did', 'vid', 'play_time']]) del play gc.collect() except Exception as e: print(f"⚠️ 加载第 {day} 天数据时出错: {str(e)}") continue # 处理所有天都没有数据的情况 if not see_list: raise ValueError("错误: 未找到任何有效数据，请检查输入文件") all_see = pd.concat(see_list).drop_duplicates(['did', 'vid']) all_click = pd.concat(click_list).drop_duplicates(['did', 'vid']) to_predict_users = pd.read_csv('testA_pred_did.csv') # 待预测用户 to_predict_exposure = pd.read_csv('testA_did_show.csv') # 待预测用户的曝光视频 # 注意：弹幕数据暂不使用 #步骤2：构建点击预测模型的训练集，如果内存不足，可以考虑分批处理或使用Dask等工具。 # 正样本：历史点击数据，标记为1 positive_samples = hist_click[['did', 'vid']].copy() positive_samples['label'] = 1 # 负样本：从历史曝光数据中，排除出现在历史点击数据中的（did, vid） # 注意：同一个用户可能曝光了多个视频，但只点击了部分，所以未点击的就是负样本 # 合并同一个用户的所有曝光和点击，然后取差集 # 方法：对每个用户，曝光视频中不在点击视频列表中的作为负样本 # 注意：数据量可能很大，需要分组操作 # 先获取每个用户点击了哪些视频（did, vid集合） user_clicked_vids = hist_click.groupby('did')['vid'].apply(set).reset_index(name='clicked_set') # 将历史曝光数据与user_clicked_vids合并 hist_exposure_with_click = hist_exposure.merge(user_clicked_vids, on='did', how='left') # 对于每个曝光记录，如果vid不在clicked_set中，则作为负样本 # 注意：如果用户没有点击记录，则clicked_set为NaN，使用空集 hist_exposure_with_click['clicked_set'] = hist_exposure_with_click['clicked_set'].apply(lambda x: x if isinstance(x, set) else set()) hist_exposure_with_click['is_clicked'] = hist_exposure_with_click.apply(lambda row: row['vid'] in row['clicked_set'], axis=1) # 负样本：未点击的曝光记录 negative_samples = hist_exposure_with_click[~hist_exposure_with_click['is_clicked']][['did', 'vid']] negative_samples['label'] = 0 # 合并正负样本 click_train_data = pd.concat([positive_samples, negative_samples], axis=0, ignore_index=True) # 合并用户特征和视频特征 click_train_data = click_train_data.merge(did_features, on='did', how='left') click_train_data = click_train_data.merge(vid_info, on='vid', how='left') # 注意：这里可能会有缺失值（比如视频信息表中没有某个视频的信息），需要填充 # 填充策略：对于数值特征，用中位数或均值；对于类别特征，用众数或特殊值（如-1） #步骤3：特征工程（点击预测模型） video_click_count = hist_click.groupby('vid').size().reset_index(name='video_click_count') click_train_data = click_train_data.merge(video_click_count, on='vid', how='left') click_train_data['video_click_count'].fillna(0, inplace=True) # 对于新视频，用0填充 #步骤4：训练点击预测模型 # 划分训练集和验证集 X = click_train_data.drop(columns=['did', 'vid', 'label']) y = click_train_data['label'] # 将类别特征转换为类别类型（LightGBM可以处理类别特征） categorical_features = ['item_cid', 'item_type', 'item_assetSource', 'item_classify', 'item_isIntact', 'sid', 'stype'] for col in categorical_features: if col in X.columns: X[col] = X[col].astype('category') X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) # 训练LightGBM分类器 params = { 'objective': 'binary', 'metric': 'binary_logloss', 'boosting_type': 'gbdt', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': 0 } train_data = lgb.Dataset(X_train, label=y_train, categorical_feature=categorical_features, free_raw_data=False) val_data = lgb.Dataset(X_val, label=y_val, categorical_feature=categorical_features, free_raw_data=False) model_click = lgb.train(params, train_data, valid_sets=[train_data, val_data], num_boost_round=1000, early_stopping_rounds=50, verbose_eval=10) # 保存模型 model_click.save_model('click_model.txt') #步骤5：构建完播率预测模型的训练集 # 使用历史播放数据（有播放时长），需要合并视频信息表获取视频时长，然后计算完播率 # 注意：播放时长可能大于视频时长，所以完播率最大为1 play_data = hist_play.merge(vid_info[['vid', 'item_duration']], on='vid', how='left') play_data['completion_rate'] = play_data['play_time'] / play_data['item_duration'] play_data['completion_rate'] = play_data['completion_rate'].clip(upper=1.0) # 超过1的设为1 # 合并用户特征和视频特征 play_train_data = play_data.merge(did_features, on='did', how='left') play_train_data = play_train_data.merge(vid_info.drop(columns=['item_duration']), on='vid', how='left') # 同样，构造统计特征（如用户平均完播率、视频平均完播率等） # 示例：用户平均完播率 user_avg_completion = play_train_data.groupby('did')['completion_rate'].mean().reset_index(name='user_avg_completion') play_train_data = play_train_data.merge(user_avg_completion, on='did', how='left') # 视频平均完播率 video_avg_completion = play_train_data.groupby('vid')['completion_rate'].mean().reset_index(name='video_avg_completion') play_train_data = play_train_data.merge(video_avg_completion, on='vid', how='left') # 填充缺失值 # ... # 特征矩阵 X_play = play_train_data.drop(columns=['did', 'vid', 'play_time', 'item_duration', 'completion_rate']) y_play = play_train_data['completion_rate'] #步骤6：训练完播率预测模型 # 划分训练集和验证集 X_train_play, X_val_play, y_train_play, y_val_play = train_test_split(X_play, y_play, test_size=0.2, random_state=42) # 训练LightGBM回归模型 params_reg = { 'objective': 'regression', 'metric': 'mae', 'boosting_type': 'gbdt', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': 0 } train_data_play = lgb.Dataset(X_train_play, label=y_train_play, categorical_feature=categorical_features, free_raw_data=False) val_data_play = lgb.Dataset(X_val_play, label=y_val_play, categorical_feature=categorical_features, free_raw_data=False) model_play = lgb.train(params_reg, train_data_play, valid_sets=[train_data_play, val_data_play], num_boost_round=1000, early_stopping_rounds=50, verbose_eval=10) # 保存模型 model_play.save_model('play_model.txt')

from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, mean_absolute_error from tqdm import tqdm # 添加进度条 # 步骤1：数据读取与预处理（优化内存管理） def ...

编码: ascii, 置信度: 1.00 Training until validation scores don't improve for 20 rounds [10] training's auc: 0.999999 valid_1's auc: 0.999999 [20] training's auc: 0.999999 valid_1's auc: 0.999999 Early stopping, best iteration is: [1] training's auc: 0.999999 valid_1's auc: 0.999999 Validation AUC: 1.0000 --------------------------------------------------------------------------- InvalidIndexError Traceback (most recent call last) Cell In[16], line 188 186 samples = prepare_samples(all_see, all_click, all_play) 187 model, features, auc_score = train_model(samples) --> 188 result = predict_new_data(model, features, 'testA_did_show.csv') Cell In[16], line 164, in predict_new_data(model, feature_columns, test_file) 161 user_click_rate = pd.read_csv('user_click_rate.csv', encoding='gbk').set_index('did')['user_click_rate'] 162 video_popularity = pd.read_csv('video_popularity.csv', encoding='gbk').set_index('vid')['video_popularity'] --> 164 test_data['user_click_rate'] = test_data['did'].map(user_click_rate).fillna(0).astype(np.float32) 165 test_data['video_popularity'] = test_data['vid'].map(video_popularity).fillna(0).astype(np.int32) 167 test_data[feature_columns] = test_data[feature_columns].fillna(0) File ~\ANA\Lib\site-packages\pandas\core\series.py:4544, in Series.map(self, arg, na_action) 4464 def map( 4465 self, 4466 arg: Callable | Mapping | Series, 4467 na_action: Literal["ignore"] | None = None, 4468 ) -> Series: 4469 """ 4470 Map values of Series according to an input mapping or function. 4471 (...) 4542 dtype: object 4543 """ -> 4544 new_values = self._map_values(arg, na_action=na_action) 4545 return self._constructor(new_values, index=self.index, copy=False).finalize( 4546 self, method="map" 4547 ) File ~\ANA\Lib\site-packages\pandas\core\base.py:919, in IndexOpsMixin._map_values(self, mapper, na_action, convert) 916 arr = self._values 918 if isinstance(arr, ExtensionArray): --> 919 return arr.map(mapper, na_action=na_action) 921 return algorithms.map_array(arr, mapper, na_action=na_action, convert=convert) File ~\ANA\Lib\site-packages\pandas\core\arrays\categorical.py:1530, in Categorical.map(self, mapper, na_action) 1526 na_action = "ignore" 1528 assert callable(mapper) or is_dict_like(mapper) -> 1530 new_categories = self.categories.map(mapper) 1532 has_nans = np.any(self._codes == -1) 1534 na_val = np.nan File ~\ANA\Lib\site-packages\pandas\core\indexes\base.py:6419, in Index.map(self, mapper, na_action) 6383 """ 6384 Map values using an input mapping or function. 6385 (...) 6415 Index(['A', 'B', 'C'], dtype='object') 6416 """ 6417 from pandas.core.indexes.multi import MultiIndex -> 6419 new_values = self._map_values(mapper, na_action=na_action) 6421 # we can return a MultiIndex 6422 if new_values.size and isinstance(new_values[0], tuple): File ~\ANA\Lib\site-packages\pandas\core\base.py:921, in IndexOpsMixin._map_values(self, mapper, na_action, convert) 918 if isinstance(arr, ExtensionArray): 919 return arr.map(mapper, na_action=na_action) --> 921 return algorithms.map_array(arr, mapper, na_action=na_action, convert=convert) File ~\ANA\Lib\site-packages\pandas\core\algorithms.py:1803, in map_array(arr, mapper, na_action, convert) 1799 mapper = mapper[mapper.index.notna()] 1801 # Since values were input this means we came from either 1802 # a dict or a series and mapper should be an index -> 1803 indexer = mapper.index.get_indexer(arr) 1804 new_values = take_nd(mapper._values, indexer) 1806 return new_values File ~\ANA\Lib\site-packages\pandas\core\indexes\base.py:3875, in Index.get_indexer(self, target, method, limit, tolerance) 3872 self._check_indexing_method(method, limit, tolerance) 3874 if not self._index_as_unique: -> 3875 raise InvalidIndexError(self._requires_unique_msg) 3877 if len(target) == 0: 3878 return np.array([], dtype=np.intp) InvalidIndexError: Reindexing only valid with uniquely valued Index objects，请帮我定位并解决问题

test_data['user_click_rate'] = test_data['did'].map(user_click_rate).fillna(0).astype(np.float32) 错误信息表明，我们在尝试使用一个非唯一索引的Series进行映射。也就是说，user_click_rate这个Series的...

Cell In[9], line 122, in build_click_dataset(hist_exposure, hist_click, sample_ratio) 120 # 创建负样本DataFrame 121 if negative_set: --> 122 negative_dids, negative_vids = zip(*negative_set) 123 negative_samples = pd.DataFrame({ 124 'did': list(negative_dids), 125 'vid': list(negative_vids), 126 'label': 0 127 }) 129 # 采样负样本 MemoryError:

exposure_index = pd.MultiIndex.from_arrays([hist_exposure['did'], hist_exposure['vid']]) # 标记曝光数据：是否在点击索引中 labels = exposure_index.isin(click_index).astype(int) # 将标签添加到曝光...

--------------------------------------------------------------------------- NameError Traceback (most recent call last) Cell In[11], line 433 430 return play_data 432 print("开始构建完播率数据集...") --> 433 play_train_data = build_play_dataset(hist_play, vid_info, did_features, hist_click) # 使用已定义的hist_click 435 # 7. 训练完播率模型 436 if not play_train_data.empty: NameError: name 'hist_play' is not defined

from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime # 1. 增强数据加载函数（添加列存在性检查） def load_data_safely(file_path, ...

加载 click_15.csv 失败: the dtype datetime64[s] is not supported for parsing, pass this column using parse_dates instead，请把模型中的date字段去掉，只考虑点击和观看即可。每天的日期是按照文件序号排列的。

from sklearn.model_selection import train_test_split from tqdm import tqdm import joblib from datetime import datetime from sklearn.metrics import roc_auc_score, mean_absolute_error from sklearn....

Java8新特新

描述：Java8 开始，Collection集合中新增了两个和流有关的方法，分别Stream()同步流和parallelStream()异步流，通过lambda表达对集合实现高效的处理

浙江省高校财务管理信息化现状研究.docx

相关推荐

python数据分析与可视化 import pandas as pd import numpy as np import m

import pandas as pd.docx

data_gener_import.py.tar.gz_data-import_数据模拟

加载 click_15.csv 失败: the dtype datetime64[s] is not supported for parsing, pass this column using parse_dates instead，请把模型中的date字段去掉，只考虑点击和观看即可。每天的日期是按照文件序号排列的。

Java8新特新

浙江省高校财务管理信息化现状研究.docx

大家在看

离心泵特性曲线计算程序VB源代码包

电化学工作站 CHI 660e

参考资料-Boost_PFC电路中开关器件的损耗分析与计算.zip

研发项目管理(RDPM)方法简介

Linux Networking Cookbook

最新推荐

基于QT的调色板

基于springboot二手物品交易网站系统【附万字论文+PPT+包部署+录制讲解视频】.zip

基于Python的学生宿舍管理系统的设计与实现+数据库文档

美国国际航空交通数据分析报告(1990-2020)

统计学视角：深入理解最小二乘法的概率论基础

vscode中使用Codeium

UniMoCo：统一框架下的多监督视觉学习方法

【MATLAB算法精讲】：最小二乘法的实现与案例深度分析

Idea使用教程+jdk配置

GitHub入门实践：审查拉取请求指南