简短NLP入门完整代码附详解附数据集

最新推荐文章于 2025-05-28 23:11:50 发布

原创

最新推荐文章于 2025-05-28 23:11:50 发布 · 3.3k 阅读

15 ·

CC 4.0 BY-SA版权

数据集: https://pan.baidu.com/s/13IMDPMz0rf8kM1JAea53uQ
密码: y6m4
数据集炒鸡炒鸡大TQT~~~
代码中涉及的具体的类或函数在对应的其他分支博客下谅解~
{第一次用markdown写代码块，排版不是很好，会越来越好~}

# -*- coding: utf-8 -*-
print("开始..............")

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

df_train = pd.read_csv('./train_set.csv')
df_test = pd.read_csv('./test_set.csv')
df_train.drop(columns=['article','id'],inplace=True)
#pandas的drop函数：删除表中的某一行或者某一列，当inplace手动设为True时（默认为false），改变原有的df中的数据，原数据直接就被替换。

df_test.drop(columns=['article'