百面机器学习 1、特征工程 1.1 特征归一化 1.1.1 Min-Max Scaling 1.1.2 Z-Score Norm 1.1.3 为什么要归一化? 1.1.4 归一化是万能的吗? 1.2 类别型特征编码 1.2.1 序号编码 1.2.2 独热编码 1.2.3 二进制编码 1.3 词袋模型和词嵌入模型 1.3.1 词袋模型 1.3.1.1 TF-IDF 1.3.1.2 N-gram 1.3.2 词嵌入模型(Word2Vec) 1.3.2.1 CBOW 1.3.2.1 Skip-gram 1.3.3 LDA 2、自然语言处理 2.1 RNN 2.1.1 BPTT 2.2 LSTM 1、特征工程 1.1 特征归一化 1.1.1 Min-Max Scaling 把数据进行线性变换,使结果映射到[0,1]之间,相当于对原数据进行等比缩放。 X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X-X_{min}} {X_{max}-X_{min}} X