ycycg-CSDN博客

原创 numpy笔记

np.vectorize np.vectorize( pyfunc, otypes=None, doc=None, excluded=None, cache=False, signature=None, ) 定义一个向量化函数，它接受嵌套的对象序列或numpy数组作为输入，并返回单个numpy数组或numpy数组的元组。向量化函数像python map函数一样对输入数组的连续元组求值' pyfunc '，不同的是它使用numpy的广播规则。 Parameters: pyfunc : calla

2021-01-15 17:26:41 146

原创 sklearn笔记

TfidfVectorizer tf=w在该文档中出现次数/该文档总词数tf = w在该文档中出现次数 / 该文档总词数tf=w在该文档中出现次数/该文档总词数 idf=log⁡总文档数1+包含w的文档数idf = \log \frac{总文档数}{1+包含w的文档数}idf=log1+包含w的文档数总文档数 tf−idf=tf∗idftf-idf = tf * idftf−idf=tf∗idf sklearn.feature_extraction.text.TfidfVectorizer( input

2021-01-15 17:23:17 185

原创 2020-09-12

text-cnn import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from torch.autograd import Variable class TextCNN(nn.Module): def __init__(self, vocab, output_channel, n_classes): super(TextCNN, self).__init__()

2020-09-12 22:59:44 246

原创机器学习算法笔记（有的带sklearn api的简易实现）[``]()

手写机器学习算法简易版数据准备PerceptronCodeTestKNNCodeTestNBCodeTestDT 数据准备 import pandas as pd import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt from collections import Counter

2020-09-04 11:42:21 546

原创 transformer.config/tokenizer/model

transformers 框架主要有三个类model 类、configuration 类、tokenizer 类，这三个类，所有相关的类都衍生自这三个类，他们都有 from_pretained() 方法和 save_pretrained() 方法。 Config类 PretrainedConfig 是其它所有 Config类的基类，它实现了用于从本地文件或目录或库提供的预训练模型配置（从HuggingFace的AWS S3存储库下载）中加载/保存配置的常用方法。 Signature class trans

2020-08-15 18:50:18 7282 4

翻译 xgboost lib

文章目录xgboost pkg introductionData InterfaceSetting ParametersTrainingEarly StoppingPredictionPlottingxgboost API referenceCore Data StructureLearning APIScikit-Learn API xgboost pkg introduction Data Interface xgboost 支持的格式有： LibSVM text format file Comma-

2020-08-05 22:38:50 316

原创 gensim笔记

core concepts Document: 文档，一个字符串。 Corpus: 语料库，文档的集合。 Vector: 向量，文档的数学表示方式。 Model: 将向量从一种表示转换为另一种表示的算法。 Document document 是文本序列类型，在python中就是 str 。document 可以是一个句子，一篇文章，甚至是一本书的内容。 document = "Human machine interface for lab abc computer applications" Corp

2020-07-30 22:00:50 1273

原创 fasttext 使用笔记

安装 !pip install fasttext 学习词向量 # Skipgram model : model = fasttext.train_unsupervised('data.txt', model='skipgram') # or, cbow model : model = fasttext.train_unsupervised('data.txt', model='cbow') 其中 data.txt 是 utf-8 编码的文本文件。 fasttext.train_unsupervised

2020-07-28 23:52:37 1124