t半城烟沙-CSDN博客

原创 Spark的一些操作

1.建立字典：两种方法方法一：file = sc.textFile(add_keyWordWithFeature)Dict = {}def wordSplitAndBuilDict(x): return DictAction = file.map(lambda line:wordSplitAndBuilDict(json.loads(line)))这种方法返回的是许多dict组成的

2017-07-20 16:53:52 344

转载 A Neural Probabilistic Language Model笔记

1.经典之paper，虽然之前一直有了解，但是未及细读，现在终于有时间好好研究一下了。 2.首先是一个概率模型： 3.然后是两个假设条件：First, it is not taking into account contexts farther than 1 or 2 words,1 second it is not taking into account the “similarity”

2017-07-14 11:14:08 974

转载 GBDT

作为一名小白，被GBDT和Xgboost整的一脸懵逼，现写下一些笔记，所有内容都来自各大神的榜文，此文仅用于个人阅读笔记，如有不对，欢迎指出~~~~首先要明确一下什么是GB（Gradient boosting），什么是DT（Decision Tree）。DT就不说了，周志华老师讲的很明白。现在说一下GB：维基上的伪代码，简单明了。一开始最让我懵逼的就是2.2，用残差的梯度构造一个学习器，所

2017-07-13 12:24:08 721

转载 xgboost与gbdt

1.都是利用了boosting思想，最小化残差（偏差）。 2.GBDT的基学习器一定是DT，而且是利用残差梯度构造基学习器，基学习器是先训练好的，再确定叶节点的输出（树的预测值，也就是权重w）。Xgboost的基学习器可以使树模型，也可以是其他模型，而且利用了残差的一阶导和二阶导；使用树模型时，分裂点是通过代价函数一步步算出来的，而不是利用GBDT直接利用残差梯度构造的树结构。 3.都可以增加s

2017-07-13 02:05:17 304

读 https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf 笔记： ——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

2017-07-11 21:49:06 393

翻译 tensorflow-rnn代码解读

本文仅供自己学习记录使用原文地址：http://blog.csdn.net/mylove0414/article/details/55805974 感谢博主———路一瓢的博客# -*- coding:utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow

2017-06-29 16:35:14 1850

翻译 tensorflow rnn阅读笔记

只是随便写写，fang’bian’zi’ji ptb_word_lm.py: 1. 一些参数的定义 num_steps = time_step1.在rnn中进行dropout时，对于rnn的部分不进行dropout，也就是说从t-1时候的状态传递到t时刻进行计算时，这个中间不进行memory的dropout；仅在同一个t时刻中，多层cell之间传递信息的时候进行dropout. 2.

2017-06-28 16:00:20 276

翻译欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-06-28 15:48:31 173

原创 Classifying MNIST digits using Logistic Regression 代码个人，理解

一. 参数维度W = size(n_in, n_out), n_in代表一个样本的dimension,一般都是(1，n），那么此时n_in=n;如果是（n,m）就要处理成（n*m,1）的形式。二. negative_log_likelihood 函数return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y]

2017-01-17 12:17:46 290