
大数据
文章平均质量分 77
我心依依旧
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python操作Redis
使用redis模块,可以方便的使用脚本完成Redis数据构造和清理。本文借助脚本,给大家演示一下redis常用数据结构list、set、hash等数据结构的常用增删改查的操作。其他命令可以参考:Redis 命令参考:http://doc.redisfans.com/pip install redis上代码:class RedisOperate: def __init__(self...原创 2019-03-14 17:10:31 · 230 阅读 · 0 评论 -
hive动态分区和静态分区
hive动态分区和静态分区一)hive中支持两种类型的分区:静态分区SP(static partition)动态分区DP(dynamic partition)静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。二)实战演示如何在hive中使用动态分区1、创建...转载 2019-05-05 11:06:15 · 5897 阅读 · 0 评论 -
thrift.transport.TTransport.TTransportException: TSocket read 0 bytes报错解决
一、问题描述htrift版本:2.0.0-cdh6.0.1hbase版本:1.2.0-cdh5.7.0使用 thrift client with python 连接 hbase 报错:File "C:\Users\HP\env1\lib\site-packages\thrift\transport\TSocket.py", line 132, in read message='T...原创 2019-05-20 17:42:06 · 21252 阅读 · 1 评论 -
hbase shell输错命令后不执行命令,只换行,怎么退出
一、问题描述当我们在hbase命令行,输错命令行时,再输入下一条命令,并不执行,而是只换行。二、问题解决此时,我们可以输入>’,退出本次执行,再次输入正确的命令后,可重新执行...原创 2019-05-21 11:00:23 · 13048 阅读 · 4 评论 -
布隆过滤器(Bloom Filter)原理以及应用
参考:https://blog.csdn.net/tlk20071/article/details/78336407布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。hash原理Hash (哈希,...转载 2019-05-29 19:25:16 · 318 阅读 · 0 评论 -
Windows本地配置hadoop运行环境
windows本地配置hadoop运行环境,可以帮助我们更好进行开发或者hadoop学习。本文介绍了如何搭建一个hadooop伪运行环境。一、下载安装包并配置环境变量下载hadoop binary安装安装包:https://hadoop.apache.org/releases.html下载完后配置环境变量:HADOOP_HOME=D:\hadoop-2.6.0path里面添加:%HA...原创 2019-06-19 11:22:43 · 6393 阅读 · 0 评论 -
dubbo zookeeper基本配置(单机),集群配置(多机)
zookeeper基本配置,集群配置ZooKeeper是一个完美的解决分布式协调服务的好工具,用于管理大型主机。在分布式环境中协调和管理服务是一个复杂的过程,ZooKeeper通过其简单的架构和API解决了这个问题。ZooKeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。在安装ZooKeeper之前,请确保你的系统是在以下任一操作系统上运行:任意Linux ...原创 2019-07-11 19:50:17 · 618 阅读 · 0 评论 -
hive的基本数据类型
hive的基本数据类型1.基本数据类型hive类型 说明 java类型 实例 1).tinyint 1byte有符号的整数 byte 20 2).smalint 2byte有符号的整数 short 20 3).int 4byte有符号的整数 int ...转载 2019-08-08 10:51:50 · 1573 阅读 · 0 评论 -
hive:TOK_FUNCTION not supported in insert/values问题解决
hive在插入数据时报错:hive> insert into temp.test_hive_data_type1 partition(ymd='2018-12-03') values("wanwei",18,100.00,0.225,true,158030219111,array("beijing","shanghai","tianjin","hangzhou"),str_to_map('...原创 2019-08-08 14:49:33 · 3396 阅读 · 0 评论 -
pyspark--报错java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST解决
环境Python 3.5.2 Pyspark 2.4.2hadoop-2.6.0spark-2.2.0-bin-hadoop2.6.tgz运行spark本地报错:解决安装对应版本pysparkpip intsall pyspark==2.2.1再次运行,完美解决原创 2019-04-23 10:12:30 · 5014 阅读 · 6 评论 -
hive复杂格式array,map,struct使用
转载:https://blog.csdn.net/u010670689/article/details/72885944目前 hive 支持的复合数据类型有以下几种:map(key1, value1, key2, value2, …) Creates a map with the given key/value pairsstruct(val1, val2, val3, …) Creat...转载 2019-04-08 20:14:14 · 1679 阅读 · 0 评论 -
主键和索引的区别
– 区别主键是一种约束,唯一索引是一种索引,两者在本质上是不同的。1、主键创建后一定包含一个唯一性索引,唯一性索引并不一定就是主键。2、唯一性索引列允许空值,而主键列不允许为空值。3、主键列在创建时,已经默认为空值 + 唯一索引了。4、主键可以被其他表引用为外键,而唯一索引不能。5、一个表最多只能创建一个主键,但可以创建多个唯一索引。6、主键更适合那些不容易更改的唯一标识,如自动递增...原创 2019-03-26 17:27:47 · 12476 阅读 · 5 评论 -
python操作mysql
#!/usr/bin/env python# encoding: utf-8import pymysqlimport datetimeimport sysfrom warnings import filterwarningsfilterwarnings('ignore', category=pymysql.Warning) # 过滤掉Mysql的warnning信息# 封装...转载 2019-03-14 20:42:19 · 182 阅读 · 0 评论 -
python实现简易版本mapReduce
定义Cal类,通过map实现归类,reduce实现聚合。最后通过多线程演示了mapReduce计算过程。from threading import Threadclass Cal(object): def __init__(self, start, end): self.result = 0 self.start = start se...原创 2019-03-15 09:51:07 · 683 阅读 · 0 评论 -
hbase表创建hive关联表
hbase如果需要到hive里面查询的话,需要建立关联关系表才能在hive里面使用hql进行查询。# hbase表创建hive关联表CREATE EXTERNAL TABLE dw.adl_bd_ls_cardrat_p ( rowkey string, createtime string, grade string, score string) ROW FO...原创 2019-03-19 17:52:48 · 441 阅读 · 0 评论 -
kafka消息生产和消费(基于java脚本)
pom文件中添加:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>1.0.0原创 2019-03-15 19:14:16 · 514 阅读 · 0 评论 -
python操作elasticseach
#!/usr/bin/env pythonencoding: utf-8“”"@author: wanwei@license: © Copyright 2013-2017, Node Supply Chain Manager Corporation Limited.@contact:@software: pycharm@file: elasticsearch.py@time: 20...原创 2019-03-12 12:29:38 · 861 阅读 · 0 评论 -
hive load data使用总结,很好解决了insert插入中文数据后乱码问题
hive insert 中文数据乱码,如下:insert into dt.test_test PARTITION (ymd = '2018-12-03') values("name#certno","张三#532901199103131815","FINANCE_ORGANIZATION","AA00002","asdfasdf"原创 2019-03-12 17:15:29 · 6324 阅读 · 0 评论 -
使用Python构造hive insert语句
mysql可以使用nevicat导出insert语句用于数据构造,但是hive无法直接导出insert语句。我们可以先打印在hive命令行,然后使用脚本拼装成insert语句,进行数据构造。手动copy到python脚本进行sql语句构造:def transformString(s): list_s = s.split('\t') print(len(list_s)) ...原创 2019-03-21 12:24:06 · 2648 阅读 · 0 评论 -
推荐系统
随着互联网技术和社会化网络的发展,每天有大量包括博客,图片,视频,微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求,原因 有多种,可能是用户很难用合适的关键词来描述自己的需求,也可能用户需要更加符合他们兴趣和喜好的结果,又或是用户无法对自己未知而又可能感兴趣的信息做 出描述。推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。个性化推荐根据用户兴趣和行...转载 2019-03-13 16:39:32 · 269 阅读 · 0 评论 -
python3.5连接hive(impala)
环境python 3.5win 7一、按照以下顺序安装所需的包及版本:pip install pure-saslpip install thrift_sasl==0.2.1 --no-depspip install thrift==0.9.3pip install impylapip install thriftpy这里是引用二、安装完成之后 测试连接:--------...原创 2019-08-21 19:52:02 · 481 阅读 · 0 评论