自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人在天涯

拂风

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark 修改task占用cpu核数

spark task

2023-01-13 16:02:28 275

原创 本地开发环境搭建

开发环境安装安装jdk, 配置环境变量cmd–> java -version参考文档:https://www.cnblogs.com/evolve/archive/2019/11/11/11837869.html安装scala, 配置相关的环境变量cmd–> scala参考文档:https://www.cnblogs.com/ahu-lichang/p/7197961.html安装maven, 配置相关环境变量,替换setting.xmlcmd–> mvn -v参考文档

2021-06-17 10:21:14 314

原创 spark做时间序列预测

最近在用spark做时间序列的预测,主要实践了arima和holtwinters(三次指数平滑)两种方式,时间也不早了,急着回家,直接记录代码吧。`import java.sql.Timestampimport java.time.{ZoneId, ZonedDateTime}import com.cloudera.sparkts._import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport...

2020-12-17 22:00:42 2551 4

原创 逐行处理多个文件夹下的多个文件

java逐行处理多个文件夹下的多个文件,代码如下:public class DealQCResultn { public static void main(String[] args) throws Exception{ String path = "F:\\20191024\\1025"; //文件夹列表 String[] pthLst = new File(path).list(); String writeFile = "F:

2020-10-19 15:44:51 151

转载 idea下载源码解决办法

下载源码出现:Decompiled .class file ,右下角出现Cannot download sources Sources not found for: xxx 解决办法: 在对应项目pom.xml所在目录下执行以下命令: mvn dependency:resolve -Dclassifier=sources 执行过程截图: 选择对应的源码包: 即解决问题 转载:h...

2020-09-25 16:51:19 3463

转载 如何转载别人的博客

在参考“如何快速转载CSDN中的博客”后,由于自己不懂...

2020-08-17 16:39:34 256

原创 spark机器学习ml库做预测

最近用spark的ml库做了随机森林和gbdt的预测,对北京二手房租房房价进行预测,数据格式如下:北京二手房数据

2020-08-05 17:50:07 1273

原创 linux命令总结

查看hdfs文件路径:hdfs dfs -ls /user/lbi/lrg本地文件上传至hdfs系统:hdfs dfs -put /data/lbi/ly/lianjia.csv /user/lbi/lrg

2020-07-29 11:22:34 126

原创 python数据分析初探

本文对北京二手房数据进行探索性分析,主要熟悉用python进行数据分析的操作,对入门级的读者可以有个参考。# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltfrom IPython.display import displayplt.style.use("fivethirtyeight")

2020-07-28 16:40:15 177

原创 常用开发网站

1、掘金大佬很多,回答也比较专业,和CSDN一样比较专注图文。传送门:https://juejin.im/2、美团技术博客美团是什么就不用多说了吧,涉及领域全面(前端、后台、系统、算法、测试、运维等)。都是大佬写的,比较硬核,小白的我看的一脸懵逼。传送门:https://tech.meituan.com/3、并发编程网就字面意思,专注并发编程一百年,虽然现在也开始迎合受众增加其他板块了传送门:http://ifeve.com/4、InfoQ一个IT领域杂谈新闻类聚集地,没事看看可以和别人

2020-06-27 17:50:18 257

原创 关系型数据库锁表原理及解决方法

锁表原理:1、锁表发生在insert update 、delete 中2、锁表的原理是 数据库使用独占式封锁机制,当执行上面的语句时,对表进行锁住,直到发生commite 或者 回滚 或者退出数据库用户3、锁表的原因第一、 A程序执行了对 tableA 的 insert ,并还未 commit时,B程序也对tableA 进行insert 则此时会发生资源正忙的异常 就是锁表第二、锁表常...

2020-01-20 10:50:20 729

原创 hbase并发插入之checkAndPut

最近在写spark程序的时候遇到了hbase并发插入的问题,用sparkstreaming来接收kafka的数据,由于数据量较大,我用spark的executer端去并行插入hbase,结果发现有些数据没插进去,经过排查之后,发现是同一个批次中行键相同的数据,这些数据只能插入一部分或者都能插入,这里面存在一定的概率问题,原因就是不同的executer端会反复读写这些行键相同的数据行,导致数据不满足...

2020-01-02 20:18:41 1688 1

原创 pg删除索引遇到的坑

正常我们在删除索引的时候会报如下错误,然后只需要设置索引路径就okset search_path=bi_dpa;

2019-12-26 15:22:23 1450

原创 put与putIfAbsent区别

put在放入数据时,如果放入数据的key已经存在与Map中,最后放入的数据会覆盖之前存在的数据,而putIfAbsent在放入数据时,如果存在重复的key,那么putIfAbsent不会放入值。putIfAbsent 如果传入key对应的value已经存在,就返回存在的value,不进行替换。如果不存在,就添加key和value,返回null...

2019-11-22 15:56:40 864

原创 按行本地写入文件

按行本地写入文件

2019-11-22 15:45:21 241

python爬虫发邮件示例demo

python爬虫发邮件示例demo,亲自在本地跑过的,都能正常运行,有问题可以私聊我,算是python入门学习吧

2020-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除