- 博客(10)
- 收藏
- 关注
原创 Spark SQL-结构化数据文件处理
SparkSQL通过SparkSession入口对象提供的方法可从外部数据源如Parquent文件、JSON文件、RDDs、Hive表等加载数据为DataFrame,再通过DataFrame提供的API接口、DSL(领域特定语言)、spark-shell、 spark-sql或Thrift Server等方式对Data Frame数据进行查询、转换等操作,并将结果展现出来或使用save()、saveAsTable()方法将结果存储为不同格式的文件。即使没有部署好Hive,Spark SQL也可以运行。
2025-06-21 15:38:14
801
原创 Vue 应用规模化
Vite 是一种新兴的前端构建工具,特别适合于 Vue 项目的开发。按照提示输入项目名称、选择 Vue 作为模板等信息,即可创建一个基于 Vite 的 Vue 项目。例如,开发一个电商网站的前端,需要确定商品列表页、商品详情页、购物车页、结算页等页面的功能和布局。Vue CLI 支持丰富的插件,可以扩展项目的功能。在实例创建完成后被调用,此时实例已完成数据观测、属性和方法的运算等,但还未挂载到 DOM。项目创建完成后,会生成一个包含完整项目结构的目录,包括。在创建过程中选择合适的预设,完成项目创建。
2025-06-12 23:40:14
757
原创 爬取网站全部图像
由此可见,主线程启动子线程t后,tjoin(函数会等待线程t结束,在test()函数中再次启动子线程r,且rjoin()函数会阻塞线程t,线程r执行完毕后结束rjoin()函数,然后显示 test end,之后线程t结束,结束tjoin()函数后回到主线程,主线程显示The End后结束。一个比较好的解决方案是采用多线程程序,即为每个下载过程设计一个子线程,让下载图像与爬取文本数据分开,图像下载单独在子线程中执行,这样爬取过程会加快,用户体验会好很多。在t中启动前台子线程r、之后t结束,相应的r也结束。
2025-06-09 13:59:22
678
原创 ECharts简单绘图
ECharts提供了常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、treemap、旭日图,多维数据可视化的平行坐标,还有用于BI的漏斗图、仪表盘,并且支持图与图之间的混搭。
2024-11-30 20:32:10
953
原创 Hive数据仓库、MapReduce进阶编程
通过对MapReduce入门编程的学习,我们实现了对某竞赛网站每日访问次数的统计任务。2021年3月、网站运营商提出了新的需求,为了比较今年与去年同期的用户访问数据,要求分别统计出2021年1月与2月的用户访问次数,并输出到不同的目录中。对于网站运营商提出的新需求,本章将继续带领读者通过MapReduce编程实现。本章将逐步引入一些高级的编程技巧,使得整个编程过程更加高效。统计访问竞赛网站的次数情况,可以适时加强赛事的宣传,进一步激发青年学子敢于参赛、直面挑战的进取精神,青年强,则国家强。
2024-11-18 15:58:25
1309
1
原创 大数据分析与应用--随机森林算法的数据分析
随机森林随机森林概念:随机森林是用随机的方式建立一个森林,森林由很多的决策树组成,且每一棵决策树之间是没有关系的,如图。随机森林主要由决策树、集成算法购成。分裂:在决策树的训练过程中,需要一次次地将训练数据集分裂成两个数据集,这个过程就叫作分裂。特征:在分类问题中,需要到分类器中的数据叫作特征。待选特征、分裂特征:在决策树的构建过程中需要按照一定的次序从全部的特征中选取特征。待选特征就是在步骤之前还没有被选择的特征的集合
2024-10-30 10:42:29
1091
1
原创 检查与处理缺失值、标准化数据、数据可视化
有时数据中的某个或某些特征的值是不完整的,这些值称为缺失值。折线图的主要功能是查看因变量y随着自变量x改变的趋势,适合用于显示随时间(根据常用比例设置)而变化的连续数据,同时还可以显示数量的差异和增长趋势的变化。散点图(Scatter Diagram)又称为散点分布图,是以一个特征为横坐标,以另一个特征为纵坐标,利用坐标点(散点)的分布形态反映这两个特征间的统计关系的一种图形。如果有3个特征,且其中一个特征为类别型特征,散点图可改变该特征的点的形状或颜色,即可了解两个数值型特征和这个类别型特征之间的关系。
2024-06-19 11:41:06
523
原创 部署分片集群
在单机环境下,高频率的查询会给服务器 CPU 和 I/O 带来巨大的负担,基于这个原因,MongoDB 提供了分片机制用于解决大数据集的分布式部署,从而提高系统的吞吐量。
2024-06-16 20:01:16
1810
原创 部署分片集群、部署config server、技能提取redis-cli操作Redis。
每个分片都应该安装MongoDB实例,需要将bin文件复制到每个分片中,并创建data文件以及log文件存放数据库数据和日志数据。
2024-04-16 21:16:52
1298
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人