- 博客(177)
- 收藏
- 关注
原创 大数据Hadoop之——Flink1.17.0安装与使用(非常详细)
Flink安装部署指南摘要:本文详细介绍了Flink的本地和集群安装配置流程。首先进行系统环境准备,包括网络配置、主机名设置、防火墙关闭等;然后安装JDK(注意版本兼容性,1.17+需JDK11);接着分步骤完成Flink本地安装(下载解压、环境变量配置、启动验证)。对于集群部署,说明Standalone模式的搭建方法(修改配置文件、分发文件、启动集群)和HA高可用方案(基于Zookeeper实现故障转移)。文档包含完整的命令操作示例,并强调版本兼容性问题,最后通过WordCount示例验证集群运行状态。
2025-07-06 20:48:06
1043
原创 大数据Hadoop之——Hbase下载安装部署
解决HBase和Hadoop的log4j兼容性(冲突)问题,修改HBase的jar包,使用Hadoop的jar包。
2025-07-02 13:36:01
429
原创 Hadoop大数据-Mysql的数据同步工具Maxwell安装与使用( 详解)
在my.cnf配置中可以找到。Mysql的二进制日志(Binlog)是MySQL服务端非常重要的一种日志,它会保存MySQL数据库的所有数据变更记录。binlog文件是以二进制形式存在的, binlog在达到一定阈值的时候,都会创建一个新的文件,例如binlog.000002。(2)读写分离:主数据库只负责业务数据的写入操作,而多个从数据库只负责业务数据的查询工作,在读多写少场景下,可以提高数据库工作效率。MySQL的主从复制,就是用来建立一个和主数据库完全一样的数据库环境,这个数据库称为从数据库。
2025-07-01 19:07:41
255
原创 大数据Hadoop之——Flume安装与使用(详细)
(2)下载地址:http://archive.apache.org/dist/flume/Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。
2025-06-29 20:12:48
784
原创 大数据Hadoop之——安装部署hadoop
vi /etc/sysconfig/network-scripts/ifcfg-ens32 ---- 根据自己网卡设置。-- 设置secondname的端口,如果是完全分布式的集群模式,则改为hadoop003 -->-- 设置 MapReduce 应用程序的执行框架为 YARN 即 MR运行的资源调度模式--->-- 设置secondname的端口,完全分布式的集群模式,改为hadoop003 -->-- 设为 true,YARN 会在容器超出其申请的物理内存时终止它 -->
2025-06-29 14:36:50
1161
原创 Kafka的下载安装
Kafka 是基于 Java 的,必须先安装 JDK。 此次我们以 kafka_2.12-3.3.1.tgz 即 Kafka3.3.1 为案例,安装jdk1.8。⚠️ 注意:Kafka 3.9.0 要求本地必须安装 JDK 17 或以上版本。JDK 8 和 11 已不再被官方支持。 vi /etc/sysconfig/network-scripts/ifcfg-ens32 ---- 根据自己网卡设置。vi /etc/hosts 创建数据存储目录和日志目录 配置服务器编号
2025-06-29 09:21:18
651
原创 Java的JDK的安装
重命名,方便配置环境变量,避免更换jdk版本修改配置文件。✅ 几乎所有 Linux/Unix 系统都有。在/opt/model中上传jdk包并解压。Ubuntu、CentOS、macOS 等。✅ CentOS/RHEL 系统使用。#此处是自己实际的Java安装路径。✅ 用户级 shell 配置。所有支持 Bash 的系统。✅ Ubuntu 默认生成。所有支持 Bash 的系统。✅ Ubuntu 使用。
2025-06-28 09:55:36
270
原创 大数据Hadoop之-Zookeeper的下载安装
Zookeeper是一个开源的分布式服务,是Hadoop下的一个子项目,提供了优秀的分布式一致性的解决方案。Zookeeper的主要功能包括:配置管理、名字服务、分布式锁和集群管理等功能,来统筹分布式场景下的应用服务。Zookeeper官网:https://Zookeeper.apache.org/
2025-06-28 09:53:51
344
原创 预留:大数据Hadoop之——部署hadoop+hive+Mysql环境(Linux)
注意:默认情况下,GBLIC版本的数据库要求安装到/usr/local/mysql目录,其mysql.server脚本中对应的目录也是/usr/local/mysql,这会导致mysql无法启动。#例如: rm -rf /etc/selinux/targeted/active/modules/100/mysql # rm -rf /var/lib/mysql。vi /etc/syscnfig/network-scripts/ifcfg-eth1 ---- 根据自己网卡设置。
2025-02-15 23:54:38
1433
6
原创 AutoGen实战应用
1.什么是Agent?2.Agent和大模型的关系1.大模型本质就是一个很大的深度学习模型(理解数据特征)模型只具备感知层能力,无逻辑判断能力大模型数据非常大,文本过大,训练出现交叠,出现幻觉用户提问包含较复杂的逻辑时候,大模型无法给到满意答复,因为无法判断。在大模型架构中接入Agent来进行判断,来解决幻觉问题。用户提出需求后,交给中间的代理 Agent,Agent分解用户需求,指定需求分解后新的标准,
2025-02-10 22:50:44
827
原创 Win+安装Ollama+本地Deepseek-R1+Cherrystudio使用
本文主要介绍 win 本地安装 Ollama ,本地部署 Ollama 的 deepseek-r1:7b 大模型,使用具有界面画操作的工具 Cherrystudio进行操作。文章内容仅供参考。 Ollama 是一个开源的框架,旨在本地运行大型语言模型(LLM)。它提供了一个简洁且用户友好的命令行界面,使得用户可以轻松部署和管理各种开源的大型语言模型。
2025-02-07 22:03:53
5852
3
原创 Langchain+文心一言调用
在“我的应用”中查看申请的应用,找到"APPID","APISecret","APIKey"调用模型api,使用tokens。选择自己想要的应用,获取key。文新一言的key值申请。
2025-01-23 22:30:25
1302
原创 Python+langchain+通义千问qwen(大模型实现自己的聊天机器人)
langchain是一个用于开发由语言模型驱动的应用程序的框架,致力于简化AI模型应用的开发。简单来说,langchain就是一个(帮助开发者轻松完成AI模型应用开发的)框架,现在支持python和js两个版本,它集成多种大语言模型及第三方API。是调节文本多样性的,让回答更加丰富,为0时就会更加准确,大于0回答的就会带有llm的思维回答(可能会胡编乱造)就是回答内容了,回答的一个字典包含了question和text。搜索灵积模型服务,开通服务,点击立即开通。进入产品控制台,创建api-key。
2025-01-23 14:16:06
672
原创 超详细 CUDA 安装与卸载过程(图文教程)
通过查看,电脑的显卡配置为NVIDIA,Cuda最高版本是12.0,因此Cuda需要安装12.0或12.0以下版本。查看显卡是否是英伟达,如果是英伟达,则可以进行安装Cuda,否则不能安装Cuda。查看显卡大小,可以通过任务管理器查看,到性能中找gpu,发现显卡大小是8G。在dos创建输入命令:nvidia-smi。win+r 进入命令行,输入cmd。
2024-12-25 23:25:38
35884
5
原创 运维面试汇总
如何设计和实现一个 Jenkins Pipeline,以支持多阶段构建、测试和部署流程。Prometheus的拉取模式与zabbix推送模式有何区别?Argo CD中自动同步(Auto-sync)和手动同步的区别与应用场景。Python中的列表和字典是如何实现的?ReplicaSet、Deployment功能是怎么实现的?什么是进程最大数、最大线程数、进程打开的文件数,怎么调整☆。Jenkins pipeline有几种模式,区别是什么?Jenkins Master和Slave是如何协同工作的。
2024-10-28 17:12:41
727
原创 运维工程师面试题
36、已知 apache 服务的访问日志按天记录在服务器本地目录/app/logs下,由于磁盘空间紧张现在要求只能保留最近7天的访问日志!请给出解决办法或配置或处理命令?22、使用tcpdump监听主机为192.168.1.1,tcp端口为8 0的数据,同时将输出结果保存输出到tcpdump.log。35、写一个脚本,实现判断192.168.1.0/24网络里,当前在线的IP有哪些,能ping通则认为在线?144.简述 Kubernetes 中,如何使用 EFK 实现日志的统一管理?
2024-10-28 17:09:14
1676
原创 Linux运维大厂面经
持续集成是一种软件开发实践,开发人员频繁地将代码合并到共享仓库中。每次合并后,自动运行测试,以确保新代码的引入不会导致错误。持续部署是自动将应用从开发阶段移至生产阶段的过程,确保软件的快速、自动化部署。容器化是一种虚拟化技术,允许在隔离的环境中运行和部署应用,而不依赖于底层操作系统。Docker是一个流行的容器化平台,它使用容器来打包应用及其依赖项,使得应用能够在任何支持Docker的环境中运行。GitOps是一种实现DevOps实践的方法,它使用Git作为真理的唯一来源。
2024-10-28 17:06:13
908
原创 操作系统八股文面经总结(含答案)
进程本质上是“运行中的程序”,单纯的程序只是保存在磁盘中的一段代码,是静态的,而进程是运行中的代码,是动态的,除了需要保存这段代码外,还需要将进程运行的当前状态,所需资源等信息保存到进程控制块中,操作系统为了管理进程设计的数据结构叫进程控制块,里面存的字段可以分成进程标识符、处理机状态(进程当前运行到什么时候什么状态的一些信息)、进程调度信息、进程控制信息。分页系统中,访问数据需要两次访问内存,第一次访问的是内存中的页表,根据页号和页内偏移量查找并计算出实际物理地址,第二次根据物理地址访问内存取数据。
2024-10-28 17:04:28
1067
原创 Docker的常用命令
tVolume:数据卷的位置--- /var/lib/docker/volume/tVolume。docker save -o /root/tomcat.tar tomcat 保存。docker load -i /root/tomcat.tar 加载。docker commit -m "提交镜像" tomcat 提交。docker run -d tomcat 后台启动。docker ps -a 所有的包含停止的和运行的。docker ps 正在运行的。
2024-09-29 08:51:07
753
原创 工作中rpm最常用命令
1. rpm -ivh package.rpm :安装一个新的软件包,其中 "-i" 代表安装,"-v" 表示显示详细信息,"-h" 显示进度条。10. yum install package_name :使用 Yum 包管理器安装软件包,其中 "install" 为安装命令。2. rpm -Uvh package.rpm :升级一个已有的软件包,其中 "-U" 代表升级,其余参数与上述相同。3. rpm -e package_name :删除一个软件包,其中 "-e" 代表卸载。
2024-09-23 08:43:33
381
原创 混淆矩阵、准确率、精准率、召回率
所有被判断为好水果的个数中,实际所有好水果的个数占比: 50 / 55 = TP / ( TP + FP ) =精准率。实际所有好水果总数中被判断为好水果个数占比:50 / 60 = TP / ( TP + FN ) = 召回率。坏: 40 个 = 5个被判断为好水果 + 15个被判断为坏水果。好 :60 个 = 50 个被判断为好水果 + 10 个被判断为坏水果。判断水果是好水果还是坏水果。实际所有好水果总数中被判断为好水果个数:TP = 50。
2024-07-13 13:42:55
244
原创 深度学习中Transformer的注意力机制底层实现原理(超详细)
学习Transformer之前我们先看一下作者论文中的模型,如下图所示:本章内容主要是自己学习笔记,在学习过程中总结和整理,希望对各位有所帮助。本章学习从基础模型 Transformer 拆解,分析整个 Transformer 架构用到哪些模块,再把整个 Transformer 拼接起来。同时,图中的位置编码、矩形 和 Nx又是什么?这些模块又如何搭建起来呢?当真的有一个任务,又如何使用和完成的?例如在翻译任务中 Transformer 是如何完成的?
2024-04-27 20:26:40
4051
原创 Pascal VOC(VOC 2012、VOC 2007) 数据集的简介
PascalVOC(2005~2012)数据集是PASCAL VOC挑战官方使用的数据集。该数据集包含20类的物体。每张图片都有标注,标注的物体包括人、动物(如猫、狗、岛等)、交通工具(如车、船飞机等)、家具(如椅子、桌子、沙发等)在内的20个类别。每个图像平均有2.4个目标,所有的标注图片都有目标检测需要的标签。VOC2007 与 VOC2012VOC2007:包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。
2024-04-17 20:28:56
5097
原创 经典目标检测YOLOV1理论基础的编码实现(通过编码理解原理)
首先了解数据集,对数据集了解后方便对数据进行相应处理。定义编码器主要目的是用于将边界框(归一化后的边界框信息)和标签编码为目标张量。在utils目录下创建工具类 yolo_dataset.py,中定义主函数进行测试,包含设置和加载一个自定义的Yolo_Dataset数据集,该数据集来源于VOC2012的JPEGImages文件夹。代码中首先导入了必要的模块和类,然后定义了数据集的根目录和预处理操作。接着,创建了一个Yolo_Dataset对象,并通过DataLoader类将其加载为可迭代的数据集。
2024-04-17 18:49:34
575
原创 【目标检测】YOLO系列-YOLOv1 理论基础 通俗易懂
为方便大家理解YOLO的原理,这里将YOLOv1的部分内容基础内容进行用比较直白的话和例子进行阐述,为后续大家学习YOLO作为铺垫。1、模型所干的活工作中,大家经常将 Word 文档 上传到某转换器,然后转换输出为PDF文档。目标检测中我们想做的事也类似,就是输入一张图,输出一张带有框(标注对应的物体)的图片。如下图所示:问题:这个框是如何还出来的呢?通过模型画出来的,这模型就相当于 word到pdf的转换器。如下图:进一步理解,需要不断调试,不断计算损失,看看在哪个位置画框最合适。
2024-04-17 12:02:43
1090
原创 机器学习-关联规则算法Apriori及编码实现
lift(X→Y)=confidence(X→Y)/P(Y),表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。confidence(X→Y)=|X交Y|/|X|,集合X与集合Y同时出现的总次数/集合X出现的记录数。support(X→Y)=|X交Y|/N,表示物品集X和Y同时出现的次数占总记录数的比例。-- TID是交易编号,表示一次购物交易的唯一标识,即用户购买的一次记录。项集:项的集合,包含k个项的项集称为k项集,例如上面。中的占比,例如 A表示手机,B表示手表,手机和手表。
2024-03-31 15:46:27
606
原创 Linux虚拟机环境搭建spark
Linux环境搭建Spark分为两个版本,分别是Scala版本和Python版本。本环境以 Python 环境为例。
2024-03-27 13:37:21
1801
原创 Python3.8安装--虚拟机 Linux 环境安装(超详细)
输入下面网址即可直接下载:补充:本环境选择版本是3.8版本,最好以root身份登录,避免不必要的麻烦。
2024-03-27 10:49:06
16170
2
原创 协同过滤前置条件
集体智慧是一种共享或群体的智能,它通过结合多个人的知识、数据、技能和智力,协同解决社会问题。在移动互联网时代,集体智慧在Web应用中发挥着重要作用,表现为群体决策、众包、在线知识社区等多种形式。集体智慧的特征在于一致和协调的集体思考,对问题的集体解决能力,以及通过共享知识和资源优化决策。其应用广泛,包括谷歌搜索算法、社交网络服务、众包等领域,共同构建和优化用户体验。
2024-03-23 23:57:50
285
原创 常用相似度计算方法总总结
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。0.0-0.2 极弱相关或无相关。相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。相关系数 0.8-1.0 极强相关。(1)、当相关系数为0时,X和Y两变量无关系。
2024-03-23 22:36:55
2362
原创 机器学习K-means算法
其次我们要先确定红豆、绿豆、黑米、大米、花生、莲子、花豆各自的中心点,以各自的中心点进行抓取,这样分堆对快。例如下图中,红色中心点是大米区域的中心点,以这个为中心,距离这个中心点近的大米比较多。你的回答会慢一些,因为你会看一下,想一会再分一下类(红豆、绿豆、黑米、大米、花生、莲子、花豆)最后再回答。那么问题来了,让你将图2 中的五谷杂粮像图1中一样分好堆,需要分几堆呢?给你如下两种图片,快读回答2个问题,问 图1 中有几类五谷杂粮?问题2 回答慢的原因是 图中未进行分类,需要自己进行分类。
2024-03-23 17:36:49
837
原创 HarmonyOS系统开发ArkTS常用组件弹窗及参数(十)
弹窗是移动应用中常见的一种用户界面元素,常用于显示一些重要的信息、提示用户进行操作或收集用户输入。ArkTS提供了多种内置的弹窗供开发者使用,除此之外还支持自定义弹窗,来满足各种不同的需求。
2024-03-20 12:04:51
5152
原创 HarmonyOS系统开发ArkTS常用组件切换按钮及参数(七)
Toggle组件的参数:Toggle(options: { type: ToggleType, isOn?: boolean })Toggle为切换按钮组件,一般用于两种状态之间的切换,例如下图中的蓝牙开关。
2024-03-20 10:17:08
806
原创 HarmonyOS系统开发ArkTS常用组件按钮及参数(六)
Button组件有两种使用方式,分别是不包含子组件和包含子组件两种方式。不同方式Button 组件所需的参数有所不同。: { type?ButtonType.Capsule 胶囊形状ButtonType.Circle 圆形ButtonType.Normal 普通形状。
2024-03-20 10:05:31
1611
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人