自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 最新【开卷数据结构 】图的五大存储方式_图的存储(2),2024年最新2024年阿里大数据开发岗面试必问

对于带权图来说,若顶点 Vi​ 和 Vj​ 之间有边相连,则邻接矩阵中对应项存放着该边对应的权值。

2024-05-16 07:42:08 1018

原创 最新【学习挑战赛】经典算法之直接选择排序_直接排序算法流程图,2024年最新2024大数据开发春招

log2n) 和 O(

2024-05-16 07:41:35 488

原创 最新【大数据面试题大全】大数据真实面试题(持续更新),大数据开发开发还会吃香吗

Flink 是一个分布式的流式数据的处理引擎,对于有界和无界数据进行状态计算,提供了很多便于用户编写分布式任务的 API,有 DataSetAPI,但是新版本中已经被舍弃了,即将淘汰了,现在用的是 DataStreamAPI,还有一些 TbaleAPI,但是做的并不是十分完善,比起 SqarkSQL 还是有很大的差距,Flink 里面还提供了容错机制,FlinkCEP实时预警等功能。依赖性:RDD之间有依赖关系。计算位置:RDD会自己选择最佳的计算位置,可以避免数据移动带来的开销。

2024-05-16 07:41:02 1521

原创 最新【大数据】【Spark】Spark运行架构_spark大数据框架(3),美团大数据开发研发岗二面

➢ 通过 UI 展示查询运行情况实际上,无法准确地描述 Driver 的定义,因为在整个的编程过程中没有看到任何有关Driver 的字眼。所以简单理解,所谓的 Driver 就是驱使整个应用运行起来的程序,也称之为Driver 类。

2024-05-16 07:40:28 715

原创 师兄面试遇到面试官的 Kafka 暴击三连问,快面哭了!_kafka大厂面试题(1)

关于存在硬盘中的消息,Kafka 也有它的解决方法,可以基于时间和 Partition 文件的大小,正常 Kafka 是默认七天的保存,也可以通过命令来修改,以 users topic 为例。作为一个消息系统,不可避免的便是消息的拷贝,常规的操作,一条消息,需要从创建者的socket到应用,再到操作系统内核,然后才能落盘。Kafka 把所有的消息都存放在一个一个的文件中,当消费者需要数据的时候 Kafka 直接把文件发送给消费者,配合 mmap 作为文件读写方式,直接把它传给 Sendfile。

2024-05-15 22:54:44 979

原创 工作记录之ORacleSQL报错 oracle ORA-01476 divisor is equal to zero_oracle01476什么异常

com.alibaba.datax.common.exception.DataXException: Code:[Framework-14], Description:[DataX传输脏数据超过用户预期,该错误通常是由于源端数据存在较多业务脏数据导致,请仔细检查DataX汇报的脏数据日志信息, 或者您可以适当调大脏数据阈值 .]. - 脏数据条数检查不通过,限制是[0]条,但实际上捕获了[42]条.主键不一致,须联系数据中心修改。

2024-05-15 22:54:11 733

原创 工作记录之ORacleSQL报错 oracle ORA-01476 divisor is equal to zero_oracle01476什么异常(1)

com.alibaba.datax.common.exception.DataXException: Code:[Framework-14], Description:[DataX传输脏数据超过用户预期,该错误通常是由于源端数据存在较多业务脏数据导致,请仔细检查DataX汇报的脏数据日志信息, 或者您可以适当调大脏数据阈值 .]. - 脏数据条数检查不通过,限制是[0]条,但实际上捕获了[42]条.主键不一致,须联系数据中心修改。

2024-05-15 22:53:38 562

原创 工作总结之因为笛卡尔积问题写SQL搞了半天[害](附笛卡尔积总结)_笛卡尔积sql

在关系数据库中,一个查询往往会涉及多个表,因为很少有数据库只有一个表,而如果大多查询只涉及到一个表的,那么那个表也往往低于第三范式,存在大量冗余和异常。因此,连接(Join)就是一种把多个表连接成一个表的重要手段.比如简单两个表连接学生表(Student)和班级(Class)表,如图:笛卡尔积笛卡尔积在SQL中的实现方式既是交叉连接(Cross Join)。所有连接方式都会先生成临时笛卡尔积表,笛卡尔积是关系代数里的一个概念,表示两个表中的每一行数据任意组合,上图中两个表连接即为笛卡尔积(交叉连接)

2024-05-15 22:53:05 668

原创 大数据最全git 安装、创建仓库、常用命令、克隆下载、上传项目,渣本大数据开发开发小伙如何一步步成为架构师

2、没有账号的先自行注册,登录进去后点击加号,创建一个仓库3、主要是对仓库进行命名,注意命名的规范性4、仓库创建成功如下图所示注意该HTTPS在后期会经常用到,直接复制即可。

2024-05-15 12:16:06 338

原创 大数据最全GaussDB数据类型介绍_gausedb(3),2024年最新大数据开发高级开发面试

在进行字段设计时,需要根据数据特征选择相应的数据类型。字符串类型在使用时比较容易混淆,下表罗列了GaussDB中常见的字符串类型。1)常用字符串类型2)示例--创建表。--插入数据。--插入的数据长度超过类型规定的长度报错。--明确类型的长度,超过数据类型长度后会自动截断。--查询数据。

2024-05-15 12:15:30 525

原创 大数据最全GaussDB数据类型介绍_gausedb(2),跟大数据开发初学者分享几点经验

创建具有TINYINT,INTEGER,BIGINT类型数据的表。–明确类型的长度,超过数据类型长度后会自动截断。–插入的数据长度超过类型规定的长度报错。

2024-05-15 12:14:54 563

原创 大数据最全GaussDB数据类型介绍_gausedb(1),大数据开发面试宝典pdf

2)示例。

2024-05-15 12:14:18 518

原创 【数据库】01——精通数据库需要掌握这九个维度_数据库要掌握哪些技术(2)

数据库管理系统就是由互相关联的数据集合和一组用于访问这些数据的程序组成,简称数据库。即,数据库=数据+程序。数据库的目标就是方便、高效、安全的存储、管理数据信息。数据库的定义语言DDL与数据库的操作语言DML都是数据库系统的操作语言,他们都是SQL语言的一部分,关系型数据库几乎都使用SQL语言。数据定义语言DDL用来进行数据存储和定义。域约束。如,整数型、字符型、日期、时间等。引用完整性。一个course中记录的dept_name必须出现在department关系中某个记录的dept_name属性中。

2024-05-15 03:37:23 705

原创 【数据库】01——精通数据库需要掌握这九个维度_数据库要掌握哪些技术(1)

数据库的定义语言DDL与数据库的操作语言DML都是数据库系统的操作语言,他们都是SQL语言的一部分,关系型数据库几乎都使用SQL语言。数据定义语言DDL用来进行数据存储和定义。域约束。如,整数型、字符型、日期、时间等。引用完整性。一个course中记录的dept_name必须出现在department关系中某个记录的dept_name属性中。授权。不同的用户在数据库中的不同数据值上允许不同的访问类型。常见的是,读权限,插入权限、更新权限、删除权限。DDL的输出会被放在数据字典中,数据字典也包含。

2024-05-15 03:36:47 723

原创 【数据库04】中级开发需要掌握哪些SQL进阶玩法_sql开发对数据库概论有要求吗

创建视图语法是。create view v as ;考虑需要访问instrutor除了salary外的所有数据的职员。视图在概念上包含查询结果中的元组,但是不进行预计算和存储。我通俗的理解成,创建视图是创建了一个规则,使用视图时再根据规则进行计算。

2024-05-15 03:36:11 890

原创 【数据分析之道-基础知识(八)】循环语句_python重复运行代码直到某个条件

Python中常见的循环语句有for循环和while循环。循环语句的作用是重复执行一段代码,直到满足特定的条件为止。

2024-05-15 03:35:34 584

原创 Python-Matplotlib可视化(番外篇)——Matplotlib中的事件处理详解与实战_canvas

guiEvent | 触发 Matplotlib 事件的GUI事件 |我们以事件处理中最常见的事件按键按下/释放事件和为例,利用事件属性。

2024-05-14 18:15:53 799

原创 Python-Matplotlib可视化(番外篇)——Matplotlib中的事件处理详解与实战_canvas(3)

— | — || name | 事件名 || canvas | FigureCanvas 实例生成事件 || guiEvent | 触发 Matplotlib 事件的GUI事件 |我们以事件处理中最常见的事件按键按下/释放事件和为例,利用事件属性。处理这些事件的KeyEvent和MouseEvent类都是从为了对比属性xy和xdataydata的区别,使用以下程序进行说明,此程序会在鼠标单击时,在画布上显示鼠标事件的xyxdata、和ydata。

2024-05-14 18:15:17 935

原创 Python-Matplotlib可视化(番外篇)——Matplotlib中的事件处理详解与实战_canvas(2)

方法返回该事件的连接id,此id可以使用Matplotlib连接更多事件,具体参见,在此不在一一列举。需要注意的是,连接到“”和“”事件时,Matplotlib使用不同用户界面工具包之间可能会出现不一致。可以通过查看,可以看到Matplotlib默认附加了一些按键回调。

2024-05-14 18:14:40 848

原创 Python-Matplotlib可视化(番外篇)——Matplotlib中的事件处理详解与实战_canvas(1)

方法返回该事件的连接id,此id可以使用Matplotlib连接更多事件,具体参见,在此不在一一列举。需要注意的是,连接到“”和“”事件时,Matplotlib使用不同用户界面工具包之间可能会出现不一致。可以通过查看,可以看到Matplotlib默认附加了一些按键回调。

2024-05-14 18:14:03 1015

原创 2024年最新OpenStack手动分布式部署Nova【Queens版】_openstack queen,2024年最新刚从阿里、头条面试回来

nova组件是用来建虚拟机的(功能:负责响应虚拟机创建请求、调度、销毁云主机)(1).nova api service------安装在controller节点:接受和相应客户端发送的请求,nova-api负责接收和响应终端用户由管虚拟机和云硬盘的请求。就是说我想在openstack中创建个虚拟机(创建虚拟机最终在nova中完成),我发出的请求就被nova-api接收并发送到nova中去,然后在进行下一步具体操作,nova-api是整个nova的入口。

2024-05-14 09:37:11 682

原创 2024年最新OpenStack手动分布式部署Nova【Queens版】_openstack queen(1),含泪狂刷大数据开发基础面试118题

#由于软件包的一个bug在/etc/httpd/conf.d/00-nova-placement-api.conf文件中添加如下配置。

2024-05-14 09:36:35 356

原创 2024年最新openCV实战项目--人脸考勤_javaopencv人脸识别考勤(2),2024年最新作为程序员一定不要仅仅追求物质

这里与上面流程相似,不过是加了一个对比功能,距离小于阈值,则表示匹配成功。(这里我默认是faceCount=3,Interval=3,即每3秒采集一次,共3次)这里加入了注册成功等的提示,且把一些变量放到了全局,因为后面人脸识别打卡时也会用到。之后,我们根据参数,即faceCount 和 Interval 进行。

2024-05-14 09:35:59 574

原创 2024年最新OpenCV4机器学习(三):颜色空间(RGB,大数据开发面试基础问题

这样规定是根据人类的视觉原理,灵长类动物的视觉都有两条通道:红绿通道和蓝黄通道,大多数动物最多只有一条通道,如果有人缺失其中一条,就是我们所说的色盲。Lab模式对于PS极为重要,它是PS从一种颜色模式转换到另一种颜色模式的内部转化方式,PS从一种颜色模式转换到另一种颜色模式时,总是先转换到Lab模式。Lab色域是所有颜色模式中最宽广的,它囊括了RGB和CMYK的色域。

2024-05-14 09:35:23 472

原创 2024年大数据最新大数据Python基础之DataFrame数据结构学习_dd = pd(2),35岁技术人如何转型做管理

DataFrame包含了已排序的列集合,每一列可以是不同的值类型(数值/字符串/布尔值等)。DataFrame可以理解为一个共享相同索引的Series的字典,DataFrame既有行索引index,也有列索引colums。,列名为属性,如df.name(列名是有效的Python变量名)。如df.loc[1],其索引的名字即为当前行的列索引“1”,索引名为各列的名字。选择一列:类似字典的标记,如df。利用嵌套字典构建DataFrame时,Pandas将字典的键作为列索引,将内部字典的键进行行索引。

2024-05-14 00:58:20 433

原创 2024年大数据最新大数据HDFS集群运维之小文件统计_hdfs hive 目录大小统计,2024年最新2024大数据开发最新大厂面试真题

随着公司集群规模越来越大,数据增长越来越快,文件Size比HDFS的Block Size(默认128MB)小的多的文件,小文件治理也迫在眉睫。目前采用离线分析Namenode元数据的方式进行统计分析。提示:以下是本篇文章正文内容,下面案例可供参考。

2024-05-14 00:57:44 475

原创 2024年大数据最新大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包),2024年最新大数据开发最牛教材

XML可扩展标记语言eXtensible MarkupLanguage,由W3C组织发布,目前推荐遵守的是W3C组织于2000年发布的XML1.0规范。XML用来传输和存储数据,就是以一个统一的格式,组织有关系的数据,为不同平台下的应用程序服务。

2024-05-14 00:57:08 1430

原创 2024年大数据最新多标签用户画像分析跑得快的关键在哪里?_用户画像做的很快(1),靠着这份900多页的PDF面试整理

其中,dName的取值范围在选项表dim中。对替换后的新数据做 IN 判断时,先要生成一个与列表等长的布尔值集合,其第 i 个值由列表的第 i 个成员是否在 IN 字段的值集合中决定,在其中就是true,不在就是false。遍历时,用 IN 字段值(列表的序号)去取布尔值集合中的成员,是true就符合过滤条件,否则就不符合。如果用整数的二进制位来存储二值标签(0,1 各代表一个取值),那么 16 位短整数就能存 16 个标签,100 个整型字段就能存 1600 个标签,可以有效减少字段数量,避免大表连接。

2024-05-14 00:56:32 1086

原创 这8个Python小细节,让你在大数据领域事半功倍_python 大数据领域 特点(2)

具体来说, map() 函数接收一个列表,和一个函数,它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。获取 Pandas 数据表对象的 shape 属性,你将获得一个元组,元组的第一个元素是数据表的行数,第二个元素是数据表的列数。所以对于 axis 参数,0 就是前面的行数,1 就是后面的列数,怎么样,好记吧?而 filter() 函数略有不同,它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。

2024-05-12 21:52:26 362

原创 这8个Python小细节,让你在大数据领域事半功倍_python 大数据领域 特点(1)

具体来说, map() 函数接收一个列表,和一个函数,它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。获取 Pandas 数据表对象的 shape 属性,你将获得一个元组,元组的第一个元素是数据表的行数,第二个元素是数据表的列数。所以对于 axis 参数,0 就是前面的行数,1 就是后面的列数,怎么样,好记吧?而 filter() 函数略有不同,它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。

2024-05-12 21:51:49 286

原创 还是分不清非阻塞赋值与阻塞赋值吗?_testbench中阻塞和非阻塞有区别吗

这两个时间就是触发器的和**保持时间,**触发器正常工作需要满足建立时间和保持时间的时序要求。时序逻辑的核心就是触发器,触发器的输出不是瞬变的,而是需要一定的时间。这个参数就是触发器的**数据输出延时(Clock-to-Output Delay)----Tco,**这个时间指的是当时钟有效沿变化后,数据从输入端到输出端的最小时间间隔。比如在10ns处,时钟上升沿到来,此时触发器输入采样值为1。由于Tco的存在,这个值1可能要在11ns处才会出现在触发器的输出端。

2024-05-12 21:51:13 362

原创 还是分不清非阻塞赋值与阻塞赋值吗?_testbench中阻塞和非阻塞有区别吗(2)

那么根据组合逻辑实时输出的特性,输出Y就会提前2ns从0变成1,但是,我们需要的是其在第一个10ns的期间保持0,而在第二个10ns保持1。而时序逻辑电路在逻辑功能上的特点是任意时刻的输出不仅取决于当时的输入信号,而且还取决于电路原来的状态,或者说,还与以前的输入有关。在时序电路中,加入了一个时钟信号,有了这个时钟信号后,就可以只在时钟信号的上升沿或者下降沿对输入信号进行采样,而在其他时候则让它保持上一次的输出即可。显然,这是组合逻辑的一种。可以看到,输入、输出的变化是实时同步的,这也是组合逻辑的特点。

2024-05-12 21:50:37 752

原创 微服务实战 Eureka注册中心及集群搭建_注册中心部署应用服务器集群(1)

在2020年4月之前,为了避免与子项目混淆,SpringCloud版本是依据伦敦地铁站名命名,并按照字母顺序发布:比如Angle、Brixton、Camden、Edgware、Finchley、GreenWich、Hoxton等。SNAPSHOT: 快照版本,不稳定、尚处于开发中的版本;M: MileStone,M1表示第1个里程碑版本;RC:Release Candidate,候选版本,一般标注PRE表示预览版,几乎不会再加入新的功能,只修复bug;RELEASE。

2024-05-12 04:42:09 1812

原创 微服务【Docker容器解决项目部署问题&Docker和虚拟机的区别&系统结构】第5章_docker容器分区和虚机分区

大型项目组件较多,运行环境也较为复杂,就像一个项目前端需要用到node.js组件,后端需要用到数据库,缓存技术redis,异步技术MQ等等!!同时也会在部署的时候碰到一些问题:依赖关系复杂,容易出现兼容性问题(就像下图中的这些node,Redis这些技术应用等等!将来都会部署到服务器中,而大多数服务器都会采用LInux操作系统,而这些技术应用在安装到Linux操作系统之前需要做一些准备工作。每个应用都有自己需要的依赖和函数库,而每个应用的依赖和函数库又有可能存在一定的差异性。

2024-05-12 04:41:33 864

原创 微服务【Docker容器解决项目部署问题&Docker和虚拟机的区别&系统结构】第5章_docker容器分区和虚机分区(2)

大型项目组件较多,运行环境也较为复杂,就像一个项目前端需要用到node.js组件,后端需要用到数据库,缓存技术redis,异步技术MQ等等!!同时也会在部署的时候碰到一些问题:依赖关系复杂,容易出现兼容性问题(就像下图中的这些node,Redis这些技术应用等等!将来都会部署到服务器中,而大多数服务器都会采用LInux操作系统,而这些技术应用在安装到Linux操作系统之前需要做一些准备工作。每个应用都有自己需要的依赖和函数库,而每个应用的依赖和函数库又有可能存在一定的差异性。

2024-05-12 04:40:57 798

原创 微服务【Docker容器解决项目部署问题&Docker和虚拟机的区别&系统结构】第5章_docker容器分区和虚机分区(1)

大型项目组件较多,运行环境也较为复杂,就像一个项目前端需要用到node.js组件,后端需要用到数据库,缓存技术redis,异步技术MQ等等!!同时也会在部署的时候碰到一些问题:依赖关系复杂,容易出现兼容性问题(就像下图中的这些node,Redis这些技术应用等等!将来都会部署到服务器中,而大多数服务器都会采用LInux操作系统,而这些技术应用在安装到Linux操作系统之前需要做一些准备工作。每个应用都有自己需要的依赖和函数库,而每个应用的依赖和函数库又有可能存在一定的差异性。

2024-05-12 04:40:20 966

原创 大数据最全基于协同过滤算法的推荐_基于项目的协同过滤算法(1),大数据开发的Io模型你了解多少

数据源:本数据源为天池大赛提供数据,数据按时间分为两份,分别是7月份之前的购买行为数据和7月份之后的。

2024-05-11 20:03:37 652

原创 大数据最全基于51单片机的温度报警系统(程序分装)_module (2),大佬带你看源码

超级重要,一定要理解。定义:表示创建变量或分配存储单元(产生代码)变量的声明int i;//变量的定义//变量的声明声明:说明变量的性质,但并不分配存储单元(不产生代码 )(多个地方对这几个常量初始化了重复定义)tips:如果在声明的时候给变量赋值,那么就和去掉extern直接定义变量赋值是等价的int i = 0;//在声明时对变量进行了赋值,声明不再是声明,变成定义了。上述两者时等价的网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

2024-05-11 20:03:02 583

原创 大数据最全坚持用C++刷牛客题(剑指offer专题)_牛客网刷题用c好还是c++好(2),2024年最新69个经典大数据开发面试题和答案详解

这个题目一定要好好分析,题目中说的是返回任意一个重复元素,当然可以选择两重循环来找重复的元素,但是那样效率实在不高。,然后从第一个元素开始两两比较,只要有相同结果出现就返回该元素值。但是一定要注意数组越界情况,先把。的形式,那就要靠你对容器迭代知识的理解了。的情况考虑并解决掉,然后一重循环中数组长度需要减一,防止条件里。就是内层的t,也就是T指向t的地址。那就是先对容器内元素。,前面文章提到迭代器相当于指针,那么。就可以得到对应的值,同理,就代表容器内的元素值。这个题考察二维数组的。

2024-05-11 20:02:26 441

转载 大数据最全在ubuntu上安装hadoop完分布式_ubuntu23,大数据开发面试题大全

注意:网段必须与VMnet8子网IP的网段保持一致,网段中xxx.xxx.xxx.1和xxx.xxx.xxx.2(网关(GATEWAY))这两个地址不能使用。添加后强制保存:wq!jdk-8u301-linux-x64.tar.gz 是文件名,要改成自己的文件名。作为开头输入指令,会出现如下提示,告知当前用户不在允许使用超级权限的文件内。在这样说明一点,要将三台hadoop配置完毕之后在发送其它两台的,下面的代码。输入之后,可能中间会中断一次,不要担心,按enter继续就可以了。

2024-05-11 20:01:49 1021 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除