
期末复习
文章平均质量分 91
期末复习专用
c无序
励志成为一名云原生大佬.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
临时抱佛脚v2
Scala 中用于代码复用和接口定义的机制,类似于 Java 8 的接口,可以包含抽象方法和具体方法,支持多重继承的混合。指数据在生成后立即进行处理和分析,并在极短的时间内给出结果,通常用于需要即时响应的场景,如实时推荐、欺诈检测、监控预警。Spark 中的核心数据结构,一个可容错的、并行操作的分布式元素集合,是所有 Spark 操作的基础。有向无环图,Spark 任务调度中的核心概念,表示一系列计算阶段的依赖关系,优化了任务执行流程。Scala 中一种特殊类型的类,主要用于不可变数据的建模,自动提供。原创 2025-06-11 19:10:36 · 1085 阅读 · 0 评论 -
临时抱佛脚
主要方法 1.凝聚的层次聚类是一种自底向上的策略:首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。从广义的观点上,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。从这些核心点出发,不断向周围密度足够高或者可以“连接”到的点扩展,把它们也吸纳进来,逐渐形成完整的簇。原创 2025-06-05 17:12:06 · 995 阅读 · 0 评论 -
深入探索 Apache Spark:从初识到集群运行原理
Apache Spark 凭借其强大的功能和灵活的架构,已经成为大数据处理领域不可或缺的一部分。本文从初识 Spark 开始,深入探讨了其主要组件、集群搭建、运行架构与原理、应用程序提交以及 Spark Shell 的使用。希望通过本文的介绍,您能对 Spark 有一个全面而深入的了解,并能够开始利用 Spark 的强大能力来处理和分析您的数据。随着大数据技术的不断发展,Spark 也在持续演进,不断引入新的特性和优化,以应对日益复杂的数据处理需求。原创 2025-05-05 22:20:08 · 1414 阅读 · 0 评论 -
【数据可视化复习方向】
文本数据大致可以分为三种:单文本、文档集合和时序文本数据;对应的文本可视化也可分为:文本内容可视化、文本关系可视化、文本多层面信息的可视化。文本分布可视化实际上是引入了词语在文本当中的位置、句子长度等信息,这些信息常被制作成文本弧。2️⃣文本流:是主题河流的一种变形,可以表达主题变化,以及随着时间流动,各个主题之间的分裂和合并信息。文本关系可视化:既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示;文本多特征信息可视化:是结合文本的多个特征进行全方位的可视化展示。原创 2024-12-22 22:06:07 · 1312 阅读 · 0 评论 -
期末复习-操作系统第四章文件管理
有结构文件:由一组相似的记录组成,又称“记录式文件”。◼ 当找到文件名对应的目录项时,才需要将索引结点调入内存,索引结点中记录了文件的各种信息,包括文件在外存中的存放位置,根据“存放位置”即可找到文件。顺序文件:文件中的记录一个接一个地顺序排列(逻辑上),记录可以是定长的或可变长的。◼ 标识符:一个系统内的各文件标识符唯一,对用户来说毫无可读性,因此标识符只是操作系统用于区分各个文件的一种内部名称。◼ 文件名:由创建文件的用户决定文件名,主要是为了方便用户找到文件,同一目录下不允许有重名文件。原创 2024-12-10 16:53:35 · 1394 阅读 · 0 评论 -
期末复习-操作系统第三章存储管理
内存可存放数据程序执行前需要先放到内存中才能被CPU处理缓和CPU与硬盘之间的速度矛盾。原创 2024-12-10 16:04:51 · 1008 阅读 · 0 评论 -
期末复习-Hadoop综合复习
大数据指的是海量数据;具有海量、流转快、数据类型丰富及价值密度低等特点SSH是一种网络协议,主要用于在不安全网络上提供安全的远程登录和其他安全网络服务。它能够加密网络连接,确保在客户端和服务器之间传输的数据不会轻易被窃取或篡改。原创 2024-12-06 20:48:57 · 2021 阅读 · 0 评论 -
期末复习操作系统-第二章进程同步与互斥 -- 代码题
假定桌上的每两位相邻的哲学家之间放一支筷子,每位哲学家在用餐时需要得到左右两边的筷子(一根一根地拿起),然后才能用餐,用餐后放下筷子,又开始独立思考问题。问题描述:有读者和写者两组并发进程,共享一个文件,当两个或两个以上的读进程同时访问共享数据时不会产生副作用,但若某个写进程和其他进程(读进程或写进程)同时访问共享数据时则可能导致数据不一致的错误。如果在考试中遇到了一个进程需要同时持有多个临界资源的情况,应该参考哲学家问题的思想,分析题中给出的进程之间是否会发生循环等待,是否会发生死锁。原创 2024-12-04 20:07:38 · 1466 阅读 · 1 评论 -
期末复习操作系统-第二章处理器管理 + 管程与死锁
例:假设你是一位成功的银行家,手里掌握着100个亿的资金,有三个企业想找你贷款,分别 是企业B、企业A、企业T,为描述方便,简称BAT,企业B最多会跟你借70亿,企业A最多会跟你借40亿,企业T最多会跟你借50亿。然而行业里有个不成文的规矩:如果你借给企业的钱总数达不到企业提出的最大要求,那么不管你之前给企业借了多少钱,那些钱都拿不回来了。刚开始,BAT三个企业分别从你这儿借了20、10、30亿…刚开始,BAT三个企业分别从你这儿借了20、10、30亿…原创 2024-12-04 19:51:04 · 811 阅读 · 0 评论 -
期末复习-Hadoop名词解释+简答题+代码题hive
如果从字面意思来看,大数据指的是海量数据;从大数据特点来看,大数据具有海量、流转快、数据类型丰富及价值密度低等特点;如果从技术角度来看,大数据的战略意义不仅在于掌握庞大的数据,还包括对这些数据进行有效处理;换言之,如果把大数据比作一种产业,那么这种产业盈利的关键在于提高对大数据的加工能力,通过加工技术实现数据增值SSH是一种网络协议,主要用于在不安全网络上提供安全的远程登录和其他安全网络服务。它能够加密网络连接,确保在客户端和服务器之间传输的数据不会轻易被窃取或篡改。原创 2024-12-02 17:50:56 · 1678 阅读 · 0 评论 -
期末复习数据分析-NumPy的使用
列表中其实是存在指针的,在python中虽然隐去了指针的概念,但是列表是有指针的,比如下面的列表在内存中存储是这样的,我们是通过指针,来指向对应的值,这样我们在存储的时候就需要即存储指针,又需要存储这个整数的对象,这样就浪费了内存和计算时间。内存分配:对于列表来说,它是一个可变类型数据,所以在分配内存的时候,就需要为它多分配一些额外的内存;列表中的元素在系统中是分散存储的,而numpy中的数组是连续存储的,这样数组在遍历所有元素的时候又不需要像列表那样,对内存地址进行查找,从而节省了内存资源。原创 2024-11-27 16:24:08 · 1317 阅读 · 0 评论 -
数据可视化复习2-绘制折线图+条形图(叠加条形图,并列条形图,水平条形图)+ 饼状图 + 直方图
列表中的字符串对应起来,并显示在图表的x轴上。这样,图表的x轴上将显示’1月’、‘2月’、‘3月’、‘4月’、‘5月’和’6月’,而不是默认的数值刻度。这对于增强图表的可读性和直观性非常有用,特别是当x轴代表时间序列时。下面这段代码是使用matplotlib库中的pyplot模块绘制条形图。但是底部的x轴课表对应不美观,于是调一下xticks。表示第二个条形图的底部是第一个条形图的顶部。参数用于指定堆叠条形图的起始位置。其中,这句代码的效果是,它将。注意plt.bar中参数顺序。绘制一个简单的条形图。原创 2024-11-24 23:01:42 · 1210 阅读 · 0 评论 -
数据可视化复习1-Matplotlib简介属性和创建子图
Matplotlib是一个Python的2D绘图库,它可以在各种平台上以各种硬拷贝格式和交互环境生成具有出版品质的图形。通过Matplotlib,开发者可以仅需要几行代码,便可以生成绘图、直方图、功率谱、条形图、错误图、散点图等。易于使用的图形绘制接口:Matplotlib试图让简单的事情变得更简单,让无法实现的事情变得可能实现。你可以通过简单的函数调用绘制出高质量的图形。适用于多种操作系统和图形后端:Matplotlib支持各种操作系统上多种图形后端,这意味着它可以与各种环境和应用程序无缝集成。原创 2024-11-20 23:16:32 · 1076 阅读 · 0 评论 -
Pandas
理解Pandas数据结构Series和DataFrame。常用操作:读取、查看、选择、过滤、添加、删除、处理和导出数据。实际操作:通过实际示例代码练习上述操作。原创 2024-06-22 10:14:53 · 397 阅读 · 0 评论 -
爬虫 pandas Linux Flume Pig填空题
在POST请求中,传统表单数据通过。原创 2024-06-21 16:07:30 · 948 阅读 · 0 评论 -
数据采集与预处理复习资料
大数据(big data)是指那些无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。这些数据集合具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的特征,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力。简而言之,大数据是一种海量的、高增长率和多样化的信息资产。大数据的五大特征通常包括:大量、高速、多样、低价值密度和真实性。这些特征使得大数据在各行各业中具有广泛的应用前景,包括但不限于商业分析、医疗研究、政府决策等。原创 2024-06-21 16:28:44 · 2343 阅读 · 0 评论