辉哥大数据-CSDN博客

原创 Spark大数据开发与应用案例(视频教学版)（十五）--第十章上

作者：余辉微信公众号：辉哥大数据备注：本书配套示例源码、PPT课件、教学视频与作者答疑服务，每周更新一部分，敬请期待…红包奖励：找出本书问题，评论区并指正，且留下联系方式。

2025-08-08 15:20:21 533

原创 Spark大数据开发与应用案例(视频教学版)（十四）--第九章

本章将带你走进Spark SQL的世界，了解其定义与核心特性。通过深入探索Spark SQL的编程抽象，你将能够掌握其强大的数据处理能力。此外，我们还将提供快速使用指南，让你亲身体验Spark SQL的便捷与高效。本章旨在为你打下坚实的Spark SQL基础。

2025-07-30 14:36:05 773

原创 Spark大数据开发与应用案例(视频教学版)（十三）--第八章

第8章 Spark内存管理机制

2025-06-11 16:19:51 729

原创 Spark大数据开发与应用案例(视频教学版)（十二）--第七章

闭包是一个函数，这个函数能够访问和操作在其定义时捕获的外部变量的值。在Spark中，当你将一个函数作为参数传递给Spark的操作（如map、filter等）时，Spark会捕获这个函数及其所依赖的所有外部变量，并形成一个闭包。这个闭包随后会被序列化，并发送到集群中的工作节点上执行。

2025-05-30 16:16:51 732

原创 Spark大数据开发与应用案例(视频教学版)（十一）--第六章

Spark大数据开发与应用案例(视频教学版)

2025-04-15 16:32:14 799

原创 Spark大数据开发与应用案例(视频教学版)（十）--第五章

本章将全面解析RDD的Shuffle机制，从Shuffle的概念与历史演进出发，深入探讨其验证及复用性。随后，我们将详细剖析HashShuffleManager与SortShuffleManager的工作原理及其优化策略，为读者揭示Spark分布式计算的核心奥秘。

2025-03-24 15:13:07 693

原创 Spark大数据开发与应用案例(视频教学版)（九）--第四章下

本章深入探索Spark的核心抽象——RDD（Resilient Distributed Dataset，弹性分布式数据集）。从RDD的基本概念出发，逐步解析其血缘关系、依赖类型及多种算子（包括Transformation、Action及特殊算子）。同时，通过模拟自定义RDD与任务执行原理图解，让读者掌握Spark的实战技巧。

2025-03-14 16:18:59 800

原创 Spark大数据开发与应用案例(视频教学版)（八）--第四章上

本章深入探索Spark的核心抽象——RDD（弹性分布式数据集）。从RDD的基本概念出发，逐步解析其血缘关系、依赖类型及多种算子（包括Transformation、Action及特殊算子）。同时，通过模拟自定义RDD与任务执行原理图解，让读者掌握Spark的实战技巧。

2025-02-22 20:46:43 955

原创 Spark大数据开发与应用案例(视频教学版)（七）--第三章下

本章将引领您探索Scala基础编程，随后指导您如何在Spark中创建项目，并深入编写Spark程序。通过一系列学习，您将掌握大数据处理的关键技能。最后，本章小结将帮助您巩固所学，为后续学习打下坚实基础。本章主要知识点：Scala基础编程Spark创建项目Spark程序编写

2025-01-31 10:07:54 1023

原创 Spark大数据开发与应用案例(视频教学版)（六）--第三章上

本章将引领您探索Scala基础编程，随后指导您如何在Spark中创建项目，并深入编写Spark程序。通过一系列学习，您将掌握大数据处理的关键技能。最后，本章小结将帮助您巩固所学，为后续学习打下坚实基础。

2025-01-16 13:58:45 1091

原创 Spark大数据开发与应用案例(视频教学版)（五）--第二章下

本章将讲解Spark的概念及其特点、运行模式、执行流程以及一些常用的专有名词，帮助读者对Spark形成一个大致的印象，为后续的学习打下基础。

2025-01-11 21:20:19 800

原创 Spark大数据开发与应用案例(视频教学版)（四）--第二章上

本章主要知识点：1)VM虚拟机安装2)Ubuntu 22.04系统安装3)Ubuntu 22.04网络配置4)Ubuntu 22.04环境配置5)zookeeper 安装6)Hadoop 安装7)Spark安装8)集群和代码下载

2025-01-04 11:38:59 1465 1

原创 Spark大数据开发与应用案例(视频教学版)（三）--第一章下

本章主要知识点：1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词

2025-01-01 11:04:26 1309 1

原创 Spark大数据开发与应用案例(视频教学版)（二）--第一章上

1）Spark概念及其特点2）Spark技术生态系统3）Spark运行模式4）Spark执行流程5）Spark专有名词

2024-12-29 21:53:12 1150 1

原创 Spark大数据开发与应用案例(视频教学版)（一）--文前

Spark大数据开发与应用案例(视频教学版)（一）--文前

2024-12-26 22:51:24 1145 2

原创我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致青春赶在儿子1岁生日之际，赶在我30岁告别之际，我撰写《Hadoop+Spark生态系统操作与实战指南》一书，作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页，我借【此书】记录下我的青春，我借【清华大学出版社】将我青春永远留在【清华大学】。我的新书《Hadoop+Spark生态系统操作与实战指南》，清华大学出版社，已经在京东、天猫、当当

2017-08-07 20:22:59 8238 11

原创论文概述ReMA Learning to Meta-think for LLMs with Multi-agent Reinforcement Learning

ReMA 通过分离元思考与推理过程，结合 MARL 实现了 LLMs 推理能力的增强，在泛化性、探索效率和可解释性上有显著优势。扩展到多轮设置后，可处理更复杂的长程推理任务。未来可进一步应用于多智能体交互场景，并深入探索多轮强化学习的动态机制。ReMA（Reinforced Meta-thinking Agents）通过多智能体强化学习（MARL）分离元思考与推理过程，实现更高效的协作优化。代码开源地址：https://github.com/ziyuwan/ReMA-public。

2025-08-06 16:29:34 468 1

原创论文概述SCALING LARGE LANGUAGE MODEL-BASED MULTI-AGENT COLLABORATION

MACNET 有效支持超千个智能体协作，揭示了协作缩放定律：性能随智能体数量呈逻辑增长，协作涌现早于神经涌现。现有多智能体研究多局限于 10 个以内智能体，缺乏对大规模协作的探索。因此，论文旨在构建可扩展的多智能体协作框架，揭示协作缩放规律，推动 LLM 系统在推理阶段的高效扩展，避免资源密集型的重训练。这篇发表于 ICLR 2025 的论文聚焦于基于大型语言模型（LLM）的多智能体协作缩放问题，提出了名为MACNET（多智能体协作网络）的框架，探索了协作智能体数量增加对性能的影响及潜在规律。

2025-08-05 14:25:21 507

原创论文概述MAP: MULTI-HUMAN-VALUE ALIGNMENT PALETTE

这是一篇发表于 ICLR 2025 的论文，核心提出了一种名为Multi-Human-Value Alignment Palette（MAP）的多人类价值对齐框架，旨在解决生成式 AI 系统在多价值对齐中的挑战。

2025-08-05 10:34:38 147

原创图书第十章案例抖音文案提取与仿写助手

《扣子开发旅游规划助手多智能体》是一本面向创作者的实用教程，通过逐步引导的方式帮助用户快速掌握文案、图片和视频创作技巧。书中第10章详细介绍了抖音文案提取与仿写助手的实现方法，配有清晰的操作步骤和示意图，让读者能够轻松上手。该教程旨在提升创作者的效率与质量，适合想要优化内容创作流程的用户参考学习。

2025-07-05 19:25:58 265

原创辉哥大数据做活动--免费送书3本

《DeepSeek大模型高性能核心技术与多模态融合开发》

2025-04-15 09:39:25 393

原创 DeepSeek的介绍

综上所述，DeepSeek是一家专注于开发先进大语言模型和相关技术的创新型科技公司。其产品在多项测试中表现出色，且训练成本远低于行业平均水平。然而，DeepSeek也面临着多元化功能不足和交互体验差异等挑战。未来，随着技术的不断进步和市场的深入拓展，DeepSeek有望在人工智能领域取得更加显著的成就。

2025-01-31 10:33:48 1921

原创程序员的日常生活

在数字时代，程序员不仅是技术的塑造者，更是连接现实与虚拟世界的桥梁。他们的生活，如同一首由代码、梦想与日常琐事交织而成的交响曲，既充满了挑战与激情，也不乏平凡与温馨。本文将深入探索程序员的生活，从工作、学习、休闲到人际关系，全方位展现这一群体的独特风貌。

2025-01-11 21:30:47 944

原创微博开发--获取指定评论的方法

微博开发--获取指定评论的方法

2023-05-23 14:47:30 524

原创 Ubuntu 20.04安装gitlab

一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖四、Ubuntu系统下载安装包五、Ubuntu系统安装gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统ERROR01ERROR02

2023-05-09 09:51:11 347

原创安卓相关错误解决

将文件内容修改：gradle.properties。

2023-04-19 11:37:09 626

原创数据仓库——如何量化评价一个数据仓库的好坏？

数据仓库——如何量化评价一个数据仓库的好坏

2023-01-29 11:05:37 974

原创数据倾斜——hdfs存储数据倾斜

数据倾斜——hdfs存储数据倾斜

2023-01-28 10:07:38 736

原创数据团队整体分工分布

数据团队整体分工分布

2023-01-18 11:21:02 690

原创数据埋点的设计

数据埋点的设计

2023-01-18 10:42:00 1271

原创 3天学会撰写软件发明专利——3.生命周期

专利生命周期

2022-12-24 12:15:45 1329

原创 3天学会撰写软件发明专利——5.专利法律常识

专利的法律常识

2022-12-24 11:06:02 1253

原创 3天学会撰写软件发明专利——专利申请费用

专利的法律

2022-12-24 11:01:55 321

原创 3天学会撰写软件发明专利——2.专利的价值

1)学生对专利的价值2)个人对专利的价值3)企业对专利的价值

2022-12-24 10:39:20 330

原创 3天学会撰写软件发明专利——专利是什么

如何撰写软件发明专利

2022-12-21 20:47:01 439

原创 Maven本地运行找不到方法

Maven本地运行找不到方法

2022-11-08 17:26:39 678

原创数据团队总监生存指南

新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...

2022-08-22 10:13:38 351

转载 maven 中 slf4j的使用

slf4j的使用

2022-07-22 16:48:56 2248

原创案例--检验表达式中的括号是否成对出现

/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("（", "(").replaceAll("）", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为：')' ，value值...

2022-01-17 17:33:43 470

原创用户画像理论和实战

用户画像

2021-11-02 19:17:43 583

ReMA Learning to Meta-think for LLMs with Multi-agent Reinforcement Learning

内容概要：本文介绍了ReMA（Reinforced Meta-thinking Agents），一种利用多智能体强化学习（MARL）来增强大型语言模型（LLMs）元思考能力的新框架。ReMA将推理过程分解为两个层次的智能体：高层次的元思考智能体负责制定战略计划，低层次的推理智能体则执行具体的解题步骤。通过迭代强化学习，这两个智能体能够探索并学会协作，从而提高泛化能力和鲁棒性。实验结果显示，在单轮次设置下，ReMA在数学推理任务和LLM作为法官的任务上均优于基线方法，特别是在分布外数据集上表现尤为突出。此外，ReMA还被扩展到多轮次交互环境中，进一步提高了复杂推理任务的效果。适合人群：从事自然语言处理或机器学习领域的研究人员和技术人员，特别是关注于提升大模型推理能力的研究者。使用场景及目标：适用于需要解决复杂推理问题的应用场景，如数学问题求解、自动问答系统等。主要目标是通过引入元认知机制，使大模型能够在面对新问题时表现出更好的泛化能力和更高的准确性。其他说明：ReMA不仅提升了模型的推理性能，还在一定程度上增强了模型输出的可解释性和稳定性。研究团队提供了详细的实验配置和训练细节，包括不同奖励函数的设计及其对智能体行为的影响。此外，作者还讨论了未来可能的工作方向，比如将ReMA应用于更多需要多轮互动的任务以及深入理解多轮强化学习的动力学特性。

2025-08-06

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

sqoop的数据导入

2019-01-16

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

SqlServer驱动包

SqlServer驱动包，代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

TA关注的人

ReMA Learning to Meta-think for LLMs with Multi-agent Reinforcement Learning

spring boot+mybatis整合

hadoop-Apache2.7.3+Spark2.0集群搭建

Hive的Udf函数进行数据脱敏

SpringBoot的mvc三层以及增删改查页面

MacBook Pro的快捷键

crawlerBank.py

新概念2知识点.pdf

sqoop的数据导入

Mysql教程所有数据.zip

SqlServer驱动包

SparkSql技术

Lucene实战(第2版).pdf

silentwolf

stable-diffusion-webui启动报错

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置