Edingbrugh.南空-CSDN博客

原创 Guava BloomFilter详解：原理、使用与最佳实践

BloomFilter（布隆过滤器）是一种空间效率极高的概率性数据结构，用于快速判断一个元素是否属于某个集合。它的核心特点是存在误判率（False Positive Probability）：当判断"元素存在"时可能出错，但判断"元素不存在"时一定正确。这种特性使其非常适合需要高效去重或存在性检查的场景，如缓存穿透防护、海量数据去重等。Google Guava库中的类实现了这一数据结构，提供了简洁易用的API，同时兼顾了性能与可扩展性。本文基于Guava 20.0版本的实现，深入解析其原理与实践。

2025-07-30 11:18:28 302

原创 Java大文件上传下载：分片与断点续传的实现之道

摘要：本文探讨Java环境下大文件传输的技术方案，针对传统单文件上传的内存溢出、网络容错差等问题，提出分片传输与断点续传的解决方案。分片传输通过将文件拆分为多个独立分片上传，降低单次传输压力；断点续传则记录传输进度，支持异常中断后继续传输。文章详细解析了前端文件分片、断点检测的实现逻辑（基于JavaScript的File API），以及后端分片接收、进度记录与文件合并的Spring Boot代码（使用Redis存储进度），为开发者提供了一套完整的大文件高效传输实现方案。

2025-07-28 13:54:07 592

原创 ClickHouse索引原理及优化原则

ClickHouse的高效查询性能源于其独特的索引体系，包括主键索引、跳数索引和二级索引。主键索引基于排序键的颗粒化定位，通过预先排序和分块存储实现快速数据过滤；跳数索引则通过数据块统计信息加速大范围查询；二级索引为高频非排序键查询提供辅助支持。优化关键在于：合理设计排序键（优先高频过滤字段、避免低基数、控制字段数量），针对性使用跳数索引（选择合适类型、避免高基数均匀字段），谨慎添加二级索引（平衡查询与写入性能）。通过定期评估索引有效性，实现查询性能与写入成本的最佳平衡，从而充分发挥ClickHouse在海

2025-07-27 16:05:05 848

原创 Java零拷贝技术：原理深度剖析与实战示例

本文深入解析Java中的零拷贝技术，通过对比传统IO操作与零拷贝的性能差异，揭示其减少数据拷贝和上下文切换的核心原理。重点探讨FileChannel.transferTo和MappedByteBuffer两种实现方式：前者通过sendfile系统调用实现文件到Socket的高效传输（3次拷贝），后者借助mmap实现用户空间直接访问内核缓冲区（2次DMA拷贝）。文章提供文件复制和网络传输的实战代码示例，实测显示零拷贝技术可提升30%-50%的IO性能并显著降低CPU消耗。适用于大文件传输、高并发网络通信等场景

2025-07-27 15:14:21 910

原创 Aerospike与Redis深度对比：从架构到性能的全方位解析

摘要：本文介绍了Java开发者如何高效使用Aerospike数据库，重点探讨了对象映射和Spring Data集成两大核心功能。通过aerospike-mapper框架，可实现Java对象与Aerospike记录的无缝转换，减少模板代码。同时结合Spring Data Aerospike模块，开发者能以熟悉的Repository模式操作数据库，显著提升开发效率。文章详细讲解了从实体类注解定义到AeroMapper API使用，再到Spring Boot集成的全流程，为构建高性能数据访问层提供了完整解决方案，

2025-07-26 15:49:47 651

原创 Aerospike Java客户端进阶：对象映射与Spring Data集成实战

摘要：本文介绍了Java开发者如何高效使用Aerospike数据库，重点探讨了对象映射和Spring Data集成两大核心功能。通过aerospike-mapper框架，可实现Java对象与Aerospike记录的无缝转换，减少模板代码。同时结合Spring Data Aerospike模块，开发者能以熟悉的Repository模式操作数据库，显著提升开发效率。文章详细讲解了从实体类注解定义到AeroMapper API使用，再到Spring Boot集成的全流程，为构建高性能数据访问层提供了完整解决方案，

2025-07-26 15:31:04 818

原创 Aerospike Java客户端核心API实战指南：从基础操作到高级功能全解析

Aerospike Java客户端提供了高效访问Aerospike数据库的API，支持多种核心操作。本文从实战角度解析了12个关键示例，涵盖客户端初始化、数据写入与读取等场景。客户端初始化需要配置连接策略，支持基础连接和企业版认证。数据写入通过put()方法实现全量写入、部分更新和条件写入。数据读取则提供get()和select()两种方式，前者获取完整记录，后者可指定字段减少IO开销。每个示例都标注了官方文档出处，帮助开发者快速掌握Aerospike Java客户端的核心功能与最佳实践。

2025-07-26 15:25:40 1001

原创详解Aerospike数据库在Linux系统上的安装流程

本文详细介绍了Aerospike数据库在Linux系统上的安装部署流程。首先概述了系统兼容性要求，包括支持的64位Linux发行版版本及依赖项（如libcurl）。随后分步骤讲解了安装包的下载方法、命名规则及解压安装过程，涵盖RPM/Debian两种包管理方式。最后说明了安装后的基础配置，包括服务管理、存储设备设置、企业版feature-key配置等关键环节。全文提供了从环境准备到运行维护的完整指导，帮助用户顺利完成Aerospike数据库部署。

2025-07-26 14:40:50 964

原创 Aerospike架构深度解析：打造web级分布式应用的理想数据库

提供灵活可扩展的平台，支撑亿级用户规模的应用；保留传统数据库的ACID可靠性，不牺牲数据一致性；最小化人工干预，实现高效运维。这些目标的实现，离不开其三层架构的精妙设计——客户端层、分布层、数据存储层，三层协同工作，既各司其职又紧密配合，共同构建了Aerospike的核心竞争力。

2025-07-26 14:34:18 930

原创 Aerospike：从诞生到超越，为何它成了高并发场景的新选择？

摘要：Aerospike作为一种新型分布式数据库，在高并发、海量数据场景中展现出独特优势。其混合存储架构（内存索引+SSD数据）既保证了高性能又降低了成本，单节点可支撑10TB数据。相比Redis，Aerospike在吞吐量（高出50%）、扩展性（无上限）和成本（仅为1/5）方面表现更优，尤其适合超100GB数据量、要求99.99%可用性的复杂场景。但Redis在中小规模缓存等简单场景仍具优势，技术选型需结合实际需求。

2025-07-25 17:44:11 846

原创如何优雅调整Doris key顺序

摘要：Doris数据表Key顺序调整的高效迁移方案针对Doris无法直接修改表Key顺序的问题，本文提出了一种高效的数据迁移解决方案。传统方法在TB级数据迁移时面临资源消耗大、集群稳定性风险等问题，而Spark/Flink连接器的分区过滤下推失效导致全表扫描。核心解决思路是利用Doris原生特性，通过tablet粒度分批迁移：首先查询所有分区和对应tablet，去重后按tablet分批执行迁移。方案通过Python脚本自动化实现，包含元数据记录、异常处理和资源控制，有效降低集群负载

2025-07-19 18:00:23 1031

原创 ClickHouse 分区机制详解：规则、合并与实践指南

摘要：本文深入解析ClickHouse的分区机制，包括分区规则、目录命名、合并过程及开发实践要点。重点分析了分区ID生成逻辑（整数、时间、哈希等类型），分区目录命名格式（PartitionId_MinMaxBlockNum_Level），以及体现LSM特性的异步合并过程。针对实际开发，提出避免过细分区、合理设计ORDER BY、禁止客户端指定分区等优化建议，强调以业务查询模式为导向的分区设计原则。通过理解这些机制，可有效提升ClickHouse在大规模数据场景下的查询性能。

2025-07-13 16:20:37 513

原创 JVM与系统性能监控工具实战指南：从JVM到系统的全链路分析

gcutil输出解析以百分比展示各区域使用率，更直观地判断内存区域是否已满（如E区使用率持续90%+可能导致频繁YGC）。JVM与系统性能监控工具是Java工程师的"听诊器"，熟练掌握jstat（GC监控）、jmap（内存分析）、jstack（线程诊断）、vmstat（系统全局）、pidstat（进程线程级）的用法，能让你从猜测问题转变为数据驱动定位。

2025-07-12 17:05:03 465

原创 memleak揪出内存泄漏元凶：eBPF时代的内存排查神器

实时性：动态跟踪无需重启进程，适合生产环境低开销：eBPF技术实现内核级跟踪，性能损耗远低于valgrind精准性：直接关联调用栈，缩短从发现泄漏到定位代码的时间memleak作为eBPF技术的典型应用，重新定义了内存泄漏排查的效率与体验——从“猜泄漏”到“看得到泄漏点”，从“离线分析”到“生产环境实时跟踪”。掌握它的使用，无论是C/C++程序的显性泄漏，还是第三方库的隐性泄漏，都能快速定位，让内存问题不再成为系统稳定性的“暗礁”。如果你还在为内存泄漏头疼，不妨试试memleak。

2025-07-12 16:53:29 406

原创实战指南：用pmap+gdb排查Linux进程内存问题

本文介绍了在Linux系统中使用pmap和gdb工具排查进程内存问题的实用指南。首先通过pmap查看进程内存地址空间，重点关注异常的内存段排序和分析；然后利用gdb进行内存内容解析，定位内存泄漏或异常占用的根源。文章详细讲解了两个工具的使用方法、参数说明和实战技巧，并通过Java进程堆外内存泄漏的完整案例演示排查流程。最后总结了最佳实践，包括操作时机、工具组合和长期监控建议，帮助开发者高效解决各类内存问题。

2025-07-12 16:44:29 1090

原创 Flink自定义函数

Flink 自定义函数（UDF）扩展 Table API/SQL 能力，支持标量函数、表值函数、聚合函数和表值聚合函数四种类型，分别用于值转换、数据拆分、聚合计算和分组统计等场景。实现要点包括：继承对应基类（如 ScalarFunction）、实现核心逻辑方法（eval/accumulate）、注册函数并调用。关键技巧涉及类型注解（@DataTypeHint）、参数命名（@ArgumentHint）和确定性声明。UDF 通过 open/close 管理生命周期，支持异步和批量处理优化。

2025-07-10 14:27:53 742

原创 Flink 2.0 DataStream算子全景

摘要：本文深入解析Apache Flink 2.0的DataStream API算子体系，涵盖核心概念（数据流拓扑、算子链、并行度）、三大算子类型（转换、连接、物理分区）及高级特性（状态管理、时间窗口、容错机制）。重点探讨了算子优化策略，包括链化控制、状态管理、并行度配置和数据倾斜处理，并总结了构建高效流处理pipeline的五大原则。通过系统化的算子分类和最佳实践指导，为开发者提供Flink实时流处理的全面技术参考。（150字）

2025-07-10 14:12:37 622

原创 Doris用户管理

Doris用户管理操作与权限要求深度解析：系统详细说明用户创建、修改、删除等全流程操作规范，包括用户标识格式（username@'userhost'）、核心权限关联（Admin_priv/Grant_priv）。重点阐述不同角色执行用户管理的权限边界，如创建用户需Grant_priv权限，删除用户需GLOBAL层级Grant_priv，密码修改区分自身/他人操作权限。提供典型场景配置示例和权限对照表，强调"最小权限原则"实施建议，确保系统权限体系安全可控。操作后需通过SHOW GRANT

2025-07-10 11:11:48 365

原创操作系统级TCP性能优化：高并发场景下的内核参数调优实践

本文深入探讨了高并发网络场景下的操作系统内核TCP/IP协议栈优化策略。文章从五个维度展开：1）连接管理参数优化，包括监听队列、半连接队列和TIME_WAIT状态处理；2）缓冲区与吞吐量优化，涉及动态调整接收/发送缓冲区；3）拥塞控制算法选择与队列管理；4）系统资源限制设置，如文件描述符和端口范围；5）连接稳定性优化，包括超时设置和抗攻击机制。通过合理配置内核参数如net.core.somaxconn、tcp_rmem/wmem和BBR算法等，可以有效提升系统在高并发场景下的网络性能和稳定性。

2025-07-07 17:50:45 861

原创 Flink ClickHouse 连接器维表源码深度解析

Flink ClickHouse Connector通过实现LookupTableSource接口提供维表功能，核心类ClickHouseDynamicTableSource负责配置和创建维表查询组件。该功能支持流处理中实时查询ClickHouse数据，通过ClickHouseRowDataLookupFunction执行JDBC查询，并可选配置缓存提升性能。使用时需在SQL中定义维表并进行JOIN关联，系统会自动处理实时查询和数据关联。主要特性包括非嵌套键支持、可配置重试机制以及部分缓存策略（基于访问/写

2025-07-06 15:48:01 420

原创 Flink ClickHouse 连接器数据读取源码深度解析

Flink ClickHouse连接器源码解析摘要：该连接器通过AbstractClickHouseInputFormat抽象基类及其子类ClickHouseBatchInputFormat和ClickHouseShardInputFormat实现数据读取功能。核心类采用建造者模式构建，支持字段名、过滤条件等参数配置。针对不同场景，分别提供批量读取（减少数据库交互）和分片读取（并行处理分布式数据）两种实现方式。源码通过连接管理、参数校验和智能路由（根据表类型自动选择输入格式）等机制，确保高效稳定地从Clic

2025-07-06 15:44:10 563

原创 Flink ClickHouse 连接器数据写入源码深度解析

Flink ClickHouse 连接器源码分析：数据写入机制探究摘要：本文深入剖析了Flink与ClickHouse集成连接器的数据写入实现机制。研究围绕AbstractClickHouseOutputFormat核心类及其子类展开，揭示了两种主要写入模式：ClickHouseBatchOutputFormat实现批量写入优化吞吐量，ClickHouseShardOutputFormat支持分布式表的分片写入。通过建造者模式的设计，连接器提供了灵活的参数配置方式，并自动判断使用本地表或分布式表策略。源码

2025-07-06 15:42:33 963

原创 Hadoop高可用集群搭建

本文详细介绍了基于CentOS 7搭建Hadoop 3.X高可用集群的全流程。首先明确了环境要求，包括CentOS 7.x、JDK 8+、Zookeeper 3.7+和Hadoop 3.X等基础组件，并提供了集群节点规划方案。接着指导完成网络配置、SSH免密登录等准备工作。在Zookeeper集群部署环节，详细说明了安装配置、节点同步和启动验证步骤。文章重点解析了Hadoop各核心配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml等)的关键参数设置。最后介绍了集群启

2025-07-06 15:09:18 819 2

原创 Hadoop YARN 命令行工具完全指南

监控集群资源使用情况管理和调度应用程序诊断和解决常见问题动态调整集群配置建议结合 YARN Web UI（默认地址：http://rm-host:8088）使用，以获得更直观的集群视图。在生产环境中，可将常用命令封装为脚本，提高操作效率。

2025-07-06 15:06:58 324

原创 HDFS Java API 开发指南：从基础操作到高级应用

HDFS (Hadoop Distributed File System) 作为大数据生态的核心存储系统，提供了分布式、高容错、高吞吐量的数据存储能力。通过 Java API 操作 HDFS 是开发大数据应用的基础技能。本文将基于你的笔记，详细解析 HDFS Java API 的使用方法，并提供完整的代码示例和最佳实践。

2025-07-06 15:04:22 269

原创 HDFS文件系统Shell命令详解

本文详细介绍了HDFS Shell的常用命令及使用技巧。主要内容包括：HDFS Shell命令的基本格式与URI路径规范；文件操作命令（查看、权限、复制、移动删除）；目录操作命令（创建、查看）；高级命令（文件合并、副本设置、文件测试）；与Unix命令结合的实用技巧；以及HDFS与Unix命令对比表。文章还强调了路径格式、权限限制和性能优化等注意事项，为大数据开发和管理提供了基础操作指南。掌握这些命令能有效提升HDFS文件系统管理效率。

2025-07-06 15:01:45 429

原创 HDFS写入流程剖析

NameNode：管理文件系统命名空间和客户端对文件的访问DataNode：负责存储实际的数据块，执行数据块的读写操作：辅助NameNode，定期合并编辑日志与镜像文件Block：数据存储的基本单位，默认大小为128MB（HDFS 3.x）这种主从架构设计使得HDFS能够处理PB级数据，并具备高容错性和水平扩展性。HDFS的写入流程涉及客户端、NameNode和多个DataNode之间的复杂交互，理解这一过程对于优化大数据工作负载至关重要。

2025-07-06 14:51:45 691

原创 Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接

Flink ClickHouse 连接器为Apache Flink与高性能列式数据库ClickHouse提供了无缝集成，支持数据读写和Catalog管理。该连接器基于JDBC实现，提供灵活的配置选项，如批量大小、重试次数等。使用前需通过Maven安装依赖，支持丰富的Flink与ClickHouse数据类型映射。通过CREATE TABLE语句可注册ClickHouse表并进行SQL操作，还支持创建ClickHouseCatalog实现多库管理。项目具备开源特性，欢迎用户反馈和贡献代码。

2025-07-06 14:41:43 1053

原创 Hadoop MapReduce 入门

Hadoop 3.0.4 环境搭建与 MapReduce 开发指南本文详细介绍了 Hadoop 3.0.4 单节点环境的安装配置步骤与 MapReduce 程序开发流程。主要内容包括：1) 环境准备：Java 8安装、Hadoop下载解压及环境变量配置；2) Hadoop核心配置：修改core-site.xml、hdfs-site.xml等配置文件；3) 服务启动：格式化HDFS并启动HDFS/YARN服务；4) MapReduce开发：使用Maven构建项目，配置Hadoop依赖，实现经典WordCou

2025-07-06 14:36:38 518

原创 ClickHouse 全生命周期性能优化

设计阶段：合理选择表引擎，优化分区/排序键设计，避免Nullable类型开发阶段：遵循SQL编写规范，优先使用分区过滤和PREWHERE，禁用SELECT *优化阶段：根据场景选择压缩算法，合理配置索引粒度，善用物化视图运维阶段：建立完善的监控体系，关注查询性能和合并状态，定期优化表结构安全阶段：实现分级权限控制，启用数据加密和操作审计，符合合规要求通过遵循上述全生命周期优化策略，可充分释放ClickHouse的性能潜力，构建高效、稳定的数据分析平台。

2025-07-06 14:21:51 1077

原创 MySQL查询优化全攻略：从基础到实战

MySQL查询性能优化需从索引设计、查询改写和执行计划分析入手，核心在于减少CPU与I/O开销。索引优化遵循最左前缀、覆盖索引等原则，避免函数操作导致失效。WHERE子句优化通过条件简化和范围查询改进。EXPLAIN分析执行计划，利用索引合并、哈希连接等高级技巧。关键参数调优包括ICP、MRR等机制，以及分页和GROUP BY优化。实战中应优先创建合适索引，简化查询条件，持续监控慢查询。不同业务场景需灵活选择优化策略，保持系统高效响应。

2025-07-04 13:53:07 630

原创 MySQL 锁机制深度解析：从分类到实战优化

特性InnoDBMyISAM默认锁类型行锁表锁事务支持支持不支持并发度高（行锁细粒度）低（表锁粗粒度）锁升级风险低（行锁为主）无（表锁固定）幻读解决方案间隙锁+MVCC（RR级别）需串行化级别InnoDB通过行锁和MVCC实现高并发，但需注意索引设计和事务管理；MyISAM表锁简单但并发能力有限，适用于读多写少场景。合理利用锁机制，能在数据一致性和系统性能间找到最佳平衡点。

2025-07-04 13:49:46 394

原创 Flink Vitess CDC 环境配置与验证

摘要：本文详细介绍了如何配置 Vitess 集群以支持 CDC（变更数据捕获）功能，并通过 Flink SQL 实现实时数据同步。核心内容包括： Vitess 配置：启用 VStream 服务（需设置 VTGate 的 gRPC 端口和心跳间隔），并验证 VStream 可用性。 Flink 集成：添加 Vitess CDC 连接器依赖，部署 SQL Client。表定义与参数：重点解析 CDC 关键参数（如 port、tablet.type、snapshot.mode），提供完整的建表示例。验证与监控

2025-07-04 13:44:57 676

原创 Flink TiDB CDC 环境配置与验证

TiDB与Flink CDC集成配置指南本指南详细介绍了如何配置TiDB数据库与Flink CDC 3.0.1的连接集成。主要内容包括： TiDB核心配置：启用TiCDC服务并验证PD地址 Flink环境集成：添加Maven依赖和部署SQL Client Flink SQL表定义：提供完整建表示例和核心参数说明环境验证：包括测试数据准备和Flink SQL验证步骤关键配置要点：必须配置正确的PD地址和数据库/表名称支持两种启动模式：全量+增量或仅增量提供GRPC超时和批量获取并发等优化参数包含

2025-07-04 13:17:24 518 4

原创 Flink OceanBase CDC 环境配置与验证

摘要：本文详细介绍了OceanBase数据库与Flink的集成配置流程，包含三部分核心内容：1) OceanBase数据库配置，包括环境准备、用户权限设置、LogProxy服务部署；2) Flink环境集成，涉及Maven依赖添加和SQL Client部署；3) Flink SQL表定义与参数详解，提供MySQL和Oracle两种模式的建表示例及核心参数说明。重点涵盖社区版与企业版配置差异、元数据获取方式及CDC连接器关键参数，为实时数据同步提供完整解决方案。

2025-07-04 13:14:28 968

原创 Flink Db2 CDC 环境配置与验证

摘要：本文介绍了如何配置DB2数据库与Flink集成实现变更数据捕获(CDC)。首先在DB2中启用日志归档并创建CDC控制表，然后通过触发器捕获表变更。接着配置Flink环境添加DB2 CDC连接器依赖，详细说明SQL表定义参数。最后提供了完整的Flink SQL建表语句示例及参数说明，包括元数据列配置和核心参数详解。该方案可实现DB2数据库变更的实时捕获与处理。

2025-07-04 13:09:33 561

原创 Flink MongoDB CDC 环境配置与验证

摘要：本文详细介绍了MongoDB CDC（变更数据捕获）的配置与Flink集成方法。首先说明MongoDB环境要求（版本≥3.6、副本集/分片集群、WiredTiger引擎），并给出集群验证命令。其次，通过SQL示例展示如何启用Change Streams、配置权限及PreAndPostImages（MongoDB 6.0+）。接着指导Flink环境部署，包括添加Maven依赖和SQL Client配置。核心部分提供了Flink SQL建表示例，支持嵌套文档、数组及元数据字段，并详解关键参数如连接器类型

2025-07-04 13:05:46 921

原创 Flink SQLServer CDC 环境配置与验证

SQL Server CDC 与 Flink 集成配置指南本文详细介绍了如何将 SQL Server CDC 功能与 Apache Flink 集成，实现数据变更捕获和实时处理。主要内容包括： SQL Server 配置：启用数据库和表级 CDC，创建专用文件组，设置用户权限 Flink 环境准备：添加连接器依赖，部署 SQL Client Flink SQL 配置：表定义语法，核心参数详解（如增量快照、时区设置等） 4.验证测试步骤：测试数据准备，Flink SQL 查询验证，DataStream AP

2025-07-04 13:01:53 466 2

原创 Flink Postgres CDC 环境配置与验证

.flink.streaming.api.environment.StreamExecutionEnvironment; PostgresSource<String> source = PostgresSource.<String>builder() .hostname("192.168.1.100") .port(5432) .database("postgres") .schemaList("public") .tabl

2025-07-04 12:56:57 1077

原创 Flink Oracle CDC 环境配置与验证

摘要：Oracle CDC配置与Flink集成指南详解了数据库核心配置和Flink集成步骤。Oracle端需启用归档日志、补充日志并创建专用用户授权，包括CDB/非CDB环境差异配置。Flink环境需添加连接器依赖，通过SQL定义CDC表时需配置关键参数如scan.startup.mode和debezium.log.mining.strategy。完整流程涵盖从数据库准备到Flink表创建的实操细节，确保高效捕获Oracle数据变更。

2025-07-04 12:52:06 1072

空空如也

空空如也