- 博客(29)
- 收藏
- 关注
原创 数据库系统工程师—4.2存储管理
本文总结了存储管理的基本概念和主要技术,包括:1)存储器层次结构及地址转换(逻辑地址与物理地址);2)四种存储管理方式:分区(固定/可变/可重定位)、分页、分段和段页式存储管理的原理及地址变换;3)虚拟存储管理的时间/空间局限性原理,以及四种页面置换算法(最佳置换、FIFO、LRU、NUR)。文章以数据库系统工程师考试知识点为框架,系统梳理了存储管理的关键技术要点。
2025-06-30 14:28:46
760
原创 心晴网书籍数据爬取、分析及可视化
本项目构建了一套完整的心理学书籍数据处理流程,包含数据采集、清洗、分析和可视化四个环节。通过Scrapy框架结合Splash动态渲染技术,实现了心晴网书籍信息的自动化抓取,并采用反爬策略确保数据采集稳定性。针对标签缺失问题,创新性地应用TF-IDF和TextRank算法实现智能补全。在Django框架支持下,完成了书籍多维度统计分析(作者/出版社TOP10、价格分布等),并通过Echarts实现交互式可视化展示(饼图、词云、散点图等)。项目技术栈涵盖Python生态的Scrapy、Pandas、jieba等
2025-06-30 14:22:47
980
原创 基于ElasticSearch的二手房搜索与数据分析可视化系统
基于ElasticSearch 7.10.0和Kibana的二手房搜索与数据分析系统。系统通过爬取广东省链家网2万多条房源数据,实现高效检索、数据分析和可视化展示。核心功能包括:1)利用ElasticSearch实现条件筛选、高亮显示和聚合分析;2)通过Kibana构建可视化大屏,展示TOP小区行情、价格区间分布等;3)采用REST API完成索引设计、数据CRUD操作及高级查询。系统架构充分发挥ElasticSearch的水平扩展优势,为房产信息查询和市场分析提供高效解决方案。
2025-06-30 14:19:50
955
原创 基于链家网的二手房数据采集清洗与可视化分析
本研究基于链家网二手房数据,构建了包含数据采集、清洗与可视化分析的一体化平台。采用Selenium+XPath技术突破反爬机制实现数据采集,利用Pandas进行缺失值处理、异常值修正等数据清洗操作,并通过ECharts实现房源价格、区域分布等多维可视化展示。平台采用模块化设计,包含爬虫采集(支持100页连续抓取)、数据清洗(字段规范化与分类存储)、交互式可视化(支持10+维度筛选与主题切换)三大核心模块,最终形成可直观反映市场热度的分析系统。
2025-06-30 14:15:59
1334
原创 博客网站流量日志分析系统
基于大数据技术的博客网站流量日志实时分析系统。该系统采用"采集-传输-处理-存储-查询"分层架构,整合Kafka、Storm和HBase等技术组件,实现对访问日志的多维度分析。系统通过IP定位解析用户地理位置,按日期维度聚合国家访问量、操作系统平均点击量、设备最高点击量等关键指标,并存储在HBase中提供查询接口。文章详细阐述了数据采集、实时处理拓扑、聚合计算等核心模块的实现方案,以及开发过程中遇到的IP解析偏差等问题与解决方案。
2025-06-30 14:10:24
710
原创 数据库系统工程师—4.1进程管理
本文摘要:操作系统基础知识总结,重点介绍了进程管理的核心概念。包括操作系统四大特征(并发性、共享性、虚拟性、不确定性)和五大功能(进程、文件、存储、设备、作业管理)。详细阐述了进程组成(程序、数据、PCB)、状态转换(三态/五态模型)、同步互斥机制(PV操作、信号量)、调度算法(FCFS、轮转、优先级)及死锁处理(预防、避免、检测)。最后指出线程引入后,进程作为资源分配单位,线程成为调度基本单位。全文为数据库系统工程师考试的重要复习资料。
2025-06-28 07:30:00
1503
原创 数据库系统工程师—3.7图的相关算法
本文介绍了图论中的生成树与最小生成树概念及其算法。生成树是指包含连通图所有顶点的树状子图,而最小生成树则是在带权图中权值总和最小的生成树。主要算法包括:普里姆算法(从顶点出发,逐步添加最近邻点)和克鲁斯卡尔算法(按边权从小到大构建)。两种算法分别适用于不同场景,普里姆基于顶点扩展,克鲁斯卡尔基于边选择。文章还提供了相关算法的参考资源链接。
2025-06-28 07:00:00
253
原创 数据库系统工程师—3.6查找算法
本文简要介绍了几种常见查找算法:顺序查找逐个比较;折半查找要求有序表且效率较高;折半查找判定树用二叉树描述查找过程;二叉查找树是动态结构,遵循左小右大规则;分块查找将表分块处理;哈希查找通过哈希函数定位,需处理冲突,常用开放地址法和链地址法。这些算法各有特点,适用于不同场景的查找需求。
2025-06-27 22:34:45
336
原创 数据库系统工程师—3.5排序算法
本文介绍了七种经典排序算法:直接插入排序、冒泡排序、简单选择排序、希尔排序、快速排序、堆排序和归并排序。每种算法通过具体示例演示了排序过程:直接插入依次插入并后移元素;冒泡排序相邻比较交换;选择排序每次选最小交换;希尔排序按间隔分组插入;快速排序用枢轴分割序列;堆排序反复建堆取堆顶;归并排序两两归并直至有序。最后对各算法的核心思想进行了简明总结,帮助理解不同排序方法的特点和实现逻辑。
2025-06-27 22:25:57
1024
原创 数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图
本文总结了计算机数据结构中的核心概念,包括线性结构(线性表、栈、队列、串)、数组与矩阵(存储方式、特殊矩阵)、树与二叉树(性质、遍历、特殊二叉树)、图(分类、存储结构)。重点解析了各类数据结构的特性、优缺点及应用场景,如二叉树的四种遍历方法、图的邻接矩阵和链表表示等。文章以简明扼要的方式呈现了数据结构的基础知识体系,便于快速回顾和掌握关键概念。
2025-06-27 22:18:58
815
原创 数据库系统工程师—2.程序语言基础知识
程序语言可分为低级语言(机器语言、汇编语言)和高级语言(如C、Python),前者面向机器但效率低,后者更易理解。高级语言需通过编译或解释方式转换为机器代码:编译器生成独立目标程序,执行效率高;解释器逐行翻译执行,灵活性好。程序语言包含数据成分(常量、变量、数据类型)和控制成分(顺序、选择、循环结构)。编译过程包括词法分析、语法分析、语义分析、中间代码生成(如四元式)、代码优化和目标代码生成。表达式有中缀、前缀和后缀三种形式,参数传递分传值(单向)和引用(双向)调用。
2025-06-27 18:18:28
582
原创 数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识
本文概述了信息安全基础技术:对称加密(如AES)使用单一密钥实现加解密,效率高但密钥管理复杂;非对称加密(如RSA)采用公钥/私钥对,安全性强但速度慢,适用于少量数据。介绍了信息摘要(Hash函数)和数字签名的应用原理,以及数字信封技术如何确保信息保密性。最后简要说明了计算机系统可靠性的评估方法,包括串联和并联系统的可靠性计算模型。这些技术构成了现代信息安全体系的核心基础。
2025-06-27 18:16:00
153
原创 数据库系统工程师—1.2计算机体系结构与存储系统
本文摘要:计算机体系结构主要分为单处理、并行处理与分布式系统,以及CISC与RISC两类指令集。RISC采用精简指令,适用于高效能场景;CISC指令复杂,强调兼容性。存储系统按位置、材料等分类,包含内存、外存及高速缓存Cache。Cache通过地址映射(直接、全相联、组相联)提升访问速度,利用局部性原理减少主存访问。性能分析中,Cache命中率直接影响系统效率。最后,内存编址计算基于单元数量与地址范围。
2025-06-27 18:13:27
652
原创 数据库系统工程师—1.1计算机硬件基础知识
计算机硬件基础知识摘要:计算机硬件包括CPU、存储器及输入输出设备。CPU由运算器和控制器组成,运算器执行算术逻辑运算,控制器负责指令解析和执行。数据、地址和控制总线用于信息传输。输入输出控制方式包括程序控制、中断、DMA及通道方式,以提高效率。指令周期涉及时钟周期、总线周期和机器周期。进制转换包括二进制、八进制、十进制和十六进制。数据表示有原码、反码、补码和移码。校验码如海明码用于错误检测。
2025-06-27 18:11:19
709
原创 基于HIVE的疫情防控数据分析与可视化
简单手写Jar包完成数据筛选计算,通过Hadoop完成任务并存储在hive中。利用Django和echarts完成数据可视化
2025-02-18 18:04:36
1096
原创 快速搭建个人网站-WordPress
步骤一:购买域名步骤二:购买轻量应用服务器步骤三:登录宝塔步骤四:域名解析步骤五:一键部署WordPress
2025-02-10 15:00:02
1100
空空如也
关于时间复杂度O(n)问题
2023-11-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人