
数字化建设通关指南
文章平均质量分 87
SQL数据分析能力的提升、高级技巧及热门面试问题
数字化建设当中常见一些问题及思考
数字化建设业务该如何落地
数字化建设平台该如何选型
预算不够或资源不足时候,该如何向老板汇报?
数字化落地后该如何体现价值?在公司推广?
业务分析师应如何做好指标体系建设
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
莫叫石榴姐
10多年IT经验,数仓及SQL领域教练及专家,曾作为主面试官,面试多个候选人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓建模:设计上规范应如何做? | 数仓建设规范
在技术架构选型确定后,就需要对数据仓库主体分层进行划分,将原始明细数据存储于数据接入层,通过各分层的加工处理,最终输出到贴近业务的数据应用层,如下图所示:对于业务逻辑比较复杂的我们也可以抽象出基础指标层,按照实体建模,对同一对象的指标合并。DWD(明细数据层):又叫清洗层,和ODS层数据粒度一致,该层主要是对原始数据进行ETL操作,包括数据去重、脏数据过滤、空值处理、字段映射、数据脱敏、缺失值补充等操作,目的是为了保证数据质量。,比如财务主题、采购主题、生产主题、 库存主题、销售主题、服务主题。原创 2024-09-06 08:30:00 · 680 阅读 · 0 评论 -
SQL进阶技巧:数据预处理如何对数据进行分桶【分箱】?
本文详细介绍了数据分析中常见的几种分桶方式:基于业务规则的分桶、等距分桶及等频分桶等,针对每种分桶方式给出了SQL实现原创 2024-08-05 13:26:31 · 2973 阅读 · 0 评论 -
数仓建模:DWS层该如何建设?如何设计通用数据模型?
这样做不是不可以,在业务初期指标不是很多的情况下,我们为了能够快速构建应用看板可以这么做,但是随着业务的场景越来越复杂,指标越来越多,业务看数的需求变得更多的时候,这种模式就给IT人员造成了困扰,每一次需求都要重新开发一次,如果需求变更、迭代的快,明显数据开发人员开发速度是跟不上提需求的速度,这时候就需要我们数仓开发的同学去做好数据、指标的沉淀,开发更高效的模型来快速应对业务不断更新与迭代的各类需求,因此DWS公共汇总服务层便应运而生。总之DWS层是基于指标体系构建的对象宽表,主要是对对象的行为进行分析。原创 2024-07-31 15:15:41 · 1090 阅读 · 0 评论 -
数据指标异常应如何排查?完整的解决思路
在数据分析时,经常会遇到一些异常数据问题,比如某个商店近一周GMV突然下跌,某APP日活突然下降,此时就会被业务方质疑数据有问题。面对业务方质疑的时候我们如何快速找到问题原因,并给出解决方案呢?本文就为你提供一种指标异常时的完整解决方案。1数据准确性确认在面对异常信息的时候,首先要确认数据的准确性,也就是先要确认这个异常是否为真正的异常。1.1数据源的确认数据源是我们取数的基础,确保数据源的正确性是数据分析首要做的事情。1)确认数据有没有同步更新到最新2。原创 2024-07-18 11:04:39 · 612 阅读 · 0 评论 -
# 数仓建模:如何构建主题宽表模型?
(1)确定主键id:确定对象,如学员表,对象为学员,根据学员id关联其他数据源,其粒度不变(2)确立对象的属性:将对象属性冗余进宽表。如学员id,将学员的相关信息进行冗余(3)确立对象与对象之间的关系:如学员与教练的关系,一个学员可以有多个教练,该教练的信息如何。(4)确立对象的行为指标:该对象做了什么,发生了什么?如:学员报了几门课程,一共上过几门课,还有多少没上,成绩如何。原创 2024-07-11 10:47:22 · 1743 阅读 · 0 评论 -
读者提问:如果维度退化或下沉的维度属性发生了变化,事实表该如何处理?
本文探讨数据仓库中维度退化和维度属性下沉的设计变化处理策略。维度退化是将标识符或低基数属性直接嵌入事实表,维度下沉是将维度属性冗余至事实表以提升查询性能。当这些维度发生变化时,需分类处理:退化维度若格式变更可采用映射表兼容,语义变更则需重构为独立维度表;下沉属性需区分历史快照与当前状态需求,动态属性应恢复维度表关联。文章提出三条设计禁区:动态属性禁止下沉、需扩展字段的标识符禁止退化、高频变更低基数属性禁止简化处理。核心原则是保持事实表记录业务客观事实的稳定性,通过SCD策略管理维度表变化。设计需权衡性能与可原创 2025-08-05 12:00:00 · 1 阅读 · 0 评论 -
数仓新手开发如何撰写技术文档?
本文为数据仓库开发新手提供了一份简明技术方案写作指南。文章指出新手常遇到的三大痛点:不知从何下笔、术语难懂、文档要求高,并给出解决方案:聚焦"要做什么"、"怎么做"、"问题解决"和"时间规划"四个核心要素。指南包含7个模块:明确读者需求、数据需求梳理、简化架构设计、数据处理流程、技术选型建议、分阶段实施计划和风险预判,并附有可直接套用的模板。特别强调新手应避免追求复杂,而要用业务语言说明痛点,用SQL伪代码展示处理逻辑,提前识别原创 2025-07-31 09:00:00 · 33 阅读 · 0 评论 -
面试提问:数据开发中如何通过指标拆解来指导SQL编写?(附拆解模板)
摘要:指标拆解是一种高效的数据分析方法,通过将复杂业务指标分解为可执行的原子指标,指导SQL查询的编写。核心步骤包括:明确指标定义、拆解原子指标、定位数据源、确定分组维度、构建中间表。文章提供了指标拆解模板和实际案例(如用户留存率计算),并总结了拆解带来的5大好处:逻辑清晰、易于调试、可复用、降低错误率、便于协作。最后强调"一定义、二拆解、三定位、四分步、五合并"的口诀,适用于数仓开发、BI报表等场景。原创 2025-07-31 10:00:00 · 36 阅读 · 0 评论 -
京东数据研发一面:用HiveSQL计算新用户近7日留存率(不允许使用JOIN)
本文分享了一种高效计算7日用户留存率的HiveSQL方法,通过集合函数替代传统JOIN操作。核心思路是将用户活跃日期聚合为数组,用array_contains判断留存状态,相比JOIN方式性能提升显著(百万级数据从12分钟降至1分钟)。方法要点包括:使用COLLECT_SET去重聚合活跃日期,通过date_add计算目标留存日,并兼容不同日期格式。该方案可灵活扩展至N日留存计算,体现了大数据处理中"用集合替代关联"的优化思维,为电商、外卖等业务场景的用户行为分析提供了高效解决方案。原创 2025-07-30 12:30:00 · 48 阅读 · 0 评论 -
JD物流运输面试SQL题:物流时效分析实战
本文基于HiveSQL,提出了一套完整的物流时效分析方案,用于计算三大核心指标:各线路平均运输时长、准时交付率和最常延误线路。方案采用CTE和窗口函数分层处理数据,通过一次表扫描完成多指标计算,保证了性能与准确性。SQL实现中详细解析了DATEDIFF函数计算运输时长、CASE WHEN判断准时订单以及DENSE_RANK进行延误排名的关键逻辑。示例数据执行结果显示,该方案能清晰识别高效线路(准时率100%)和问题线路(延误率100%),为物流优化提供数据支持。方案具有结构化查询、结果完整性强等特点,并可扩原创 2025-07-30 09:00:00 · 36 阅读 · 0 评论 -
数仓里的“指标“和“标签“:我踩过的坑与终于想通的边界
【摘要】本文通过作者亲身经历的数据指标与标签混淆案例,揭示了数据仓库设计中指标和标签的本质区别:指标是量化业务结果的数值(如GMV、DAU),回答"多少"问题;标签是描述实体特征的分类标识(如高价值用户),回答"是什么"问题。文章从定义、用途、计算逻辑等维度对比两者差异,指出常见误区包括将标签直接当指标统计、口径不明确等,并给出SMART原则等解决方案。通过美妆电商提升复购率的案例,展示了如何用指标发现问题、标签定位对象、运营干预并验证效果的闭环方法。最后强调指标是业原创 2025-07-24 17:30:00 · 793 阅读 · 0 评论 -
面试提问:数据开发时,数据探查到底探查的是什么?应如何探查,探查的思路是什么?
数据探查是数仓开发中确保数据质量的关键环节。文章指出,跳过数据探查会导致数据不一致、异常值等问题。数据探查需从四方面入手:1)基础元数据检查表结构和字段属性;2)基于ICATT模型验证数据质量(完整性、准确性等);3)业务合理性检查;4)数据分布分析。实施时要分层递进,优先核心数据,结合业务场景,并建立常态化机制。通过自动化探查和监控,可避免建模返工,保障数据可靠性,赢得业务信任。合理的数据探查能有效预防数据问题,是数据工程师必备的核心能力。原创 2025-07-23 10:00:00 · 45 阅读 · 0 评论 -
数仓建设中,如何做基线管理?
摘要:数据仓库基线管理是保障数据"可用、可信、及时"的核心体系,解决规模化数仓的"失控"难题。文章提出五大基线管理要素:1)标准基线规范数据定义与口径;2)流程基线确保开发变更可控;3)质量基线通过自动化监控保障数据合格性;4)时效基线建立SLA机制确保及时产出;5)安全基线实现敏感数据保护。实践表明,基线管理需业务驱动、工具固化和持续迭代,通过"定义基准+监控偏差+持续校准",推动数据从"被动运维"到"主动治理&qu原创 2025-07-22 10:00:00 · 154 阅读 · 0 评论 -
SQL实战:如何精准计算用户页面停留时长(含连续访问合并与异常处理)
本文探讨了如何通过SQL精准计算用户在页面的停留时长,解决日志数据中常见的连续重复事件、事件缺失和连续访问合并三大问题。通过三步处理:1)过滤连续重复事件,保留有效enter/leave;2)为enter匹配最近的leave,缺失时用超时时间或下次事件时间填充;3)合并间隔≤30分钟的连续访问为同一会话。关键SQL技术包括窗口函数、时间函数和CTE,同时强调了业务规则(如超时阈值设定)的重要性。最终方案能有效处理脏数据,准确计算用户停留时长,为分析用户粘性提供可靠依据。原创 2025-07-21 13:30:00 · 43 阅读 · 0 评论 -
SQL面试提问:如何生成连续日期表并填充销售数据中缺失的日期?| 京东
本文介绍了Hive中生成连续日期序列并补全销售数据的两种方法。对于支持递归CTE的高版本Hive,可通过递归生成产品日期范围内的所有日期;低版本则需借助数字序列表和日期函数实现。核心步骤包括:确定产品销售日期范围、生成连续日期序列、关联销售数据补全缺失值(缺失日期销售额记为0)。文章详细解析了两种实现方式的SQL代码,并提供了使用示例和版本兼容性说明,帮助用户根据实际环境选择合适方案,确保销售数据分析的时间序列完整性。原创 2025-07-21 09:00:00 · 41 阅读 · 0 评论 -
SQL面试题:如何统计美团外卖骑手近30天配送数据?(订单数/时长/差评率全解析)
本文介绍了如何通过SQL统计外卖骑手近30天的核心配送数据,包括配送订单数、平均配送时长和差评率三个关键指标。重点解析了数据筛选规则(时间范围、订单状态、异常值处理)和指标计算方法,并提供了完整的SQL实现示例。文章还探讨了性能优化策略(索引设计、分区表)和业务扩展方向,解答了关于时间基准选择、异常值处理、差评率计算等常见问题。该案例展示了SQL在业务分析中的实际应用流程,包括需求拆解、数据清洗、指标计算和优化扩展等关键环节。原创 2025-07-18 09:00:00 · 130 阅读 · 0 评论 -
数仓建设中,系统数据录入错误或者延迟,如何对历史数据修复或补入?
本文系统介绍了数据仓库中历史数据问题的修复方案。首先阐述了数据错误(字段值错误、重复/缺失数据)和延迟问题的发现方法,包括数据质量监控和延迟监控体系的建立。接着详细说明了问题定位的溯源方法,并针对不同类型的数据错误提出了分层修复策略:对于数据录入错误需修正源数据并重跑链路;对于延迟问题采用增量补录、拉链表或侧输出流等技术处理。文章还强调了修复后的多维度验证流程、对上层数据的影响回溯以及预防措施(流程优化、加强测试和完善监控)。通过"发现-定位-修复-验证-回溯-预防"的闭环管理,可以确保原创 2025-07-17 13:00:00 · 64 阅读 · 0 评论 -
数仓晋升答辩:如何对数仓工作进行总结,凸显价值?
数仓是“数据的翻译官”——把业务问题翻译成数据模型,把数据资产翻译成业务洞察,让数据从“沉默的资源”变成“可驱动增长的生产力”。原创 2025-07-17 08:30:00 · 147 阅读 · 0 评论 -
面试灵魂拷问:SQL语句中where条件后为什么写上1=1?有什么作用?
摘要: WHERE 1=1是SQL中的一种动态条件拼接技巧,在数仓ETL和动态查询场景中具有重要作用。核心价值在于简化条件拼接逻辑,避免语法错误,提升脚本可维护性和灵活性。主要应用场景包括:1)动态分区加载,确保分区条件优先拼接;2)多条件报表查询,统一处理可选参数;3)调试测试,快速切换条件。数仓中需注意分区裁剪优化,避免性能影响,主流引擎(如Hive/SparkSQL)会忽略1=1的冗余条件。合理使用该技巧可提升工程效率,但需避免在固定条件场景中滥用以保持代码简洁性。原创 2025-07-16 10:00:00 · 52 阅读 · 0 评论 -
数仓应如何优化成本?
数仓成本优化需从存储、计算、人力和架构四大模块切入。存储优化采用数据分级(热/温/冷)、冗余清理和格式压缩(如Parquet)策略,可降本30%-50%。计算优化通过任务画像、结果复用(中间层)和引擎升级(Spark/Presto),提升资源利用率15%-50%。人力成本通过ETL模板化、自动化监控和自助BI降低10%-20%。长期建议迁移云原生架构实现弹性伸缩,采用精益建模减少冗余。实施路径建议分阶段推进:短期清理冗余,中期流程标准化,长期架构升级,最终实现总成本下降30%-50%的同时保障业务需求。原创 2025-07-14 13:00:00 · 769 阅读 · 0 评论 -
智慧电力行业解决方案
智慧电力行业解决方案聚焦电力集团数字化转型,针对信息化建设水平不均、标准缺失、人才短缺等痛点,构建"网络-平台-数据-安全"一体化体系。核心包括三级管控架构(集团-区域-厂站)、5G专网基础设施、新型能源调控平台及智能电厂应用,通过AI技术实现设备预测维护、智能巡检等功能。方案强调统一标准建设与数据治理,分三阶段推进至2030年完成数字化新型电力系统转型,典型案例已应用于电厂智能巡检和新能源监控系统。原创 2025-07-07 09:00:00 · 700 阅读 · 0 评论 -
SQL表模型设计题目:员工部门父子级关系,要设计出一张表方便查询一级部门的员工人数?
【摘要】针对员工-部门父子级关系的表设计问题,提出两种高效解决方案: MySQL方案:采用邻接表模型,部门表存储层级关系(parent_dept_id),员工表关联部门ID。通过递归CTE查询一级部门及其子部门的员工总数,配合索引优化查询性能。 Hive方案:结合邻接表与路径枚举法,部门表新增dept_path字段(如"/1/2/")快速定位子部门。利用分区/分桶优化大数据查询,并建议预计算生成汇总表提升高频查询效率。 两种方案均支持统计一级部门总人数(含子部门),MySQL适合中小规模原创 2025-07-14 09:00:00 · 31 阅读 · 0 评论 -
数仓设计中,如果修饰词变成了业务过程中的一个维度,应怎么办?| 作业帮一面
摘要:在数据仓库维度建模中,当事实表的修饰词属性(如折扣类型)演变为需要独立分析、具有丰富属性的业务实体时,应将其升级为独立维度表。这种转变的核心步骤包括:识别维度实体、提取维度属性、修改事实表关联、处理缓慢变化维度、验证查询效果和更新下游模型。升级标准取决于业务需求,需满足多属性分析、数据一致性等要求,但应避免过度维度化。该过程体现了维度建模"业务需求导向"的核心思想,通过将业务标签转化为可分析实体,最终提升模型的灵活性和分析能力。原创 2025-07-11 09:00:00 · 37 阅读 · 0 评论 -
指标治理:修饰词与维度的区别是什么?
维度与修饰词在指标治理中的关键区别:维度(Dimension)是数据的分类视角(如地区、产品类别),用于拆解分析指标,通过GROUP BY实现;修饰词(Filter)则限定指标计算范围(如"新用户订单"),通过WHERE条件过滤数据。核心差异在于维度会改变分析粒度,而修饰词仅聚焦特定场景。正确区分二者可避免指标爆炸,构建灵活可复用的指标体系。维度决定"怎么看"数据,修饰词决定"算什么"数据。原创 2025-07-02 12:30:00 · 846 阅读 · 0 评论 -
面试提问:SQL JOIN 中 ON 和 WHERE 条件的区别
SQL 中,JOIN 操作中的条件可以写在 ON 子句或 WHERE 子句中,但它们的行为和结果有重要区别。要理解SQL中JOIN时条件写在ON后与WHERE后的区别,需结合JOIN类型(如INNER JOINLEFT JOIN)及执行逻辑分析。。以下通过示例详细说明。原创 2025-07-07 13:00:00 · 71 阅读 · 0 评论 -
数仓实战:不同业务场景下数据合并策略及实现方案
Hive数据仓库合并策略指南 摘要:本文详细介绍了Hive数据仓库中五种典型数据合并场景的实现方案。1)全量覆盖合并:适用于小表全量更新,直接覆盖目标表;2)增量追加合并:针对只增不减的日志数据,按时间分区追加;3)增量更新合并:保留最新状态,适用于订单等需要实时更新的数据;4)拉链表合并:通过生效/失效时间记录历史版本,适合需要追溯变更的数据;5)多源数据合并:按唯一键横向关联不同系统的同主体数据。每种方案均包含表结构设计、示例数据、详细实现步骤和适用性分析,帮助开发者根据业务需求选择最佳合并策略。原创 2025-07-07 09:00:00 · 49 阅读 · 0 评论 -
数仓建模:如何提升模型的复用性?| 面试篇
【摘要】提升数仓模型复用性需从架构设计、模型规范、协作机制三方面入手。关键方法包括:分层架构(DWD/DWS层标准化)、维度建模(共享维度+细粒度事实表)、公共指标封装,配合元数据管理和跨部门评审机制。实践案例表明,该方法可减少60%重复代码,缩短开发周期70%,同时需平衡复用性与灵活性。最终实现数据口径统一、开发效率提升和业务快速迭代的目标。原创 2025-07-04 09:00:00 · 66 阅读 · 0 评论 -
数仓建模:如何提升模型的复用性?| 案例篇
电商集团通过数仓模型复用优化解决三大痛点:1.分层架构统一DWD层明细表,支持多业务线复用用户行为与订单数据;2.构建通用维度表与指标层,实现跨部门共享用户、商品维度和统一GMV计算口径;3.建立标准化命名规范与元数据管理,提升模型可读性。实施效果:开发周期缩短71%(7天→2天),代码量减少60%,数据准确率提升90%,财务核算耗时从3天降至10分钟。该案例证明,通过架构设计、规范约束和跨部门协作,可将数据资产转化为共享资源,实现"一次开发、多次复用"的增效目标。原创 2025-07-03 09:00:00 · 61 阅读 · 0 评论 -
数仓建模:如何提升模型的复用性?| 理论篇
数仓模型复用性提升的核心在于分层架构、维度建模和标准化设计。通过DWD/DWS分层实现数据逐层复用,构建通用维度表和细粒度事实表作为共享基础。采用公共指标层统一计算逻辑,避免指标口径不一致。标准化命名和元数据管理提升模型可理解性,模块化设计解耦业务逻辑。同时需建立跨部门协作机制和技术工具支持,如模型评审、血缘追踪等,最终实现"一次开发、多次复用"的目标,降低开发成本,保障数据一致性。原创 2025-07-02 09:00:00 · 61 阅读 · 0 评论 -
数仓排期困境破局:如何构建让业务方信服的排期体系?
摘要: 数仓排期争议源于业务价值与技术实现的认知鸿沟。本文提出三维破局策略:1)需求解构:用“业务目标-数据需求-模型模块”三层拆解法锚定优先级,四象限法排序需求;2)技术拆解:原子化拆解6大建模环节,量化工时并暴露隐性成本(如数据治理、性能优化);3)风险量化:三级缓冲机制(任务级×1.5系数、阶段级预留、项目级10%弹性)应对需求变更与外部依赖。核心是通过业务语言翻译技术排期(如甘特图标注里程碑价值)、迭代交付最小可用版本,建立动态信任。最终排期表需透明化依赖与缓冲逻辑,让业务方理解“时间花在哪”。原创 2025-07-01 13:00:00 · 488 阅读 · 0 评论 -
数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开
数仓建模中分区时间的设计策略摘要 在数仓建模中,分区时间设计需平衡数据接入效率和业务分析准确性,核心原则是: 分层处理:ODS层采用系统时间(数据加载时间)分区,确保原始数据快速接入;DWD/DWS/ADS层采用业务时间(事件发生时间)分区,保证分析准确性。 场景适配: 系统时间分区:适用于实时/近实时数据(如日志)、无延迟或低延迟场景,实现简单且避免历史分区修改。 业务时间分区:适用于存在延迟或需回溯的业务数据(如订单、财务报表),需动态分区技术支持历史数据补录。 特殊处理: 复合分区:必要时可结合双分区原创 2025-07-01 08:30:00 · 49 阅读 · 0 评论 -
Hive SQL 高级应用:实战演练—从经典题目到业务洞察
摘要: 本文展示了16个高级SQL实战案例,涵盖电商数据分析的多个维度。通过排名筛选、分类聚合、用户行为分析等场景,演示了DENSE_RANK()、窗口函数、多表关联等高级SQL技巧的应用。案例包括销量排名分析(筛选销量第二商品)、用户连续性行为识别(连续登录)、品类爆款挖掘(TopN分析)、用户价值分群(累计消费分级)、价格快照查询(时点状态)等典型业务场景。每个案例提供完整SQL实现,涉及日期处理、条件聚合、比率计算等数据仓库常见需求,为构建复杂分析报表提供了实用参考模板。原创 2025-06-27 09:00:00 · 472 阅读 · 0 评论 -
HiveSQL高级应用:数据洞察与分析—从基础到实战解锁数据价值
本文通过13个实际案例展示了电商数据分析的SQL实现方法,涵盖订单分析、用户行为、商品销售等多个维度。案例1-3分别使用窗口函数计算3日订单金额趋势、通过collect_set分析商品关联、运用条件求和对比商品销量;案例4-6涉及用户最近订单追踪(ROW_NUMBER)、登录空档期计算(DATEDIFF/LEAD)和异常登录检测;案例7-13包含连续销售达标判断、商品分类统计、品类Top3筛选、价格中位数计算等典型场景。文中还详细提供了10张业务表的建表语句和测试数据,包括用户信息、商品明细、订单数据等,为原创 2025-06-25 22:30:47 · 81 阅读 · 0 评论 -
别再傻傻的分不清了!粒度 vs 维度 本质差异
数据仓库中的粒度与维度:核心区别与联系 粒度(Granularity)和维度(Dimension)是数据建模的两个关键概念,二者有着本质区别: 粒度描述数据的详细程度(如订单级或日汇总级),决定事实表记录的原子性; 维度提供分析视角(如时间、产品维度),是分类和筛选的依据。 主要差异: 粒度影响存储量和分析深度,维度决定分析角度; 粒度本身无层级,但可通过维度实现上卷/下钻; 维度的属性(如时间维度中的年月日)支持对固定粒度数据的多角度分析。 二者协同工作:维度定义粒度的最低级别(如"日-商品-门原创 2025-06-26 12:00:00 · 272 阅读 · 0 评论 -
数仓面试提问:如何判断业务过程划分的好坏?| 途虎养车
摘要:数据仓库业务过程划分的关键在于实现"业务可解释、数据可建模、分析可落地"三大目标。本文提出五大判断标准:1)业务动作原子化,确保每个过程对应不可拆分的独立业务动作;2)事实粒度唯一化,保证事实表具有清晰一致的粒度;3)需求覆盖全链路,满足核心指标的可拆解性;4)维度关联无死角,通过公共维度支持跨过程分析;5)资源投入ROI平衡,权衡分析价值与数据成本。文章还分析了三类典型场景的决策方法,并强调业务过程划分需要持续迭代优化,最终目标是能够动态支撑业务决策需求。(149字)原创 2025-06-24 10:00:00 · 157 阅读 · 0 评论 -
SQL面试题:基于时间间隔的浏览时长问题
本文详解基于时间间隔的用户会话识别算法,通过HiveSQL实现点击流数据的分组统计。核心步骤包括:计算相邻点击时间差、标记新会话起点、构造会话标识、分组聚合统计。该方案采用窗口函数LAG()和SUM()OVER()组合,可准确输出每个会话的开始时间、点击次数和总时长。该方法适用于电商、游戏、广告监测等领域的用户行为分析,是构建数据分析系统的基础能力。文章还提供了完整SQL脚本、执行示例及进阶优化建议,具有较高的工程实践价值。原创 2025-06-25 09:00:00 · 76 阅读 · 0 评论 -
SQL面试题:用户登录行为分析
文章摘要: 本文介绍了用户行为分析的6个核心指标定义及SQL实现方法:活跃用户(当日登录)、新增用户(首次登录)、留存用户(持续使用)、流失用户(未登录超阈值)、沉默用户(仅登录一次)和回流用户(重新激活)。通过示例数据表结构(含用户ID和登录日期字段),展示了各指标的计算逻辑和SQL查询模板,包括多表关联、日期差值计算和分组统计等技术要点。该分析框架可帮助产品团队量化用户活跃度、增长趋势、粘性及流失情况,为优化产品体验和用户召回策略提供数据支持。原创 2025-06-24 09:30:00 · 74 阅读 · 0 评论 -
SQL面试题:舆情分析 | 字节跳动2025
📱抖音、西瓜、头条等媒体平台的文字流(文章、评论、弹幕)。🔍创业人物:雷军雷布斯汝波梁汝波一鸣张一鸣胖东来刘强东情绪词:我去忍火离职废物🔄同时命中创业人物和情绪词(标题或内容中均可)。📋统计命中记录的详细信息及关键词。🎯目标识别包含指定创业人物与情绪词的文本。⚖️条件每条记录需同时包含至少一个创业人物和一个情绪词。📊输出命中记录的详细信息及关键词统计。原创 2025-06-23 09:00:00 · 242 阅读 · 0 评论 -
SQL面试题:推荐商品问题—基于用户相似性的推荐
本文提出一种基于用户共同购买行为的商品推荐方法。通过分析用户购买记录,当两个用户共同购买至少2件商品时,将他们视为相似用户。系统会自动将相似用户购买而目标用户未购买的商品作为推荐项。文章详细阐述了SQL实现步骤:1)识别相似用户对;2)获取相似用户购买的商品;3)筛选目标用户未购买的商品作为推荐。该方法实现了简单的协同过滤推荐,但存在未考虑商品类别、购买频率等局限。适用于中小规模电商系统的个性化推荐场景。原创 2025-06-18 23:24:05 · 65 阅读 · 0 评论 -
网友提问:数仓ADS层有事实表吗?|一个关于数据仓库分层架构的常见疑问
ADS 层的主要目的是提供面向最终应用的、高度聚合或轻度汇总的数据,通常以。原创 2025-06-12 11:00:00 · 1148 阅读 · 0 评论