SELECT t1.F_DaTag, CASE WHEN q1_lower.F_AvgData IS NOT NULL AND q1_upper.F_AvgData IS NOT NULL THEN (q1_lower.F_AvgData + (q1_pos.q1_position - FLOOR(q1_pos.q1_position)) * (q1_upper.F_AvgData - q1_lower.F_AvgData)) * 2 ELSE NULL END AS daily_value FROM (SELECT DISTINCT F_DaTag FROM t_houraggregation) t1 LEFT JOIN ( -- 计算每个F_DaTag的数据量和Q1位置 SELECT F_DaTag, COUNT() AS total_count, (COUNT() + 1) * 0.25 AS q1_position FROM t_houraggregation WHERE F_DataDate BETWEEN DATE_SUB(CURRENT_DATE(), INTERVAL 31 DAY) AND DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY) GROUP BY F_DaTag ) q1_pos ON t1.F_DaTag = q1_pos.F_DaTag LEFT JOIN ( -- 获取Q1下限值(floor(q1_position)) SELECT t2.F_DaTag, t2.F_AvgData, @rownum := IF(@prev = t2.F_DaTag, @rownum + 1, 1) AS row_num, @prev := t2.F_DaTag FROM t_houraggregation t2 JOIN (SELECT @rownum := 0, @prev := '') r WHERE t2.F_DataDate BETWEEN DATE_SUB(CURRENT_DATE(), INTERVAL 31 DAY) AND DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY) ORDER BY t2.F_DaTag, t2.F_AvgData ) q1_lower ON t1.F_DaTag = q1_lower.F_DaTag AND q1_lower.row_num = FLOOR(q1_pos.q1_position) LEFT JOIN ( -- 获取Q1上限值(ceil(q1_position)) SELECT t2.F_DaTag, t2.F_AvgData, @rownum := IF(@prev = t2.F_DaTag, @rownum + 1, 1) AS row_num, @prev := t2.F_DaTag FROM t_houraggregation t2 JOIN (SELECT @rownum := 0, @prev := '') r WHERE t2.F_DataDate BETWEEN DATE_SUB(CURRENT_DATE(), INTERVAL 31 DAY) AND DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY) ORDER BY t2.F_DaTag, t2.F_AvgData ) q1_upper ON t1.F_DaTag = q1_upper.F_DaTag AND q1_upper.row_num = CEIL(q1_pos.q1_position);

时间: 2025-08-08 18:13:35 浏览: 8

<think>我们正在处理一个SQL查询，该查询的目标是计算每个F_DaTag的每日值（daily_value）。这个值是通过计算每个F_DaTag在过去31天（不包括今天）的数据的第一四分位数（Q1）乘以2得到的。由于四分位数的计算可能涉及插值，这里使用了线性插值的方法。步骤： 1. 首先，从t_houraggregation表中获取所有不同的F_DaTag。 2. 对于每个F_DaTag，计算过去31天数据的总行数（total_count）以及Q1的位置（q1_position = (total_count+1)*0.25）。 3. 然后，我们需要找到Q1位置对应的两个值：下限（floor(q1_position)）和上限（ceil(q1_position)），因为q1_position可能不是整数。 4. 使用变量（@rownum和@prev）为每个F_DaTag的数据按F_AvgData排序后分配行号。 5. 最后，通过线性插值计算Q1：如果q1_position是整数，则直接取该位置的值；否则，用上下限的值进行插值。然后将结果乘以2作为daily_value。但是，这个查询存在一些问题： a) 在MySQL中，用户变量在同一个查询中的行为是未定义的，尤其是当多个子查询同时使用变量时，可能会导致不可预测的结果。 b) 我们使用了两个几乎相同的子查询（q1_lower和q1_upper）来分别获取下限和上限，但由于变量赋值和排序的复杂性，这可能会出错。改进思路：我们可以尝试在一个子查询中同时获取每个F_DaTag的有序数据，并分配行号，然后通过一次排序和变量赋值来避免多次扫描。但是，由于我们需要两个位置（floor和ceil）的值，我们可以使用条件聚合来同时获取这两个值。另一种方法是使用窗口函数（如果MySQL版本支持，建议使用MySQL 8.0+的窗口函数）。但原查询使用了用户变量，可能是为了兼容旧版本。考虑到兼容性，我们仍然使用变量，但需要确保在一个有序的查询中为每个组分配行号。然而，原查询中两个子查询分别使用了变量，这可能导致变量状态混乱。这里我们重构查询，使用一个子查询来同时获取每个F_DaTag的有序数据，然后通过主查询连接位置信息并计算插值。但是，由于原查询中使用了两个独立的子查询分别计算下限和上限，且都使用了变量，这可能导致两个子查询的变量状态互相干扰（因为MySQL不保证子查询的执行顺序）。因此，我们需要合并这两个子查询。我们可以这样做： 1. 先为每个F_DaTag的数据按F_AvgData排序，并分配行号（在一个子查询中完成）。 2. 然后，将计算q1_position的子查询与这个有序子查询连接，同时获取floor(q1_position)和ceil(q1_position)位置的值。具体步骤：步骤1：计算每个F_DaTag的总行数和Q1位置（q1_pos）。步骤2：为每个F_DaTag的数据按F_AvgData排序，并分配行号（row_num）。步骤3：将步骤1和步骤2的结果连接，然后使用条件聚合（或两个连接）分别获取floor(q1_position)和ceil(q1_position)对应的F_AvgData。但是，由于我们使用的是MySQL，且可能不支持窗口函数（如果支持的话，用窗口函数更简单），这里我们使用变量来分配行号，但只在一个子查询中完成。重构的查询如下：注意：我们使用一个子查询（sorted_data）来为每个F_DaTag的数据排序并标记行号。然后，我们分别连接这个子查询两次（作为q1_lower和q1_upper）来获取下限和上限的值。但是，由于同一个子查询被多次引用，我们可能会遇到性能问题，但逻辑上更清晰。以下是重构后的查询（使用变量，但只在一个子查询中排序一次）：</think>这个 SQL 查询的目标是计算每个 `F_DaTag` 在过去 31 天内的第一四分位数（Q1）的 2 倍值。它使用线性插值法处理非整数位置的分位数计算。以下是详细解释和优化建议： ### 原理解释 1. **数据准备** - `t1`：获取所有唯一的 `F_DaTag` 值 - `q1_pos`：计算每个标签的数据总量和 Q1 位置 `(total_count + 1) * 0.25` 2. **有序数据标记** 通过用户变量 `@rownum` 和 `@prev` 为每个 `F_DaTag` 的数据按 `F_AvgData` 排序并标记行号： ```sql SELECT t2.F_DaTag, t2.F_AvgData, @rownum := IF(@prev = t2.F_DaTag, @rownum + 1, 1) AS row_num, @prev := t2.F_DaTag FROM t_houraggregation t2 JOIN (SELECT @rownum := 0, @prev := '') r ORDER BY t2.F_DaTag, t2.F_AvgData ``` 3. **分位数插值** 当 Q1 位置非整数时，使用线性插值公式： `Q1 = lower_value + (position - floor(position)) * (upper_value - lower_value)` 最终结果乘以 2：`daily_value = Q1 * 2` ### 优化建议原查询存在两个独立子查询计算行号，可能导致性能问题。优化方案使用窗口函数（MySQL 8.0+）或合并行号计算： #### 方案 1：使用窗口函数（推荐） ```sql WITH sorted_data AS ( SELECT F_DaTag, F_AvgData, ROW_NUMBER() OVER (PARTITION BY F_DaTag ORDER BY F_AvgData) AS row_num FROM t_houraggregation WHERE F_DataDate BETWEEN CURRENT_DATE - INTERVAL 31 DAY AND CURRENT_DATE - INTERVAL 1 DAY ), q1_positions AS ( SELECT F_DaTag, COUNT(*) AS total_count, (COUNT(*) + 1) * 0.25 AS q1_position FROM t_houraggregation WHERE F_DataDate BETWEEN CURRENT_DATE - INTERVAL 31 DAY AND CURRENT_DATE - INTERVAL 1 DAY GROUP BY F_DaTag ) SELECT p.F_DaTag, CASE WHEN lower_data.F_AvgData IS NOT NULL AND upper_data.F_AvgData IS NOT NULL THEN (lower_data.F_AvgData + (p.q1_position - FLOOR(p.q1_position)) * (upper_data.F_AvgData - lower_data.F_AvgData)) * 2 ELSE NULL END AS daily_value FROM q1_positions p LEFT JOIN sorted_data lower_data ON p.F_DaTag = lower_data.F_DaTag AND lower_data.row_num = FLOOR(p.q1_position) LEFT JOIN sorted_data upper_data ON p.F_DaTag = upper_data.F_DaTag AND upper_data.row_num = CEIL(p.q1_position); ``` #### 方案 2：合并行号计算（兼容低版本） ```sql SELECT t1.F_DaTag, CASE WHEN lower_data.F_AvgData IS NOT NULL AND upper_data.F_AvgData IS NOT NULL THEN (lower_data.F_AvgData + (q1_pos.q1_position - FLOOR(q1_pos.q1_position)) * (upper_data.F_AvgData - lower_data.F_AvgData)) * 2 ELSE NULL END AS daily_value FROM (SELECT DISTINCT F_DaTag FROM t_houraggregation) t1 LEFT JOIN ( SELECT F_DaTag, COUNT(*) AS total_count, (COUNT(*) + 1) * 0.25 AS q1_position FROM t_houraggregation WHERE F_DataDate BETWEEN CURRENT_DATE - INTERVAL 31 DAY AND CURRENT_DATE - INTERVAL 1 DAY GROUP BY F_DaTag ) q1_pos ON t1.F_DaTag = q1_pos.F_DaTag LEFT JOIN ( SELECT F_DaTag, F_AvgData, row_num FROM ( SELECT F_DaTag, F_AvgData, @rn := IF(@prev_tag = F_DaTag, @rn + 1, 1) AS row_num, @prev_tag := F_DaTag FROM t_houraggregation CROSS JOIN (SELECT @rn := 0, @prev_tag := NULL) vars WHERE F_DataDate BETWEEN CURRENT_DATE - INTERVAL 31 DAY AND CURRENT_DATE - INTERVAL 1 DAY ORDER BY F_DaTag, F_AvgData ) ranked ) lower_data ON t1.F_DaTag = lower_data.F_DaTag AND lower_data.row_num = FLOOR(q1_pos.q1_position) LEFT JOIN ( -- 复用同一排序结果（避免重复计算） SELECT F_DaTag, F_AvgData, row_num FROM ( SELECT F_DaTag, F_AvgData, @rn2 := IF(@prev_tag2 = F_DaTag, @rn2 + 1, 1) AS row_num, @prev_tag2 := F_DaTag FROM t_houraggregation CROSS JOIN (SELECT @rn2 := 0, @prev_tag2 := NULL) vars WHERE F_DataDate BETWEEN CURRENT_DATE - INTERVAL 31 DAY AND CURRENT_DATE - INTERVAL 1 DAY ORDER BY F_DaTag, F_AvgData ) ranked ) upper_data ON t1.F_DaTag = upper_data.F_DaTag AND upper_data.row_num = CEIL(q1_pos.q1_position); ``` ### 关键改进 1. **窗口函数替代变量** 使用 `ROW_NUMBER()` 确保跨数据库兼容性和执行效率 2. **合并行号计算** 避免对同一数据集进行两次排序 3. **明确变量初始化** 使用 `CROSS JOIN` 初始化变量，防止旧会话状态污染 4. **日期范围优化** 用 `CURRENT_DATE - INTERVAL N DAY` 提高可读性

阅读全文

相关推荐

ABAQUS中Fortran子程序的调用.rar_ABAQUS_abaqus .for 文件_abaqus 中select_f

Course_select.zip_Work It_chart_excel chart_worksheet

lyaprosen.rar_The First_exp

parameters-is-null-proc.zip_nullproc

carry_select_adder-(2).zip_Stay..

roi.zip_ROI_image ROI_jpg_jpg roi matlab_matlab roi

EurekaLog_7.5.0.0_Enterprise

SmartCarII_5_1.rar_HCS12_Modified_freescale can_full chip simula

SPI_TEST.zip_lines_one wire bus vhdl_spi device vhdl_spi motorol

ModRTUClient.zip_MODBUS Digital_finallydom_m_vb.net_vb.net rtu

IDS.zip_ABC-SVM_CYBER_The Show_cyber defense_ids

MySQL_5.1_HTML_chapter.rar_详细手册(html版)

SQL__case_when_then_的用法

Oracle_case_when_用法

sql case when exists not exists in not in

Event filter with query SELECT * FROM __InstanceModificationEvent WITHIN

SELECT语法.docx

Oracle11g环境下WMSYS.WM_CONCAT函数的重建方法

Oracle WMSYS.WM_CONCAT 行转列聚合函数详解

SQLServer字符串切割函数 dbo.Get_StrArrayLength 实现与使用

node - 下载安装指定版本

西门子S7-1500 PLC与WINCC上位机在大气治理项目的应用及调试详解

大家在看

金蝶EAS通过套打模板实现后台生成PDF文件.docx

复盛压缩机选型软件.rar )

基于边折叠的网格快速简化

20201107-为rvv-llvm添加一个intrinsic-廖春玉1

一种低噪声便携式的心电监测仪设计

最新推荐

[Oracle] dbms_metadata.get_ddl 的使用方法总结

mysql not in、left join、IS NULL、NOT EXISTS 效率问题记录

MySQL复制出错 Last_SQL_Errno:1146的解决方法

有限公司成立合作协议书.doc

mpu9650STM32f103c8t6例程

Python程序TXLWizard生成TXL文件及转换工具介绍

【创新图生成：扣子平台的技术前沿与创新思维】：引领图像生成技术的新潮流

海康威视机器视觉工程师考核

Linux环境下Docker Hub公共容器映像检测工具集

【扣子平台图像艺术探究：理论与实践的完美结合】：深入学习图像生成的艺术