表:Prices +---------------+---------+ | Column Name | Type | +---------------+---------+ | product_id | int | | start_date | date | | end_date | date | | price | int | +---------------+---------+ (product_id,start_date,end_date) 是 prices 表的主键(具有唯一值的列的组合)。 prices 表的每一行表示的是某个产品在一段时期内的价格。 每个产品的对应时间段是不会重叠的,这也意味着同一个产品的价格时段不会出现交叉。 表:UnitsSold +---------------+---------+ | Column Name | Type | +---------------+---------+ | product_id | int | | purchase_date | date | | units | int | +---------------+---------+ 该表可能包含重复数据。 该表的每一行表示的是每种产品的出售日期,单位和产品 id。 编写解决方案以查找每种产品的平均售价。average_price 应该 四舍五入到小数点后两位。如果产品没有任何售出,则假设其平均售价为 0。 返回结果表 无顺序要求 。 结果格式如下例所示。 示例 1: 输入: Prices table: +------------+------------+------------+--------+ | product_id | start_date | end_date | price | +------------+------------+------------+--------+ | 1 | 2019-02-17 | 2019-02-28 | 5 | | 1 | 2019-03-01 | 2019-03-22 | 20 | | 2 | 2019-02-01 | 2019-02-20 | 15 | | 2 | 2019-02-21 | 2019-03-31 | 30 | +------------+------------+------------+--------+ UnitsSold table: +------------+---------------+-------+ | product_id | purchase_date | units | +------------+---------------+-------+ | 1 | 2019-02-25 | 100 | | 1 | 2019-03-01 | 15 | | 2 | 2019-02-10 | 200 | | 2 | 2019-03-22 | 30 | +------------+---------------+-------+ 输出: +------------+---------------+ | product_id | average_price | +------------+---------------+ | 1 | 6.96 | | 2 | 16.96 | +------------+---------------+ 解释: 平均售价 = 产品总价 / 销售的产品数量。 产品 1 的平均售价 = ((100 * 5)+(15 * 20) )/ 115 = 6.96 产品 2 的平均售价 = ((200 * 15)+(30 * 30) )/ 230 = 16.96
时间: 2025-03-17 12:17:40 浏览: 47
<think>嗯,我现在得解决这个问题,题目是让我计算每个产品的平均售价。平均售价是总销售额除以销售的总单位数。如果产品没卖出去,平均价就是0。那这两个表的结构是怎样的呢?
首先看Prices表,主键是product_id、start_date和end_date的组合。每个产品在不同时间段有不同的价格,而且这些时间段不会重叠。那UnitsSold表记录的是每次销售的产品id、购买日期和单位数。可能有重复的数据。
我需要把这两个表关联起来,找到每个销售记录对应的价格。因为价格是按时间段划分的,所以对于每个UnitsSold中的记录,需要找到对应的product_id,并且购买日期在Prices表的start_date和end_date之间的那个价格。然后用这个价格乘以units,得到该次销售的总金额。最后,按产品分组,计算总金额的和除以总units的和,四舍五入两位小数。
那步骤应该是这样的:
1. 将UnitsSold表和Prices表进行连接,条件是product_id相同,并且purchase_date在start_date和end_date之间。这样每个销售记录就能对应到正确的价格区间。
2. 然后,计算每次销售的总金额(price * units),然后按product_id分组,求和总金额和总units。
3. 对于每个product_id,总金额除以总units,得到平均价格。如果总units是0的话,比如没有销售记录,那么平均价设为0。
那如何处理没有销售记录的产品呢?比如,如果一个产品在Prices表里有记录,但在UnitsSold里没有任何销售,那么在结果中应该显示该产品的average_price为0。这个时候可能需要用LEFT JOIN,或者先处理所有产品的情况。
不过题目中的Prices表可能有产品在UnitsSold中没有对应的销售记录。这个时候,我们需要将这些产品包括在结果中,并且average_price设为0。
那可能的做法是,先处理所有有销售记录的产品,计算平均价格,然后将结果与所有产品列表合并,填充那些没有销售的产品为0。或者使用LEFT JOIN的方式,将Prices中的product_id与UnitsSold关联,并计算总和。但要注意,每个product_id可能在Prices中有多个记录,但UnitsSold可能没有对应的销售记录。
不过,题目中的Prices表可能包含多个产品,每个产品的不同时间段的价格。但UnitsSold可能有或没有对应的记录。所以正确的做法应该是,先确保所有product_id都被考虑,包括那些在UnitsSold中没有销售记录的。
所以,可能需要先获取所有产品的列表,然后左连接计算后的总金额和总units。如果总units是NULL的话,就设置为0。
那具体来说,步骤可能是:
- 首先,将UnitsSold和Prices表连接,得到每个销售记录的price。
- 然后,按product_id分组,计算sum(price * units)作为总金额,sum(units)作为总单位数。
- 接着,计算总金额 / 总单位数,四舍五入两位。
- 然后,处理那些在Prices表中存在,但UnitsSold中没有记录的product_id,将它们的结果设为0。
或者,可能Prices表中的product_id可能包含所有需要处理的产品,因为题目要求返回每个产品的平均售价。假设Prices表中的每个product_id都需要出现在结果中,包括那些没有销售记录的。
那如何确保所有的product_id都出现在结果中?应该从Prices表中获取所有的product_id,然后左连接UnitsSold表。或者,先得到Prices中的所有product_id的distinct列表,然后左连接UnitsSold的处理后的结果。
例如:
首先,用Prices表中的所有product_id(去重后的)作为基础,然后左连接计算每个product_id的总金额和总units。如果总units是NULL的话,就说明没有销售记录,此时average_price是0。
那具体实现的话,可以用如下的SQL步骤:
步骤1:将UnitsSold和Prices连接,条件是两个表的product_id相等,并且purchase_date在start_date和end_date之间。这样可以得到每个销售对应的正确价格。
步骤2:计算每个product_id的总金额和总units。这一步的结果可能有product_id没有对应的总金额和总units,比如当该product_id没有销售记录的时候。
步骤3:从Prices表中获取所有distinct的product_id,然后左连接步骤2的结果。这样,所有product_id都会被包含,而如果有步骤2中的总金额和总units的话,就计算average_price;否则,average_price为0。
那具体的SQL语句怎么写呢?
比如,首先进行连接:
SELECT u.product_id, u.units, p.price
FROM UnitsSold u
JOIN Prices p ON u.product_id = p.product_id
AND u.purchase_date BETWEEN p.start_date AND p.end_date;
这一步得到每个销售记录的product_id,对应的units和price。然后,按product_id分组,计算sum(price * units)和sum(units)。这时候,对于每个product_id,如果存在销售记录的话,可以得到总金额和总units。
然后,计算总金额/总units,四舍五入两位。
但是,这样只能得到有销售记录的product_id。而我们需要包括所有Prices中的product_id,即使没有销售。
所以,正确的做法应该是,从Prices表中取出所有的product_id(DISTINCT),然后左连接上述的总金额和总units。
那可能的结构是:
WITH sales_sum AS (
SELECT
u.product_id,
SUM(p.price * u.units) AS total_amount,
SUM(u.units) AS total_units
FROM UnitsSold u
JOIN Prices p
ON u.product_id = p.product_id
AND u.purchase_date BETWEEN p.start_date AND p.end_date
GROUP BY u.product_id
)
SELECT
p.product_id,
COALESCE(ROUND(sales_sum.total_amount / sales_sum.total_units, 2), 0) AS average_price
FROM (SELECT DISTINCT product_id FROM Prices) p
LEFT JOIN sales_sum ON p.product_id = sales_sum.product_id;
这样是否正确?
比如,当sales_sum中有product_id的记录时,计算total_amount / total_units;否则,返回0。
但需要考虑total_units是否为0的情况吗?在题目中,UnitsSold表可能有重复的数据,但每个记录的units是正数吗?比如,示例中的units都是正数,但题目中的UnitsSold表中可能有没有units的情况吗?
题目中的UnitsSold表的描述中,units的类型是int,可能包括0吗?题目中没有说明,但根据示例中的情况,units是正数。所以假设每个UnitsSold记录的units是正数。因此,当有sales_sum中的记录时,total_units一定大于0。所以可以安全地进行除法操作。
那这样的话,当product_id在sales_sum中有记录时,total_amount和total_units都是非空的,且total_units不为0,可以计算除法。否则,product_id不在sales_sum中,此时用COALESCE将它们设为0。
这样应该可以得到正确的结果。
那现在,如何测试这个查询是否满足示例?
比如示例中的输入:
Prices表:
product_id 1有两个价格期间,例如第一个期间是2019-02-17到2019-02-28,价格5。第二个期间是2019-03-01到2019-03-22,价格20。
UnitsSold表中,product_id=1的两个销售记录:一个是在2019-02-25,属于第一个价格期间,所以price是5,units是100;另一个在2019-03-01,属于第二个价格期间,price是20,units是15。总金额是5*100 + 20*15=500+300=800,总units是115。800/115=6.956...四舍五入是6.96。
product_id=2的情况类似。
那么,上述的查询在示例中的情况,sales_sum表中product_id=1和2的总金额和总units都是正确的。然后,LEFT JOIN后,每个product_id都有对应的记录,average_price计算正确。
对于没有销售记录的product_id,假设在Prices表中存在,但UnitsSold中没有对应的记录,sales_sum中的该product_id的total_amount和total_units都是NULL,所以COALESCE后的结果是0。
这样应该就能满足题目要求了。
那么,最终的SQL语句应该怎么写?
需要注意的是,Prices表中的product_id可能有重复,但DISTINCT product_id应该正确获取所有产品。
或者,是否有其他方式获取所有产品的列表?比如,Prices表中可能存在同一product_id的多个记录,所以DISTINCT product_id是正确的。
所以,最终的查询应该是:
WITH sales_summary AS (
SELECT
u.product_id,
SUM(p.price * u.units) AS total_amount,
SUM(u.units) AS total_units
FROM UnitsSold u
JOIN Prices p
ON u.product_id = p.product_id
AND u.purchase_date BETWEEN p.start_date AND p.end_date
GROUP BY u.product_id
)
SELECT
p.product_id,
COALESCE(ROUND(ss.total_amount / ss.total_units, 2), 0) AS average_price
FROM (SELECT DISTINCT product_id FROM Prices) p
LEFT JOIN sales_summary ss ON p.product_id = ss.product_id;
这样应该可以解决问题。例如,当没有销售记录时,sales_summary中没有对应的product_id,LEFT JOIN之后,total_amount和total_units都是NULL,所以COALESCE将结果设为0。
那这个查询是否能处理所有情况?
比如,当某个product_id在UnitsSold中有销售,但这些销售记录的日期没有对应的Prices时间段的话?比如,如果UnitsSold中的某个记录的purchase_date不在任何Prices表的对应product_id的时间段内,那么这条记录不会被JOIN到,因此在sales_summary中不会被计入。这样该销售记录的units和price都不会被计算进去。这种情况下,该销售记录会被排除吗?
根据题目中的Prices表结构,每个product_id的价格时间段是不会有重叠的,并且每个时间段对应一个价格。但是,如果UnitsSold中的某个记录的purchase_date没有落在任何该product_id的时间段内,那么这条记录不会被关联到Prices表中,因此在sales_summary中也不会被计算进去。这样是否正确?
根据题目中的描述,Prices表的每个产品的对应时间段是不会重叠的,这应该意味着对于一个product_id,所有可能的日期都应该被覆盖吗?比如,可能存在某些日期没有价格记录吗?
题目中并没有说明Prices表中的时间段必须覆盖所有可能的日期。因此,可能存在UnitsSold中的purchase_date对应的product_id在Prices表中没有对应的价格时间段的情况。这种情况下,该销售记录不会被关联到任何价格,所以总金额和总units的计算中也不会包括它。这样,这部分销售记录会被忽略吗?
题目中的问题描述中的示例中,每个销售记录都能找到对应的价格区间。但题目中的问题定义中是否需要处理这种情况?
根据题目中的问题描述,要求的是计算每个产品的平均售价。这里的平均售价应该是基于销售记录对应的有效价格。如果某个销售记录的purchase_date没有对应的价格,那么该销售记录不应该被计入总金额和总units中。但根据题目中的示例和问题描述,这种情况可能不会存在?或者需要如何处理?
假设题目中的UnitsSold表中的所有记录的purchase_date都有对应的Prices记录,那么没有问题。但如果是实际数据中存在这种情况,那么这些销售记录会被排除,从而可能导致总units减少,进而平均售价可能计算错误?
不过根据题目中的问题描述,可能假设所有UnitsSold中的记录都有对应的Prices记录。或者题目中的要求是,即使存在这样的记录,这些记录将被忽略?
例如,如果某个销售记录的日期不在任何价格时间段内,那么该销售记录不会被计入总金额和总units中。这时候,average_price的计算将忽略这些记录。这可能是否符合题目要求?
根据问题描述中的示例,用户可能期望所有销售记录都被正确关联到价格。因此,在本题中,可能不需要考虑这种情况,但根据题目给出的条件,必须处理所有可能的情况,包括销售记录的日期没有对应价格的情况。此时,这些销售记录的units和金额都不会被计算到总和中。这将导致总units的总和可能小于实际UnitsSold表中的总和吗?
比如,假设某产品在Prices表中没有覆盖某个销售记录的日期,则该销售记录的units不会被计入总units,导致平均售价的计算不考虑这些记录。这可能是否符合题目中的要求?
题目中的问题描述中的平均售价定义为:总销售额 / 总销售单位数。这里的总销售额应该是每个销售记录对应的价格乘以units的总和。所以,如果某个销售记录的日期没有对应的价格,则该记录的销售额无法计算,所以该记录应该被排除。因此,这些记录不会被计算到总金额或总units中。因此,这种情况下,正确的处理方式是忽略这些记录。因此,我们的查询在这种情况下是正确的。
那如果某个product_id的所有销售记录都未被关联到价格(即所有的purchase_date都不在任何价格时间段内),那么该product_id的总units是0吗?在sales_summary中,该product_id的total_amount和total_units都是NULL,所以最后的COALESCE将average_price设为0,对吗?
是的。因为sales_summary中该product_id没有记录,所以LEFT JOIN后,ss.total_amount和total_units是NULL。COALESCE将结果设为0,所以该product_id的average_price是0。这样符合题目中的要求。
综上,这个查询应该可以正确处理所有情况。
现在,测试这个查询是否能得到示例中的结果:
示例中的UnitsSold表的数据:
product_id=1的两个记录,都能关联到对应的价格,总金额是(5*100)+(20*15)=500+300=800,总units是115。平均价格800/115=6.956...四舍五入为6.96。符合示例的输出。
product_id=2的两个记录,第一个关联到价格15,第二个关联到价格30。总金额是15*200 +30*30=3000+900=3900,总units是230。3900/230=16.956…四舍五入为16.96。符合示例。
所以,这个查询可以得到正确的结果。
那最终的解决方案就是这个SQL语句了。</think>要解决这个问题,我们需要计算每个产品的平均售价。平均售价是总销售额除以销售的总单位数,若产品未售出则平均价为0。以下是分步解决方案:
### 思路分析
1. **数据关联**:将销售记录(UnitsSold)与价格时间段(Prices)关联,确保每个销售记录使用正确的价格。
2. **聚合计算**:按产品分组,计算总销售额和总销售数量。
3. **处理未售出产品**:通过左连接确保所有产品(包括未售出的)都包含在结果中,未售出的产品平均价设为0。
### SQL 代码
```sql
WITH sales_summary AS (
SELECT
u.product_id,
SUM(p.price * u.units) AS total_amount,
SUM(u.units) AS total_units
FROM UnitsSold u
JOIN Prices p
ON u.product_id = p.product_id
AND u.purchase_date BETWEEN p.start_date AND p.end_date
GROUP BY u.product_id
)
SELECT
p.product_id,
COALESCE(ROUND(ss.total_amount / ss.total_units, 2), 0) AS average_price
FROM (SELECT DISTINCT product_id FROM Prices) p
LEFT JOIN sales_summary ss ON p.product_id = ss.product_id;
```
### 代码解释
1. **CTE `sales_summary`**:
- 将 `UnitsSold` 与 `Prices` 连接,关联条件为产品ID相同且购买日期在价格有效期内。
- 计算每个产品的总销售额(`total_amount`)和总销售数量(`total_units`)。
2. **主查询**:
- 从 `Prices` 表中获取所有产品ID(去重),确保包含所有产品。
- 使用左连接将产品列表与 `sales_summary` 结合,未售出的产品将显示为 `NULL`。
- 使用 `COALESCE` 将未售出产品的平均价设为0,并对结果四舍五入到两位小数。
此方法确保正确处理所有产品,包括未售出的情况,计算结果准确且高效。
阅读全文
相关推荐



















