Fix hash join when inner hashkey expressions contain Params.
authorTom Lane <[email protected]>
Tue, 20 Jun 2023 21:47:36 +0000 (17:47 -0400)
committerTom Lane <[email protected]>
Tue, 20 Jun 2023 21:47:36 +0000 (17:47 -0400)
If the inner-side expressions contain PARAM_EXEC Params, we must
re-hash whenever the values of those Params change.  The executor
mechanism for that exists already, but we failed to invoke it because
finalize_plan() neglected to search the Hash.hashkeys field for
Params.  This allowed a previous scan's hash table to be re-used
when it should not be, leading to rows missing from the join's output.
(I believe incorrectly-included join rows are impossible however,
since checking the real hashclauses would reject false matches.)

This bug is very ancient, dating probably to d24d75ff1 of 7.4.
Sadly, this simple fix depends on the plan representational changes
made by 2abd7ae9b, so it will only work back to v12.  I thought
about trying to make some kind of hack for v11, but I'm leery
of putting code significantly different from what is used in the
newer branches into a nearly-EOL branch.  Seeing that the bug
escaped detection for a full twenty years, problematic cases
must be rare; so I don't feel too awful about leaving v11 as-is.

Per bug #17985 from Zuming Jiang.  Back-patch to v12.

Discussion: https://postgr.es/m/17985-748b66607acd432e@postgresql.org

src/backend/optimizer/plan/subselect.c
src/test/regress/expected/join_hash.out
src/test/regress/sql/join_hash.sql

index 4c934284054665ea22f8de39f1848b74254ca91f..aed1231613ea330e2182aee1659a091073a9eb67 100644 (file)
@@ -2653,6 +2653,11 @@ finalize_plan(PlannerInfo *root, Plan *plan,
                              &context);
            break;
 
+       case T_Hash:
+           finalize_primnode((Node *) ((Hash *) plan)->hashkeys,
+                             &context);
+           break;
+
        case T_Limit:
            finalize_primnode(((Limit *) plan)->limitOffset,
                              &context);
@@ -2753,7 +2758,6 @@ finalize_plan(PlannerInfo *root, Plan *plan,
            break;
 
        case T_ProjectSet:
-       case T_Hash:
        case T_Material:
        case T_Sort:
        case T_IncrementalSort:
index 3a91c144a27fc8cfe4594d784f73349525141fcd..e1ec01afdce7119d51fad1c35b4f39bc9575559e 100644 (file)
@@ -1013,3 +1013,39 @@ WHERE
 (1 row)
 
 ROLLBACK;
+-- Verify that we behave sanely when the inner hash keys contain parameters
+-- (that is, outer or lateral references).  This situation has to defeat
+-- re-use of the inner hash table across rescans.
+begin;
+set local enable_hashjoin = on;
+explain (costs off)
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+                        QUERY PLAN                         
+-----------------------------------------------------------
+ Nested Loop
+   ->  Seq Scan on int8_tbl i8
+   ->  Sort
+         Sort Key: t1.fivethous, i4.f1
+         ->  Hash Join
+               Hash Cond: (t1.fivethous = (i4.f1 + i8.q2))
+               ->  Seq Scan on tenk1 t1
+               ->  Hash
+                     ->  Seq Scan on int4_tbl i4
+(9 rows)
+
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+ q2  | fivethous | f1 
+-----+-----------+----
+ 456 |       456 |  0
+ 456 |       456 |  0
+ 123 |       123 |  0
+ 123 |       123 |  0
+(4 rows)
+
+rollback;
index 68c1a8c7b65e48767790455f83d32082c89c32b1..7163422a03a41b84680523e77e786dcdcfa2a23b 100644 (file)
@@ -538,3 +538,22 @@ WHERE
     AND hjtest_1.a <> hjtest_2.b;
 
 ROLLBACK;
+
+-- Verify that we behave sanely when the inner hash keys contain parameters
+-- (that is, outer or lateral references).  This situation has to defeat
+-- re-use of the inner hash table across rescans.
+begin;
+set local enable_hashjoin = on;
+
+explain (costs off)
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+
+rollback;