JOIN的使用要求
在SparkSQL/HQL中,使用JOIN进行表关联时,需要注意以下要求:
- 空值处理,多个表进行JOIN取值,在非INNER JOIN的情况下大多会取到NULL空值,对这些空值在必要情况下需要进行空值处理,一般使用COALESCE进行转换
- 确认关联字段是否唯一
- 对于字符型关联字段,如果无法保障不存在前后空格,最好进行TRIM处理后再关联
- 关联条件关键字ON与JOIN关键字右对齐,AND进行多条件关联时,同样与JOIN关键字右对齐
- WHERE子句中的多条件连接符AND、OR,与WHERE右对齐
- 不建议使用RIGHT JOIN进行表关联操作,可以改写成LEFT JOIN,便于代码阅读
- 注意LEFT JOIN ON AND与LEFT JOIN ON WHERE的区别,需要全局数据过滤时使用后者
- 使用LEFT JOIN时,右表筛选条件一般写在ON AND关联子句中,主表全局筛选条件一般写在WHERE子句中