Hãy xem xét 2 dữ liệu
>>> aDF.show()
+---+----+
| id|datA|
+---+----+
| 1| a1|
| 2| a2|
| 3| a3|
+---+----+
và
>>> bDF.show()
+---+----+
| id|datB|
+---+----+
| 2| b2|
| 3| b3|
| 4| b4|
+---+----+
Để đạt được những gì bạn đang tìm kiếm, có 2 cách:
1. Điều kiện gia nhập khác nhau. Thay vì nói aDF.id == bDF.id
aDF.join(bDF, aDF.id == bDF.id, "outer")
Ghi chép lại cái đó:
aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
| 4|null| b4|
+---+----+----+
Điều này sẽ tự động loại bỏ quá trình giảm thêm.
2. Sử dụng Bí danh: Bạn sẽ mất dữ liệu liên quan đến B Cụ thể của Id trong này.
>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()
+----+----+----+
| id|datA|datB|
+----+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
|null|null| b4|
+----+----+----+
ndf = df.drop('age')