Từ giao diện người dùng Spark của tôi. Nó có nghĩa là gì khi bỏ qua?
Câu trả lời:
Thông thường, nó có nghĩa là dữ liệu đã được tìm nạp từ bộ nhớ cache và không cần phải thực thi lại giai đoạn nhất định. Nó nhất quán với DAG của bạn, cho thấy rằng giai đoạn tiếp theo yêu cầu xáo trộn ( reduceByKey
). Bất cứ khi nào có xáo trộn liên quan, Spark sẽ tự động lưu trữ dữ liệu được tạo vào bộ nhớ cache :
Shuffle cũng tạo ra một số lượng lớn các tệp trung gian trên đĩa. Kể từ Spark 1.3, các tệp này được giữ nguyên cho đến khi các RDD tương ứng không còn được sử dụng nữa và được thu gom rác. Điều này được thực hiện để các tệp xáo trộn không cần phải được tạo lại nếu dòng dõi được tính toán lại.