Câu hỏi được gắn thẻ «rdd»




2
Hiệu suất Spark cho Scala vs Python
Tôi thích Python hơn Scala. Nhưng, vì Spark được viết bằng Scala, tôi đã hy vọng mã của mình chạy nhanh hơn trong Scala so với phiên bản Python vì những lý do rõ ràng. Với giả định đó, tôi nghĩ sẽ học và viết phiên bản Scala của một …



3
Apache Spark: map vs mapPartitions?
Sự khác biệt giữa RDD map và mapPartitionsphương pháp là gì? Và flatMapcư xử như thế nào maphay thích mapPartitions? Cảm ơn. (chỉnh sửa) tức là sự khác biệt (về mặt ngữ nghĩa hoặc về mặt thực thi) giữa def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], …


3
HashPartitioner hoạt động như thế nào?
Tôi đọc trên tài liệu của HashPartitioner. Thật không may, không có gì được giải thích nhiều ngoại trừ các lệnh gọi API. Tôi đang giả định rằng HashPartitionerphân vùng tập hợp phân tán dựa trên băm của các khóa. Ví dụ: nếu dữ liệu của tôi giống như (1,1), …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.