Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.

1
Spark: UDF thực thi nhiều lần
Tôi có một khung dữ liệu với mã sau đây: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Bây giờ kiểm tra các bản ghi, tôi phát hiện …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.