Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.

Spark: UDF thực thi nhiều lần

Tôi có một khung dữ liệu với mã sau đây: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Bây giờ kiểm tra các bản ghi, tôi phát hiện …

9 scala apache-spark apache-spark-sql

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookie và Chính sách bảo mật của chúng tôi.

Licensed under cc by-sa 3.0 with attribution required.