Câu hỏi được gắn thẻ «apache-spark-sql»

Apache Spark SQL là công cụ "SQL và xử lý dữ liệu có cấu trúc" trên Spark, một hệ thống tính toán cụm đa năng và nhanh chóng. Nó có thể được sử dụng để truy xuất dữ liệu từ Hive, Parquet, v.v. và chạy các truy vấn SQL trên các RDD và Bộ dữ liệu hiện có.

5
Spark DataFrame groupBằng cách sắp xếp theo thứ tự giảm dần (pyspark)
Tôi đang sử dụng pyspark (Python 2.7.9 / Spark 1.3.1) và có GroupObject khung dữ liệu mà tôi cần lọc & sắp xếp theo thứ tự giảm dần. Cố gắng đạt được nó thông qua đoạn mã này. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Nhưng nó ném ra lỗi sau. sort() got …




8
Cách xóa các cột trong khung dữ liệu pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Có hai id: bigintvà tôi muốn xóa một. Làm thế nào tôi có thể làm được?




1
Spark: UDF thực thi nhiều lần
Tôi có một khung dữ liệu với mã sau đây: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Bây giờ kiểm tra các bản ghi, tôi phát hiện …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.