Lập trình apache-spark-sql

5

Spark DataFrame groupBằng cách sắp xếp theo thứ tự giảm dần (pyspark)

Tôi đang sử dụng pyspark (Python 2.7.9 / Spark 1.3.1) và có GroupObject khung dữ liệu mà tôi cần lọc & sắp xếp theo thứ tự giảm dần. Cố gắng đạt được nó thông qua đoạn mã này. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Nhưng nó ném ra lỗi sau. sort() got …

88 python apache-spark dataframe pyspark apache-spark-sql

9

Trích xuất giá trị cột của Dataframe dưới dạng Danh sách trong Apache Spark

Tôi muốn chuyển đổi một cột chuỗi của khung dữ liệu thành một danh sách. Những gì tôi có thể tìm thấy từ DataframeAPI là RDD, vì vậy tôi đã thử chuyển đổi nó trở lại RDD trước, và sau đó áp dụng toArraychức năng cho RDD. Trong trường hợp …

86 scala apache-spark apache-spark-sql

11

Làm cách nào để lưu DataFrame trực tiếp vào Hive?

Có thể lưu DataFrametrong spark trực tiếp vào Hive không? Tôi đã thử chuyển đổi DataFramesang Rddrồi lưu dưới dạng tệp văn bản rồi tải trong tổ ong. Nhưng tôi đang phân vân không biết tôi có thể trực tiếp tiết kiệm dataframeđể làm tổ ong được không

85 scala apache-spark hive apache-spark-sql

10

Khung dữ liệu Spark phân biệt các cột có tên trùng lặp

Vì vậy, như tôi biết trong Spark Dataframe, cho nhiều cột có thể có cùng tên như được hiển thị trong ảnh chụp nhanh khung dữ liệu bên dưới: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, …

82 python apache-spark dataframe pyspark apache-spark-sql

8

Cách xóa các cột trong khung dữ liệu pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Có hai id: bigintvà tôi muốn xóa một. Làm thế nào tôi có thể làm được?

81 apache-spark apache-spark-sql pyspark

6

Chuyển đổi chuỗi pyspark sang định dạng ngày tháng

Tôi có khung dữ liệu pyspark ngày tháng với cột chuỗi ở định dạng MM-dd-yyyyvà tôi đang cố chuyển đổi khung này thành cột ngày tháng. Tôi đã thử: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() và tôi nhận được một chuỗi null. Có ai giúp được không?

80 apache-spark pyspark apache-spark-sql pyspark-sql

6

Làm cách nào để viết các bài kiểm tra đơn vị trong Spark 2.0+?

Tôi đã cố gắng tìm một cách hợp lý để kiểm tra SparkSessionvới khung kiểm tra JUnit. Mặc dù có vẻ là những ví dụ tốt cho SparkContext, nhưng tôi không thể tìm ra cách để có được một ví dụ tương ứng hoạt động SparkSession, mặc dù nó được …

78 scala unit-testing apache-spark junit apache-spark-sql

1

Viết hơn 50 triệu từ Pyspark df đến PostgresSQL, cách tiếp cận hiệu quả nhất

Điều gì sẽ là cách hiệu quả nhất để chèn hàng triệu bản ghi nói 50 triệu từ khung dữ liệu Spark vào Bảng Postgres. Tôi đã thực hiện điều này từ tia lửa đến MSSQL trong quá khứ bằng cách sử dụng tùy chọn kích thước hàng loạt và …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

1

Spark: UDF thực thi nhiều lần

Tôi có một khung dữ liệu với mã sau đây: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Bây giờ kiểm tra các bản ghi, tôi phát hiện …

9 scala apache-spark apache-spark-sql

Câu hỏi được gắn thẻ «apache-spark-sql»