Câu hỏi được gắn thẻ «apache-spark-sql»

Apache Spark SQL là công cụ "SQL và xử lý dữ liệu có cấu trúc" trên Spark, một hệ thống tính toán cụm đa năng và nhanh chóng. Nó có thể được sử dụng để truy xuất dữ liệu từ Hive, Parquet, v.v. và chạy các truy vấn SQL trên các RDD và Bộ dữ liệu hiện có.


23
Làm cách nào tôi có thể thay đổi các loại cột trong DataFrame của Spark SQL?
Giả sử tôi đang làm một cái gì đó như: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable …

8
Làm thế nào để chọn hàng đầu tiên của mỗi nhóm?
Tôi có một DataFrame được tạo như sau: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Kết quả trông như sau: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

14
Spark - tải tệp CSV dưới dạng DataFrame?
Tôi muốn đọc một CSV trong tia lửa và chuyển đổi nó thành DataFrame và lưu trữ nó trong HDFS với df.registerTempTable("table_name") Tôi đã thử: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Lỗi mà tôi nhận được: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, …


2
Làm cách nào để thêm một cột không đổi trong Spark DataFrame?
Tôi muốn thêm một cột trong một DataFramegiá trị tùy ý (tương tự cho mỗi hàng). Tôi gặp lỗi khi sử dụng withColumnnhư sau: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in …



9
Làm cách nào để thêm một cột mới vào Spark DataFrame (sử dụng PySpark)?
Tôi có Spark DataFrame (sử dụng PySpark 1.5.1) và muốn thêm một cột mới. Tôi đã thử những cách sau mà không thành công: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Cũng có một lỗi sử …



10
Lọc cột khung dữ liệu Pyspark không có giá trị nào
Tôi đang cố gắng lọc khung dữ liệu PySpark có Nonegiá trị hàng: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] và tôi có thể lọc chính xác với một giá trị chuỗi: df[df.dt_mvmt == '2016-03-31'] # some results here nhưng điều này không thành công: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt …

5
cách thay đổi cột Dataframe từ kiểu String thành Double type trong pyspark
Tôi có một khung dữ liệu với cột là Chuỗi. Tôi muốn thay đổi loại cột thành Loại kép trong PySpark. Sau đây là cách, tôi đã làm: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Tôi chỉ muốn biết, đây có phải là cách đúng đắn để làm điều …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.