Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.

23
Làm cách nào tôi có thể thay đổi các loại cột trong DataFrame của Spark SQL?
Giả sử tôi đang làm một cái gì đó như: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable …



8
Làm thế nào để chọn hàng đầu tiên của mỗi nhóm?
Tôi có một DataFrame được tạo như sau: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Kết quả trông như sau: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …


14
Spark - tải tệp CSV dưới dạng DataFrame?
Tôi muốn đọc một CSV trong tia lửa và chuyển đổi nó thành DataFrame và lưu trữ nó trong HDFS với df.registerTempTable("table_name") Tôi đã thử: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Lỗi mà tôi nhận được: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, …


2
Làm cách nào để thêm một cột không đổi trong Spark DataFrame?
Tôi muốn thêm một cột trong một DataFramegiá trị tùy ý (tương tự cho mỗi hàng). Tôi gặp lỗi khi sử dụng withColumnnhư sau: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in …


3
Apache Spark: map vs mapPartitions?
Sự khác biệt giữa RDD map và mapPartitionsphương pháp là gì? Và flatMapcư xử như thế nào maphay thích mapPartitions? Cảm ơn. (chỉnh sửa) tức là sự khác biệt (về mặt ngữ nghĩa hoặc về mặt thực thi) giữa def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], …


12
Cách đặt bộ nhớ Apache Spark Executor
Làm cách nào tôi có thể tăng bộ nhớ khả dụng cho các nút thực thi tia lửa Apache? Tôi có tệp 2 GB phù hợp để tải vào Apache Spark. Tôi đang chạy apache spark cho thời điểm này trên 1 máy, vì vậy trình điều khiển và người …

9
Làm cách nào để thêm một cột mới vào Spark DataFrame (sử dụng PySpark)?
Tôi có Spark DataFrame (sử dụng PySpark 1.5.1) và muốn thêm một cột mới. Tôi đã thử những cách sau mà không thành công: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Cũng có một lỗi sử …

10
Làm thế nào để in nội dung của RDD?
Tôi đang cố in nội dung của bộ sưu tập lên bảng điều khiển Spark. Tôi có một loại: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Và tôi sử dụng lệnh: scala> linesWithSessionId.map(line => println(line)) Nhưng điều này được in: res1: org.apache.spark.rdd.RDD [Đơn vị] = MappedRDD [4] tại bản đồ tại: 19 Làm …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.