Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.


12
java.io.IOException: Không thể định vị null \ bin \ winutils.exe có thể thực thi trong tệp nhị phân Hadoop. spark Eclipse trên windows 7
Tôi không thể chạy một sparkcông việc đơn giản trong Scala IDE(Maven spark project) được cài đặt trênWindows 7 Phụ thuộc lõi Spark đã được thêm vào. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Lỗi: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 …


5
Spark DataFrame groupBằng cách sắp xếp theo thứ tự giảm dần (pyspark)
Tôi đang sử dụng pyspark (Python 2.7.9 / Spark 1.3.1) và có GroupObject khung dữ liệu mà tôi cần lọc & sắp xếp theo thứ tự giảm dần. Cố gắng đạt được nó thông qua đoạn mã này. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Nhưng nó ném ra lỗi sau. sort() got …

12
Mac spark-shell Lỗi khi khởi chạy SparkContext
Tôi đã cố gắng khởi động spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) trên Mac OS Yosemite 10.10.5 bằng cách sử dụng "./bin/spark-shell". Nó có lỗi bên dưới. Tôi cũng đã thử cài các phiên bản Spark khác nhau nhưng đều bị lỗi giống nhau. Đây là lần thứ hai tôi chạy Spark. Lần …








3
HashPartitioner hoạt động như thế nào?
Tôi đọc trên tài liệu của HashPartitioner. Thật không may, không có gì được giải thích nhiều ngoại trừ các lệnh gọi API. Tôi đang giả định rằng HashPartitionerphân vùng tập hợp phân tán dựa trên băm của các khóa. Ví dụ: nếu dữ liệu của tôi giống như (1,1), …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.