Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.

19
nhập pyspark trong vỏ trăn
Đây là bản sao câu hỏi của người khác trên một diễn đàn khác mà chưa bao giờ được trả lời, vì vậy tôi nghĩ tôi nên hỏi lại nó ở đây, vì tôi có cùng một vấn đề. (Xem http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tôi đã cài đặt Spark đúng cách trên …

12
Tải tệp CSV bằng Spark
Tôi mới sử dụng Spark và tôi đang cố đọc dữ liệu CSV từ một tệp với Spark. Đây là những gì tôi đang làm: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Tôi mong đợi cuộc gọi này cung cấp cho tôi danh sách hai cột đầu tiên trong tệp của …


8
Cách ghi đè thư mục đầu ra trong spark
Tôi có một ứng dụng phát trực tuyến tia lửa tạo ra một tập dữ liệu cho mỗi phút. Tôi cần lưu / ghi đè kết quả của dữ liệu đã xử lý. Khi tôi cố gắng ghi đè tập dữ liệu org.apache.hadoop.mapred.FileAlreadyExistsException ngừng thực thi. Tôi đặt thuộc tính …
107 apache-spark 


4
Ứng dụng chạy Spark Kill
Tôi có một ứng dụng Spark đang chạy trong đó nó chiếm tất cả các lõi mà các ứng dụng khác của tôi sẽ không được phân bổ bất kỳ tài nguyên nào. Tôi đã thực hiện một số nghiên cứu nhanh và mọi người đề xuất sử dụng YARN …


14
Cách tải tệp cục bộ trong sc.textFile, thay vì HDFS
Tôi đang làm theo hướng dẫn tuyệt vời về tia lửa vì vậy tôi đang cố gắng ở 46 phút: 00 để tải README.mdnhưng không thành công những gì tôi đang làm là: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md …

10
Lọc cột khung dữ liệu Pyspark không có giá trị nào
Tôi đang cố gắng lọc khung dữ liệu PySpark có Nonegiá trị hàng: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] và tôi có thể lọc chính xác với một giá trị chuỗi: df[df.dt_mvmt == '2016-03-31'] # some results here nhưng điều này không thành công: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt …

5
cách thay đổi cột Dataframe từ kiểu String thành Double type trong pyspark
Tôi có một khung dữ liệu với cột là Chuỗi. Tôi muốn thay đổi loại cột thành Loại kép trong PySpark. Sau đây là cách, tôi đã làm: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Tôi chỉ muốn biết, đây có phải là cách đúng đắn để làm điều …


10
Làm thế nào để thiết lập Spark trên Windows?
Tôi đang cố gắng thiết lập Apache Spark trên Windows. Sau khi tìm kiếm một chút, tôi hiểu rằng chế độ độc lập là những gì tôi muốn. Tôi tải xuống tệp nhị phân nào để chạy Apache spark trong windows? Tôi thấy các bản phân phối với hadoop và …

14
Spark - Lỗi “URL chính phải được đặt trong cấu hình của bạn” khi gửi ứng dụng
Tôi có một ứng dụng Spark chạy không có vấn đề gì ở chế độ cục bộ, nhưng gặp một số vấn đề khi gửi đến cụm Spark. Thông báo lỗi như sau: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.