Lập trình apache-spark

19

Đây là bản sao câu hỏi của người khác trên một diễn đàn khác mà chưa bao giờ được trả lời, vì vậy tôi nghĩ tôi nên hỏi lại nó ở đây, vì tôi có cùng một vấn đề. (Xem http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tôi đã cài đặt Spark đúng cách trên …

111 python apache-spark pyspark

12

Tải tệp CSV bằng Spark

Tôi mới sử dụng Spark và tôi đang cố đọc dữ liệu CSV từ một tệp với Spark. Đây là những gì tôi đang làm: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Tôi mong đợi cuộc gọi này cung cấp cho tôi danh sách hai cột đầu tiên trong tệp của …

110 python csv apache-spark pyspark

13

Viết một tệp CSV duy nhất bằng spark-csv

Tôi đang sử dụng https://github.com/databricks/spark-csv , tôi đang cố gắng viết một CSV duy nhất nhưng không được, nó đang tạo một thư mục. Cần một hàm Scala sẽ nhận tham số như đường dẫn và tên tệp và ghi tệp CSV đó.

108 scala csv apache-spark spark-csv

8

Cách ghi đè thư mục đầu ra trong spark

Tôi có một ứng dụng phát trực tuyến tia lửa tạo ra một tập dữ liệu cho mỗi phút. Tôi cần lưu / ghi đè kết quả của dữ liệu đã xử lý. Khi tôi cố gắng ghi đè tập dữ liệu org.apache.hadoop.mapred.FileAlreadyExistsException ngừng thực thi. Tôi đặt thuộc tính …

107 apache-spark

8

Chuyển đổi cột Spark DataFrame thành danh sách python

Tôi làm việc trên khung dữ liệu có hai cột, mvv và số. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | tôi muốn lấy hai danh sách chứa các giá trị mvv và giá trị …

103 python apache-spark pyspark spark-dataframe

4

Ứng dụng chạy Spark Kill

Tôi có một ứng dụng Spark đang chạy trong đó nó chiếm tất cả các lõi mà các ứng dụng khác của tôi sẽ không được phân bổ bất kỳ tài nguyên nào. Tôi đã thực hiện một số nghiên cứu nhanh và mọi người đề xuất sử dụng YARN …

101 apache-spark yarn pyspark

14

Làm thế nào để kiểm tra xem khung dữ liệu tia lửa có trống không?

Ngay bây giờ, tôi phải sử dụng df.count > 0để kiểm tra xem DataFramecó trống hay không. Nhưng nó là loại không hiệu quả. Có cách nào tốt hơn để làm điều đó không? Cảm ơn. Tái bút: Tôi muốn kiểm tra xem nó có trống không để tôi chỉ …

101 apache-spark apache-spark-sql

14

Cách tải tệp cục bộ trong sc.textFile, thay vì HDFS

Tôi đang làm theo hướng dẫn tuyệt vời về tia lửa vì vậy tôi đang cố gắng ở 46 phút: 00 để tải README.mdnhưng không thành công những gì tôi đang làm là: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md …

100 scala apache-spark

10

Lọc cột khung dữ liệu Pyspark không có giá trị nào

Tôi đang cố gắng lọc khung dữ liệu PySpark có Nonegiá trị hàng: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] và tôi có thể lọc chính xác với một giá trị chuỗi: df[df.dt_mvmt == '2016-03-31'] # some results here nhưng điều này không thành công: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt …

100 python apache-spark dataframe pyspark apache-spark-sql

5

cách thay đổi cột Dataframe từ kiểu String thành Double type trong pyspark

Tôi có một khung dữ liệu với cột là Chuỗi. Tôi muốn thay đổi loại cột thành Loại kép trong PySpark. Sau đây là cách, tôi đã làm: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Tôi chỉ muốn biết, đây có phải là cách đúng đắn để làm điều …

99 python apache-spark dataframe pyspark apache-spark-sql

8

Làm cách nào để tạo một DataFrame trống với một lược đồ được chỉ định?

Tôi muốn tạo trên DataFramevới một lược đồ được chỉ định trong Scala. Tôi đã cố gắng sử dụng JSON read (ý tôi là đọc tệp trống) nhưng tôi không nghĩ đó là phương pháp hay nhất.

94 scala apache-spark dataframe apache-spark-sql

10

Làm thế nào để thiết lập Spark trên Windows?

Tôi đang cố gắng thiết lập Apache Spark trên Windows. Sau khi tìm kiếm một chút, tôi hiểu rằng chế độ độc lập là những gì tôi muốn. Tôi tải xuống tệp nhị phân nào để chạy Apache spark trong windows? Tôi thấy các bản phân phối với hadoop và …

93 windows apache-spark

14

Spark - Lỗi “URL chính phải được đặt trong cấu hình của bạn” khi gửi ứng dụng

Tôi có một ứng dụng Spark chạy không có vấn đề gì ở chế độ cục bộ, nhưng gặp một số vấn đề khi gửi đến cụm Spark. Thông báo lỗi như sau: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at …

93 scala apache-spark

5

Đổi tên các tên cột của DataFrame trong Spark Scala

Tôi đang cố gắng chuyển đổi tất cả các tiêu đề / tên cột của một DataFrametrong Spark-Scala. như bây giờ tôi nghĩ ra mã sau chỉ thay thế một tên cột duy nhất. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

Các con số trên thanh tiến trình có ý nghĩa gì trong spark-shell?

Trong spark-shell của tôi, các mục nhập như bên dưới có ý nghĩa gì khi tôi thực thi một hàm? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Câu hỏi được gắn thẻ «apache-spark»