Lập trình apache-spark

15

Sự khác biệt giữa DataFrame, Dataset và RDD trong Spark

Tôi chỉ tự hỏi sự khác biệt giữa một RDDvà DataFrame (Spark 2.0.0 DataFrame là bí danh loại đơn thuần Dataset[Row]) trong Apache Spark là gì? Bạn có thể chuyển đổi cái này sang cái khác không?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - phân vùng lại () so với hợp nhất ()

Theo Học Spark Hãy nhớ rằng phân vùng lại dữ liệu của bạn là một hoạt động khá tốn kém. Spark cũng có một phiên bản repartition()được gọi là tối ưu hóa coalesce()cho phép tránh di chuyển dữ liệu, nhưng chỉ khi bạn giảm số lượng phân vùng RDD. Một …

254 apache-spark distributed-computing rdd

16

Sự khác biệt giữa bản đồ và bản đồ phẳng và trường hợp sử dụng tốt cho mỗi bản đồ là gì?

Ai đó có thể giải thích cho tôi sự khác biệt giữa map và FlatMap và trường hợp sử dụng tốt cho mỗi cái là gì không? "Làm phẳng kết quả" nghĩa là gì? Nó tốt cho cái gì?

249 apache-spark

12

Spark java.lang.OutOfMemoryError: không gian heap Java

Cụm của tôi: 1 chủ, 11 nô lệ, mỗi nút có bộ nhớ 6 GB. Cài đặt của tôi: spark.executor.memory=4g, Dspark.akka.frameSize=512 Đây là vấn đề: Đầu tiên , tôi đọc một số dữ liệu (2,19 GB) từ HDFS sang RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Thứ hai , làm một cái …

228 out-of-memory apache-spark

7

Tác vụ không tuần tự hóa: java.io.NotSerializableException khi gọi hàm ngoài đóng chỉ trên các lớp không phải đối tượng

Nhận hành vi lạ khi gọi chức năng bên ngoài đóng cửa: Khi chức năng ở trong một đối tượng, mọi thứ đều hoạt động. khi hàm ở trong một lớp có được: Tác vụ không tuần tự hóa: java.io.NotSerializableException: thử nghiệm Vấn đề là tôi cần mã của mình …

224 scala serialization apache-spark typesafe

2

Công nhân, giám đốc điều hành, lõi trong cụm độc lập Spark là gì?

Tôi đã đọc Tổng quan về Chế độ cụm và tôi vẫn không thể hiểu các quy trình khác nhau trong cụm Độc lập Spark và tính song song. Công nhân có phải là một quy trình JVM hay không? Tôi đã chạy bin\start-slave.shvà thấy rằng nó sinh ra công …

219 apache-spark distributed-computing

5

Sự khác biệt giữa bộ nhớ cache và liên tục là gì?

Về RDDsự kiên trì, sự khác biệt giữa cache()và persist()trong tia lửa là gì?

202 apache-spark distributed-computing rdd

13

Làm cách nào để hiển thị nội dung cột đầy đủ trong Spark Dataframe?

Tôi đang sử dụng spark-csv để tải dữ liệu vào DataFrame. Tôi muốn thực hiện một truy vấn đơn giản và hiển thị nội dung: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col có vẻ bị cắt ngắn: scala> results.show(); +--------------------+ | col| +--------------------+ …

201 apache-spark dataframe spark-csv output-formatting

13

Làm cách nào để thay đổi tên cột dataframe trong pyspark?

Tôi đến từ nền gấu trúc và quen đọc dữ liệu từ các tệp CSV thành một khung dữ liệu và sau đó chỉ cần thay đổi tên cột thành một cái gì đó hữu ích bằng cách sử dụng lệnh đơn giản: df.columns = new_column_name_list Tuy nhiên, điều tương …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: Số lượng lõi so với số lượng người thi hành

Tôi đang cố gắng tìm hiểu mối quan hệ của số lượng lõi và số lượng nhân viên thực thi khi chạy một công việc Spark trên YARN. Môi trường thử nghiệm như sau: Số nút dữ liệu: 3 Thông số máy nút dữ liệu: CPU: Core i7-4790 (# lõi: …

192 hadoop apache-spark yarn

20

Làm cách nào để dừng tin nhắn INFO hiển thị trên bảng điều khiển tia lửa?

Tôi muốn dừng các tin nhắn khác nhau đang xuất hiện trên lớp vỏ tia lửa. Tôi đã cố chỉnh sửa log4j.propertiestập tin để dừng những tin nhắn này. Dưới đây là nội dung của log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd …

180 apache-spark log4j spark-submit

10

Làm cách nào để đọc nhiều tệp văn bản vào một RDD?

Tôi muốn đọc một loạt các tệp văn bản từ một vị trí hdfs và thực hiện ánh xạ trên nó trong một lần lặp bằng tia lửa. JavaRDD<String> records = ctx.textFile(args[1], 1); có khả năng chỉ đọc một tệp tại một thời điểm. Tôi muốn đọc nhiều hơn một …

179 apache-spark

2

Hiệu suất Spark cho Scala vs Python

Tôi thích Python hơn Scala. Nhưng, vì Spark được viết bằng Scala, tôi đã hy vọng mã của mình chạy nhanh hơn trong Scala so với phiên bản Python vì những lý do rõ ràng. Với giả định đó, tôi nghĩ sẽ học và viết phiên bản Scala của một …

178 scala performance apache-spark pyspark rdd

5

(Tại sao) chúng ta cần gọi bộ đệm hoặc duy trì trên RDD

Khi bộ dữ liệu phân tán linh hoạt (RDD) được tạo từ tệp văn bản hoặc bộ sưu tập (hoặc từ RDD khác), chúng ta có cần gọi "bộ đệm" hoặc "tồn tại" một cách rõ ràng để lưu trữ dữ liệu RDD vào bộ nhớ không? Hoặc là dữ …

171 scala apache-spark rdd

6

Thêm lọ vào Công việc Spark - gửi tia lửa

Đúng ... nó đã được thảo luận khá nhiều. Tuy nhiên, có rất nhiều sự mơ hồ và một số câu trả lời được cung cấp ... bao gồm các tham chiếu jar trùng lặp trong cấu hình hoặc tùy chọn trình điều khiển / tệp thực thi / trình …

158 java scala apache-spark jar spark-submit

Câu hỏi được gắn thẻ «apache-spark»