Câu hỏi được gắn thẻ «apache-spark»

Apache Spark là một công cụ xử lý dữ liệu phân tán mã nguồn mở được viết bằng Scala cung cấp API thống nhất và các bộ dữ liệu phân tán cho người dùng. Các trường hợp sử dụng cho Apache Spark thường liên quan đến máy / học sâu, xử lý đồ thị.




12
Spark java.lang.OutOfMemoryError: không gian heap Java
Cụm của tôi: 1 chủ, 11 nô lệ, mỗi nút có bộ nhớ 6 GB. Cài đặt của tôi: spark.executor.memory=4g, Dspark.akka.frameSize=512 Đây là vấn đề: Đầu tiên , tôi đọc một số dữ liệu (2,19 GB) từ HDFS sang RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Thứ hai , làm một cái …

7
Tác vụ không tuần tự hóa: java.io.NotSerializableException khi gọi hàm ngoài đóng chỉ trên các lớp không phải đối tượng
Nhận hành vi lạ khi gọi chức năng bên ngoài đóng cửa: Khi chức năng ở trong một đối tượng, mọi thứ đều hoạt động. khi hàm ở trong một lớp có được: Tác vụ không tuần tự hóa: java.io.NotSerializableException: thử nghiệm Vấn đề là tôi cần mã của mình …



13
Làm cách nào để hiển thị nội dung cột đầy đủ trong Spark Dataframe?
Tôi đang sử dụng spark-csv để tải dữ liệu vào DataFrame. Tôi muốn thực hiện một truy vấn đơn giản và hiển thị nội dung: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col có vẻ bị cắt ngắn: scala> results.show(); +--------------------+ | col| +--------------------+ …



20
Làm cách nào để dừng tin nhắn INFO hiển thị trên bảng điều khiển tia lửa?
Tôi muốn dừng các tin nhắn khác nhau đang xuất hiện trên lớp vỏ tia lửa. Tôi đã cố chỉnh sửa log4j.propertiestập tin để dừng những tin nhắn này. Dưới đây là nội dung của log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd …

10
Làm cách nào để đọc nhiều tệp văn bản vào một RDD?
Tôi muốn đọc một loạt các tệp văn bản từ một vị trí hdfs và thực hiện ánh xạ trên nó trong một lần lặp bằng tia lửa. JavaRDD<String> records = ctx.textFile(args[1], 1); có khả năng chỉ đọc một tệp tại một thời điểm. Tôi muốn đọc nhiều hơn một …
179 apache-spark 

2
Hiệu suất Spark cho Scala vs Python
Tôi thích Python hơn Scala. Nhưng, vì Spark được viết bằng Scala, tôi đã hy vọng mã của mình chạy nhanh hơn trong Scala so với phiên bản Python vì những lý do rõ ràng. Với giả định đó, tôi nghĩ sẽ học và viết phiên bản Scala của một …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.