Lập trình apache-spark

5

Apache Spark: Cách sử dụng pyspark với Python 3

Tôi đã xây dựng Spark 1.4 từ bậc thầy phát triển GH và quá trình xây dựng diễn ra tốt đẹp. Nhưng khi tôi thực hiện, bin/pysparktôi nhận được phiên bản Python 2.7.9. Làm cách nào để thay đổi điều này?

91 python python-3.x apache-spark

12

java.io.IOException: Không thể định vị null \ bin \ winutils.exe có thể thực thi trong tệp nhị phân Hadoop. spark Eclipse trên windows 7

Tôi không thể chạy một sparkcông việc đơn giản trong Scala IDE(Maven spark project) được cài đặt trênWindows 7 Phụ thuộc lõi Spark đã được thêm vào. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Lỗi: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 …

91 eclipse scala apache-spark

10

Apache spark có thể chạy mà không có hadoop?

Có bất kỳ sự phụ thuộc nào giữa Spark và Hadoop không? Nếu không, có bất kỳ tính năng nào tôi sẽ bỏ lỡ khi chạy Spark mà không có Hadoop không?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBằng cách sắp xếp theo thứ tự giảm dần (pyspark)

Tôi đang sử dụng pyspark (Python 2.7.9 / Spark 1.3.1) và có GroupObject khung dữ liệu mà tôi cần lọc & sắp xếp theo thứ tự giảm dần. Cố gắng đạt được nó thông qua đoạn mã này. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Nhưng nó ném ra lỗi sau. sort() got …

88 python apache-spark dataframe pyspark apache-spark-sql

12

Mac spark-shell Lỗi khi khởi chạy SparkContext

Tôi đã cố gắng khởi động spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) trên Mac OS Yosemite 10.10.5 bằng cách sử dụng "./bin/spark-shell". Nó có lỗi bên dưới. Tôi cũng đã thử cài các phiên bản Spark khác nhau nhưng đều bị lỗi giống nhau. Đây là lần thứ hai tôi chạy Spark. Lần …

87 apache-spark

1

“Giai đoạn bị bỏ qua” có nghĩa là gì trong giao diện người dùng web Apache Spark?

Từ giao diện người dùng Spark của tôi. Nó có nghĩa là gì khi bỏ qua?

87 apache-spark rdd

18

Làm cách nào để đặt phiên bản python của trình điều khiển trong spark?

Tôi đang sử dụng spark 1.4.0-rc2 nên tôi có thể sử dụng python 3 với spark. Nếu tôi thêm export PYSPARK_PYTHON=python3vào tệp .bashrc của mình, tôi có thể chạy spark tương tác với python 3. Tuy nhiên, nếu tôi muốn chạy một chương trình độc lập ở chế độ cục …

87 apache-spark pyspark

9

Trích xuất giá trị cột của Dataframe dưới dạng Danh sách trong Apache Spark

Tôi muốn chuyển đổi một cột chuỗi của khung dữ liệu thành một danh sách. Những gì tôi có thể tìm thấy từ DataframeAPI là RDD, vì vậy tôi đã thử chuyển đổi nó trở lại RDD trước, và sau đó áp dụng toArraychức năng cho RDD. Trong trường hợp …

86 scala apache-spark apache-spark-sql

11

Làm cách nào để lưu DataFrame trực tiếp vào Hive?

Có thể lưu DataFrametrong spark trực tiếp vào Hive không? Tôi đã thử chuyển đổi DataFramesang Rddrồi lưu dưới dạng tệp văn bản rồi tải trong tổ ong. Nhưng tôi đang phân vân không biết tôi có thể trực tiếp tiết kiệm dataframeđể làm tổ ong được không

85 scala apache-spark hive apache-spark-sql

8

Tại sao công việc Spark không thành công với org.apache.spark.shuffle.MetadataFetchFailedException: Thiếu vị trí đầu ra cho trộn 0 trong chế độ suy đoán?

Tôi đang thực hiện một công việc Spark ở chế độ đầu cơ. Tôi có khoảng 500 tác vụ và khoảng 500 tệp được nén 1 GB gz. Tôi tiếp tục thực hiện từng công việc, đối với 1-2 nhiệm vụ, lỗi kèm theo trong đó nó chạy lại hàng …

85 apache-spark

2

Làm thế nào để điều chỉnh số lượng trình thực thi tia lửa, lõi và bộ nhớ trình thực thi?

Bạn bắt đầu điều chỉnh các thông số được đề cập ở trên từ đâu. Chúng ta bắt đầu với bộ nhớ trình thực thi và lấy số lượng trình thực thi, hay chúng tôi bắt đầu với lõi và lấy số trình thực thi. Tôi đã theo liên kết …

84 apache-spark

8

Làm thế nào để truyền tham số -D hoặc biến môi trường cho công việc Spark?

Tôi muốn thay đổi cấu hình Typeafe của công việc Spark trong môi trường dev / prod. Đối với tôi, dường như cách dễ nhất để đạt được điều này là vượt qua -Dconfig.resource=ENVNAMEcông việc. Sau đó, thư viện cấu hình Typeafe sẽ thực hiện công việc cho tôi. Có …

83 scala apache-spark

3

HashPartitioner hoạt động như thế nào?

Tôi đọc trên tài liệu của HashPartitioner. Thật không may, không có gì được giải thích nhiều ngoại trừ các lệnh gọi API. Tôi đang giả định rằng HashPartitionerphân vùng tập hợp phân tán dựa trên băm của các khóa. Ví dụ: nếu dữ liệu của tôi giống như (1,1), …

82 scala apache-spark rdd partitioning

10

Khung dữ liệu Spark phân biệt các cột có tên trùng lặp

Vì vậy, như tôi biết trong Spark Dataframe, cho nhiều cột có thể có cùng tên như được hiển thị trong ảnh chụp nhanh khung dữ liệu bên dưới: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, …

82 python apache-spark dataframe pyspark apache-spark-sql

11

Lỗi Spark - Phiên bản chính của tệp lớp không được hỗ trợ

Tôi đang cố gắng cài đặt Spark trên máy Mac của mình. Tôi đã sử dụng home-brew để cài đặt spark 2.4.0 và Scala. Tôi đã cài đặt PySpark trong môi trường anaconda của mình và đang sử dụng PyCharm để phát triển. Tôi đã xuất sang hồ sơ bash …

82 java python macos apache-spark pyspark

Câu hỏi được gắn thẻ «apache-spark»