Spark - Lỗi “URL chính phải được đặt trong cấu hình của bạn” khi gửi ứng dụng

Question 1

Tôi có một ứng dụng Spark chạy không có vấn đề gì ở chế độ cục bộ, nhưng gặp một số vấn đề khi gửi đến cụm Spark.

Thông báo lỗi như sau:

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
    at GroupEvolutionES$.<init>(GroupEvolutionES.scala:37)
    at GroupEvolutionES$.<clinit>(GroupEvolutionES.scala)
    ... 14 more

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 5.0 in stage 0.0 (TID 5, cluster-node-02): java.lang.NoClassDefFoundError: Could not initialize class GroupEvolutionES$
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

Trong đoạn mã trên, GroupEvolutionESlà lớp chính. Thông báo lỗi cho biết "URL chính phải được đặt trong cấu hình của bạn", nhưng tôi đã cung cấp thông số "--master" cho spark-submit.

Bất cứ ai biết làm thế nào để khắc phục sự cố này?

Phiên bản Spark: 1.6.1

Question 2

Đối tượng sparkContext được định nghĩa ở đâu, nó có bên trong hàm chính không?

Tôi cũng gặp phải vấn đề tương tự, lỗi mà tôi đã làm là tôi đã khởi tạo sparkContext bên ngoài hàm chính và bên trong lớp.

Khi tôi khởi tạo nó bên trong hàm chính, nó hoạt động tốt.

Question 3

TLDR:

.config("spark.master", "local")

danh sách các tùy chọn cho spark.master trong spark 2.2.1

Tôi đã kết thúc trên trang này sau khi cố gắng chạy một chương trình java Spark SQL đơn giản ở chế độ cục bộ. Để làm điều này, tôi thấy rằng tôi có thể đặt spark.master bằng cách sử dụng:

SparkSession spark = SparkSession
.builder()
.appName("Java Spark SQL basic example")
.config("spark.master", "local")
.getOrCreate();

Cập nhật câu trả lời của tôi:

Nói rõ hơn, đây không phải là điều bạn nên làm trong môi trường sản xuất. Trong môi trường sản xuất, spark.master nên được chỉ định ở một trong một số nơi khác: trong $ SPARK_HOME / conf / spark-defaults.conf (đây là nơi trình quản lý cloudera sẽ đặt nó) hoặc trên dòng lệnh khi bạn gửi ứng dụng. (ex spark-submit - sợi chủ).

Nếu bạn chỉ định spark.master là 'cục bộ' theo cách này, spark sẽ cố gắng chạy trong một jvm duy nhất, như được chỉ ra bởi các nhận xét bên dưới. Nếu sau đó bạn cố gắng chỉ định cụm chế độ --deploy-mode, bạn sẽ gặp lỗi 'Chế độ triển khai cụm không tương thích với "cục bộ" chính' '. Điều này là do cài đặt spark.master = local có nghĩa là bạn KHÔNG chạy ở chế độ cụm.

Thay vào đó, đối với một ứng dụng sản xuất, trong chức năng chính của bạn (hoặc trong các chức năng được gọi bởi chức năng chính của bạn), bạn chỉ cần sử dụng:

SparkSession
.builder()
.appName("Java Spark SQL basic example")
.getOrCreate();

Điều này sẽ sử dụng các cấu hình được chỉ định trên dòng lệnh / trong tệp cấu hình.

Ngoài ra, cũng cần phải làm rõ điều này: --master và "spark.master" là cùng một tham số chính xác, chỉ được chỉ định theo những cách khác nhau. Đặt spark.master trong mã, giống như trong câu trả lời của tôi ở trên, sẽ ghi đè các nỗ lực đặt --master và sẽ ghi đè các giá trị trong spark-defaults.conf, vì vậy đừng làm điều đó trong sản xuất. Nó tuyệt vời cho các bài kiểm tra mặc dù.

ngoài ra, hãy xem câu trả lời này . liên kết đến danh sách các tùy chọn cho spark.master và những gì mỗi tùy chọn thực sự làm.

danh sách các tùy chọn cho spark.master trong spark 2.2.1

Question 4

Làm việc cho tôi sau khi thay thế

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");

với

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Đã tìm thấy giải pháp này trên một số luồng khác trên stackoverflow.

Question 5

Giá trị mặc định của "spark.master" là spark: // HOST: PORT và mã sau cố gắng lấy một phiên từ cụm độc lập đang chạy tại HOST: PORT và mong đợi giá trị HOST: PORT nằm trong tệp cấu hình spark.

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .getOrCreate();

" org.apache.spark.SparkException: URL chính phải được đặt trong cấu hình của bạn " cho biết rằng HOST: PORT không được đặt trong tệp cấu hình tia lửa.

Để không bận tâm về giá trị của "HOST: PORT", hãy đặt spark.master làm cục bộ

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .config("spark.master", "local")
    .getOrCreate();

Đây là liên kết cho danh sách các định dạng mà URL chính có thể được chuyển đến spark.master

Tham khảo: Spark Tutorial - Setup Spark Ecosystem

Question 6

Nếu bạn đang chạy một ứng dụng độc lập thì bạn phải sử dụng SparkContextthay vìSparkSession

val conf = new SparkConf().setAppName("Samples").setMaster("local")
val sc = new SparkContext(conf)
val textData = sc.textFile("sample.txt").cache()

Question 7

chỉ cần thêm .setMaster("local")vào mã của bạn như được hiển thị bên dưới:

val conf = new SparkConf().setAppName("Second").setMaster("local")

Nó đã làm việc cho tôi! Chúc bạn viết mã vui vẻ!

Question 8

Làm cách nào để ngữ cảnh spark trong ứng dụng của bạn chọn giá trị cho spark master?

Bạn có thể cung cấp cho nó một cách dễ dàng trong SparkConfkhi tạo SC.
Hoặc nó chọn từ System.getProperties(nơi SparkSubmit trước đó đã đặt nó sau khi đọc --masterlập luận của bạn ).

Bây giờ, SparkSubmitchạy trên trình điều khiển - trong trường hợp của bạn là máy từ nơi bạn đang thực thi spark-submittập lệnh. Và điều này có lẽ cũng đang hoạt động như mong đợi đối với bạn.

Tuy nhiên, từ thông tin bạn đã đăng, có vẻ như bạn đang tạo bối cảnh tia lửa trong mã được gửi đến trình thực thi - và cho rằng không có spark.master hệ thống ở đó, nên nó không thành công. (Và bạn thực sự không nên làm như vậy, nếu đây là trường hợp.)

Bạn có thể vui lòng đăng GroupEvolutionESmã (cụ thể là nơi bạn đang tạo SparkContext(s)).

Question 9

Thay thế:

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");
WITH
SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Đã làm điều kỳ diệu.

Question 10

Tôi đã gặp vấn đề tương tự, Đây là mã của tôi trước khi sửa đổi:

package com.asagaama

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD

/**
  * Created by asagaama on 16/02/2017.
  */
object Word {

  def countWords(sc: SparkContext) = {
    // Load our input data
    val input = sc.textFile("/Users/Documents/spark/testscase/test/test.txt")
    // Split it up into words
    val words = input.flatMap(line => line.split(" "))
    // Transform into pairs and count
    val counts = words.map(word => (word, 1)).reduceByKey { case (x, y) => x + y }
    // Save the word count back out to a text file, causing evaluation.
    counts.saveAsTextFile("/Users/Documents/spark/testscase/test/result.txt")
  }

  def main(args: Array[String]) = {
    val conf = new SparkConf().setAppName("wordCount")
    val sc = new SparkContext(conf)
    countWords(sc)
  }

}

Và sau khi thay thế:

val conf = new SparkConf().setAppName("wordCount")

Với :

val conf = new SparkConf().setAppName("wordCount").setMaster("local[*]")

Nó hoạt động tốt!

Question 11

var appName:String ="test"
val conf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory","1g");
val sc =  SparkContext.getOrCreate(conf)
sc.setLogLevel("WARN")

Question 12

thử cái này

làm cho đặc điểm

import org.apache.spark.sql.SparkSession
trait SparkSessionWrapper {
   lazy val spark:SparkSession = {
      SparkSession
        .builder()
        .getOrCreate()
    }
}

mở rộng nó

object Preprocess extends SparkSessionWrapper {

Question 13

Chúng tôi thiếu setMaster ("local [*]") để đặt. Sau khi chúng tôi thêm vào thì vấn đề được giải quyết.

Vấn đề:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()

giải pháp:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .master("local[*]")
      .getOrCreate()

Question 14

Nếu bạn đang sử dụng mã sau

 val sc = new SparkContext(master, "WordCount", System.getenv("SPARK_HOME"))

Sau đó thay thế bằng các dòng sau

  val jobName = "WordCount";
  val conf = new SparkConf().setAppName(jobName);
  val sc = new SparkContext(conf)

Trong Spark 2.0, bạn có thể sử dụng mã sau

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .master("local[*]")// need to add
  .getOrCreate()

Bạn cần thêm .master ("local [*]") nếu chạy cục bộ ở đây * có nghĩa là tất cả các nút, bạn có thể nói thêm 8 1,2, v.v.

Bạn cần đặt URL chính nếu trên cụm

Question 15

Nếu bạn không cung cấp cấu hình Spark trong JavaSparkContext thì bạn sẽ gặp lỗi này. Đó là: JavaSparkContext sc = new JavaSparkContext ();

Giải pháp: Cung cấp JavaSparkContext sc = new JavaSparkContext (conf);