Tôi đang làm việc để thiết lập một bộ máy ảo để thử nghiệm với Spark trước khi tôi đi ra ngoài và chi tiền để xây dựng một cụm với một số phần cứng. Ghi chú nhanh: Tôi là một học giả có nền tảng về học máy ứng dụng và công việc bỏ một chút về khoa học dữ liệu. Tôi sử dụng các công cụ để tính toán, hiếm khi tôi cần thiết lập chúng.
Tôi đã tạo 3 VM (1 chủ, 2 nô lệ) và cài đặt Spark thành công. Tất cả mọi thứ dường như đang làm việc như nó cần. Vấn đề của tôi nằm ở việc tạo một máy chủ Jupyter có thể được kết nối từ một trình duyệt không chạy trên máy trên cụm.
Tôi đã cài đặt máy tính xách tay Jupyter thành công ... và nó chạy. Tôi đã thêm cấu hình IPython mới kết nối với máy chủ từ xa bằng Spark.
bây giờ vấn đề
Lệnh
$ ipython --profile=pyspark
chạy tốt và nó kết nối với cụm tia lửa. Tuy nhiên,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
mặc định cho default
hồ sơ không phải là pyspark
hồ sơ.
Cấu hình máy tính xách tay của tôi pyspark
có:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
? Có thể là vấn đề chỉ xảy ra với thứ tự của các đối số.