Sự cố với IPython / Jupyter trên Spark (bí danh không được nhận dạng)


11

Tôi đang làm việc để thiết lập một bộ máy ảo để thử nghiệm với Spark trước khi tôi đi ra ngoài và chi tiền để xây dựng một cụm với một số phần cứng. Ghi chú nhanh: Tôi là một học giả có nền tảng về học máy ứng dụng và công việc bỏ một chút về khoa học dữ liệu. Tôi sử dụng các công cụ để tính toán, hiếm khi tôi cần thiết lập chúng.

Tôi đã tạo 3 VM (1 chủ, 2 nô lệ) và cài đặt Spark thành công. Tất cả mọi thứ dường như đang làm việc như nó cần. Vấn đề của tôi nằm ở việc tạo một máy chủ Jupyter có thể được kết nối từ một trình duyệt không chạy trên máy trên cụm.

Tôi đã cài đặt máy tính xách tay Jupyter thành công ... và nó chạy. Tôi đã thêm cấu hình IPython mới kết nối với máy chủ từ xa bằng Spark.

bây giờ vấn đề

Lệnh

$ ipython --profile=pyspark chạy tốt và nó kết nối với cụm tia lửa. Tuy nhiên,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. mặc định cho defaulthồ sơ không phải là pysparkhồ sơ.

Cấu hình máy tính xách tay của tôi pysparkcó:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'


Có thể, sau đây sẽ làm việc? $ ipython --profile=pyspark notebook? Có thể là vấn đề chỉ xảy ra với thứ tự của các đối số.
Gábor Bakos

Câu trả lời:


12

IPython hiện đã chuyển sang phiên bản 4.0 , điều đó có nghĩa là nếu bạn đang sử dụng nó, nó sẽ đọc cấu hình của nó ~/.jupyterchứ không phải ~/.ipython. Bạn phải tạo một tệp cấu hình mới với

jupyter notebook --generate-config

và sau đó chỉnh sửa các ~/.jupyter/jupyter_notebook_config.pytập tin kết quả theo nhu cầu của bạn.

Thêm hướng dẫn cài đặt tại đây .


Tôi thường tự hỏi tại sao họ vẫn giữ lệnh ipython trong việc tách jupyter khỏi ipython. Đây chính xác là lý do tại sao nó thực sự gây nhầm lẫn. Cảm ơn bạn và kau zsh đã chỉ ra hồ sơ không phù hợp. Gần giống như họ nên sử dụng hồ sơ ipython khi sử dụng lệnh ipython notebook và hồ sơ jupyter-notebook khi sử dụng lệnh đó.
AN6U5

4

Giả sử tệp cấu hình của bạn là ~ / .ipython / profile_pyspark / ipython_notebook_config.py, bạn vẫn có thể sử dụng tệp cấu hình này bằng cách:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

hoặc là

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

1

Vấn đề là pyspark không có trên đường dẫn os sys theo mặc định. Sau nhiều lần thất bại trong việc thêm thủ công vào tệp cấu hình / đường dẫn / vv, tôi đã tìm thấy kho lưu trữ GitHub này có tên là findspark.

https://github.com/minrk/findspark

Tôi đã nhân bản kho lưu trữ này bằng git clone https://github.com/minrk/findspark.git

Sau đó, tôi chạy "pip install findspark" từ root findspark.

Bắt đầu một sổ ghi chép Jupyter, tạo một sổ ghi chép Python3 mới và thêm

nhập findspark
nhập os
findspark.init ()
nhập pyspark
sc = pyspark.SparkContext ()

Trước findspark.init (), nhập pyspark đã gặp lỗi.

Để kiểm tra tôi chỉ cần gõ sc và nhận lại:
pyspark.context.SparkContext tại 0x4526d30

Tất cả làm việc cho tôi bây giờ.


Chào mừng đến với trang web Anahita :)
Dawny33
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.