Dưới đây là bảy bước để cài đặt spark trên windows 10 và chạy nó từ python:
Bước 1: Tải xuống tệp gz spark 2.2.0 tar (tape Archive) vào bất kỳ thư mục F nào từ liên kết này - https://spark.apache.org/downloads.html . Giải nén nó và sao chép thư mục đã giải nén vào thư mục mong muốn A. Đổi tên thư mục spark-2.2.0-bin-hadoop2.7 thành spark.
Đặt đường dẫn đến thư mục spark là C: \ Users \ Desktop \ A \ spark
Bước 2: Tải xuống tệp hardoop 2.7.3 tar gz vào cùng thư mục F từ liên kết này - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Giải nén nó và sao chép thư mục vừa giải nén vào cùng thư mục A. Đổi tên thư mục từ Hadoop-2.7.3.tar thành hadoop. Đặt đường dẫn đến thư mục hadoop là C: \ Users \ Desktop \ A \ hadoop
Bước 3: Tạo một tệp văn bản notepad mới. Lưu tệp notepad trống này dưới dạng winutils.exe (với Loại lưu dưới dạng: Tất cả tệp). Sao chép tệp winutils.exe O KB này vào thư mục bin của bạn trong spark - C: \ Users \ Desktop \ A \ spark \ bin
Bước 4: Bây giờ, chúng ta phải thêm các thư mục này vào môi trường Hệ thống.
4a: Tạo một biến hệ thống (không phải biến người dùng vì biến người dùng sẽ kế thừa tất cả các thuộc tính của biến hệ thống) Tên biến: SPARK_HOME Giá trị biến: C: \ Users \ Desktop \ A \ spark
Tìm biến hệ thống Đường dẫn và nhấp vào chỉnh sửa. Bạn sẽ thấy nhiều đường dẫn. Không xóa bất kỳ đường dẫn nào. Thêm giá trị biến này -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Tạo một biến hệ thống
Tên biến: HADOOP_HOME Giá trị biến: C: \ Users \ Desktop \ A \ hadoop
Tìm biến hệ thống Đường dẫn và nhấp vào chỉnh sửa. Thêm giá trị biến này -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Tạo một biến hệ thống Tên biến: JAVA_HOME Tìm kiếm Java trong windows. Nhấp chuột phải và nhấp vào vị trí tệp mở. Bạn sẽ phải nhấp chuột phải một lần nữa vào bất kỳ tệp java nào và nhấp vào vị trí tệp đang mở. Bạn sẽ sử dụng đường dẫn của thư mục này. HOẶC bạn có thể tìm kiếm C: \ Program Files \ Java. Phiên bản Java của tôi được cài đặt trên hệ thống là jre1.8.0_131. Giá trị biến: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Tìm biến hệ thống Đường dẫn và nhấp vào chỉnh sửa. Thêm giá trị biến này -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Bước 5: Mở dấu nhắc lệnh và truy cập thư mục spark bin của bạn (gõ cd C: \ Users \ Desktop \ A \ spark \ bin). Gõ spark-shell.
C:\Users\Desktop\A\spark\bin>spark-shell
Có thể mất thời gian và đưa ra một số cảnh báo. Cuối cùng, nó sẽ hiển thị chào mừng bạn đến với phiên bản spark 2.2.0
Bước 6: Gõ exit () hoặc khởi động lại dấu nhắc lệnh và truy cập lại thư mục spark bin. Nhập pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Nó sẽ hiển thị một số cảnh báo và lỗi nhưng bỏ qua. Nó hoạt động.
Bước 7: Quá trình tải xuống của bạn đã hoàn tất. Nếu bạn muốn chạy trực tiếp tia lửa từ python shell thì: hãy chuyển đến Scripts trong thư mục python của bạn và nhập
pip install findspark
trong dấu nhắc lệnh.
Trong vỏ trăn
import findspark
findspark.init()
nhập các mô-đun cần thiết
from pyspark import SparkContext
from pyspark import SparkConf
Nếu bạn muốn bỏ qua các bước nhập findspark và khởi tạo nó, hãy làm theo quy trình được đưa ra khi
nhập pyspark trong python shell