Khoa học dữ liệu pyspark

3

Hợp nhất nhiều khung dữ liệu theo hàng trong PySpark

Tôi có khung 10 dữ liệu pyspark.sql.dataframe.DataFrame, thu được từ randomSplitnhư (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Bây giờ tôi muốn tham gia 9 tdlà vào một khung dữ liệu duy nhất, làm …

21 python apache-spark cross-validation pyspark

1

Tôi nên sử dụng bao nhiêu tế bào LSTM?

Có bất kỳ quy tắc nào (hoặc quy tắc thực tế) liên quan đến số lượng tế bào LSTM tối thiểu, tối đa và "hợp lý" mà tôi nên sử dụng không? Cụ thể tôi có liên quan đến BasicLSTMCell từ TensorFlow và num_unitstài sản. Hãy giả sử rằng tôi …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Nhập nội dung tệp csv vào các tệp dữ liệu pyspark

Làm cách nào tôi có thể nhập tệp .csv vào tệp dữ liệu pyspark? Tôi thậm chí đã cố gắng đọc tệp csv trong Pandas và sau đó chuyển đổi nó thành một cơ sở dữ liệu tia lửa bằng cách sử dụng createDataFrame, nhưng nó vẫn hiển thị một …

12 pyspark

3

Sự cố với IPython / Jupyter trên Spark (bí danh không được nhận dạng)

Tôi đang làm việc để thiết lập một bộ máy ảo để thử nghiệm với Spark trước khi tôi đi ra ngoài và chi tiền để xây dựng một cụm với một số phần cứng. Ghi chú nhanh: Tôi là một học giả có nền tảng về học máy ứng …

11 python apache-spark pyspark ipython

2

Cách chuyển đổi dữ liệu phân loại thành dữ liệu số trong Pyspark

Tôi đang sử dụng máy tính xách tay Ipython để làm việc với các ứng dụng pyspark. Tôi có một tệp CSV có nhiều cột phân loại để xác định xem thu nhập có nằm trong hoặc trên phạm vi 50k hay không. Tôi muốn thực hiện một thuật toán …

11 python apache-spark categorical-data pyspark

1

Spark ALS: khuyến nghị cho người dùng mới

Câu hỏi Làm cách nào để dự đoán xếp hạng cho người dùng mới trong mô hình ALS được đào tạo về Spark? (Mới = không thấy trong thời gian đào tạo) Vấn đề Tôi đang theo hướng dẫn chính thức của Spark ALS tại đây: http: //ampcamp.ber siêu.edu / …

10 apache-spark recommender-system pyspark

1

Spark, tối ưu tách một RDD thành hai

Tôi có một bộ dữ liệu lớn mà tôi cần chia thành các nhóm theo các thông số cụ thể. Tôi muốn công việc xử lý hiệu quả nhất có thể. Tôi có thể hình dung hai cách làm như vậy Tùy chọn 1 - Tạo bản đồ từ RDD …

10 apache-spark pyspark

3

Khi nào bộ nhớ cache hết hạn cho RDD trong pyspark?

Chúng tôi sử dụng .cache()trên RDD để lưu bộ đệm dữ liệu liên tục vào bộ dữ liệu, Mối quan tâm của tôi là khi bộ đệm này sẽ hết hạn?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

4

Cách chạy ứng dụng pyspark trong dấu nhắc lệnh của windows 8

Tôi có một kịch bản python được viết bằng Spark Context và tôi muốn chạy nó. Tôi đã cố gắng tích hợp IPython với Spark, nhưng tôi không thể làm điều đó. Vì vậy, tôi đã cố gắng đặt đường dẫn tia lửa [Thư mục cài đặt / thùng] làm …

8 python apache-spark pyspark ipython

1

Tạo dự đoán trực giao (không tương quan) với một biến đã cho

Tôi có một Xma trận, một ybiến và một biến khác ORTHO_VAR. Tôi cần dự đoán ybiến bằng cách sử dụng X, tuy nhiên, các dự đoán từ mô hình đó cần phải trực giao ORTHO_VARtrong khi càng tương quan với ycàng tốt. Tôi muốn các dự đoán được tạo …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

3

Làm cách nào để tôi đặt / nhận kích thước heap cho Spark (thông qua sổ ghi chép Python)

Tôi đang sử dụng Spark (1.5.1) từ máy tính xách tay IPython trên macbook pro. Sau khi cài đặt Spark và Anaconda, tôi khởi động IPython từ một thiết bị đầu cuối bằng cách thực thi : IPYTHON_OPTS="notebook" pyspark. Điều này mở ra một trang web liệt kê tất cả …

7 apache-spark pyspark ipython anaconda

1

Sử dụng Apache Spark để làm ML. Tiếp tục nhận được lỗi nối tiếp

Vì vậy, tôi đang sử dụng Spark để phân tích tình cảm và tôi liên tục gặp lỗi với các bộ nối tiếp mà nó sử dụng (tôi nghĩ) để truyền các đối tượng python xung quanh. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", …

7 apache-spark pyspark sentiment-analysis

Câu hỏi được gắn thẻ «pyspark»