Khoa học dữ liệu apache-spark

3

Hợp nhất nhiều khung dữ liệu theo hàng trong PySpark

Tôi có khung 10 dữ liệu pyspark.sql.dataframe.DataFrame, thu được từ randomSplitnhư (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Bây giờ tôi muốn tham gia 9 tdlà vào một khung dữ liệu duy nhất, làm …

21 python apache-spark cross-validation pyspark

5

làm cho bản đồ nhiệt biển lớn hơn

Tôi tạo một corr()df từ một df gốc. Các corr()df ra 70 X 70 và nó là không thể hình dung Heatmap ... sns.heatmap(df). Nếu tôi cố gắng hiển thị corr = df.corr(), bảng không vừa với màn hình và tôi có thể thấy tất cả các mối tương quan. …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Cách tính giá trị trung bình của cột dataframe và tìm 10% hàng đầu

Tôi rất mới với Scala và Spark, và đang thực hiện một số bài tập tự tạo bằng cách sử dụng số liệu thống kê bóng chày. Tôi đang sử dụng lớp trường hợp tạo RDD và gán lược đồ cho dữ liệu và sau đó biến nó thành DataFrame …

13 apache-spark scala

3

Thay thế tất cả các giá trị số trong khung dữ liệu pyspark bằng một giá trị không đổi

Hãy xem xét một khung dữ liệu pyspark bao gồm các phần tử 'null' và các phần tử số. Nói chung, các phần tử số có các giá trị khác nhau. Làm thế nào có thể thay thế tất cả các giá trị số của khung dữ liệu bằng một …

12 python apache-spark

3

Sự cố với IPython / Jupyter trên Spark (bí danh không được nhận dạng)

Tôi đang làm việc để thiết lập một bộ máy ảo để thử nghiệm với Spark trước khi tôi đi ra ngoài và chi tiền để xây dựng một cụm với một số phần cứng. Ghi chú nhanh: Tôi là một học giả có nền tảng về học máy ứng …

11 python apache-spark pyspark ipython

2

Cách chuyển đổi dữ liệu phân loại thành dữ liệu số trong Pyspark

Tôi đang sử dụng máy tính xách tay Ipython để làm việc với các ứng dụng pyspark. Tôi có một tệp CSV có nhiều cột phân loại để xác định xem thu nhập có nằm trong hoặc trên phạm vi 50k hay không. Tôi muốn thực hiện một thuật toán …

11 python apache-spark categorical-data pyspark

1

Spark ALS: khuyến nghị cho người dùng mới

Câu hỏi Làm cách nào để dự đoán xếp hạng cho người dùng mới trong mô hình ALS được đào tạo về Spark? (Mới = không thấy trong thời gian đào tạo) Vấn đề Tôi đang theo hướng dẫn chính thức của Spark ALS tại đây: http: //ampcamp.ber siêu.edu / …

10 apache-spark recommender-system pyspark

1

Phân tích nhật ký máy chủ bằng cách sử dụng máy học

Tôi được giao nhiệm vụ này để phân tích nhật ký máy chủ của ứng dụng chứa nhật ký ngoại lệ, nhật ký sự kiện cơ sở dữ liệu, v.v. Tôi mới sử dụng máy học, chúng tôi sử dụng Spark với tìm kiếm đàn hồi và Sparks MLlib (hoặc …

10 machine-learning predictive-modeling apache-spark

1

Spark, tối ưu tách một RDD thành hai

Tôi có một bộ dữ liệu lớn mà tôi cần chia thành các nhóm theo các thông số cụ thể. Tôi muốn công việc xử lý hiệu quả nhất có thể. Tôi có thể hình dung hai cách làm như vậy Tùy chọn 1 - Tạo bản đồ từ RDD …

10 apache-spark pyspark

3

Mối liên quan giữa tích chập trong toán học và CNN

Tôi đã đọc giải thích về tích chập và hiểu nó ở một mức độ nào đó. Ai đó có thể giúp tôi hiểu hoạt động này liên quan đến sự tích chập trong Mạng lưới thần kinh Convolutional như thế nào không? Là bộ lọc như chức năng gáp …

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Khi nào bộ nhớ cache hết hạn cho RDD trong pyspark?

Chúng tôi sử dụng .cache()trên RDD để lưu bộ đệm dữ liệu liên tục vào bộ dữ liệu, Mối quan tâm của tôi là khi bộ đệm này sẽ hết hạn?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]

Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Tính toán độ tương tự cosin trong Apache Spark

Tôi có một DataFrame với IDF của một số từ nhất định được tính toán. Ví dụ (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Bây giờ đưa ra một truy vấn Q, tôi có thể tính TF-IDF của truy vấn này. Làm cách nào để tính toán độ tương tự cosin …

9 machine-learning nlp apache-spark cosine-distance

4

Lớp không cân bằng: class_ weight cho thuật toán ML trong Spark MLLib

Trong python sklearn, có nhiều thuật toán (ví dụ hồi quy, rừng ngẫu nhiên ... vv) có tham số class_ weight để xử lý dữ liệu không cân bằng. Tuy nhiên, tôi không tìm thấy tham số như vậy cho các thuật toán MLLib. Có kế hoạch triển khai class_ …

8 machine-learning apache-spark unbalanced-classes weighted-data

4

Cách chạy ứng dụng pyspark trong dấu nhắc lệnh của windows 8

Tôi có một kịch bản python được viết bằng Spark Context và tôi muốn chạy nó. Tôi đã cố gắng tích hợp IPython với Spark, nhưng tôi không thể làm điều đó. Vì vậy, tôi đã cố gắng đặt đường dẫn tia lửa [Thư mục cài đặt / thùng] làm …

8 python apache-spark pyspark ipython

Câu hỏi được gắn thẻ «apache-spark»