Khoa học dữ liệu random-forest

6

chuỗi như các tính năng trong cây quyết định / rừng ngẫu nhiên

Tôi đang làm một số vấn đề về một ứng dụng của cây quyết định / rừng ngẫu nhiên. Tôi đang cố gắng phù hợp với một vấn đề có số cũng như chuỗi (như tên quốc gia) làm tính năng. Bây giờ, thư viện, scikit-learn chỉ lấy số làm …

64 machine-learning python scikit-learn random-forest decision-trees

7

ValueError: Đầu vào chứa NaN, vô cực hoặc giá trị quá lớn đối với dtype ('float32')

Tôi đã nhận được ValueError khi dự đoán dữ liệu thử nghiệm bằng mô hình RandomForest. Ma cua toi: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Lỗi: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Làm cách nào …

41 python random-forest pandas

1

Tại sao xgboost nhanh hơn nhiều so với sklearn GradientBoostingClassifier?

Tôi đang cố gắng đào tạo một mô hình tăng cường độ dốc hơn 50 nghìn ví dụ với 100 tính năng số. XGBClassifierxử lý 500 cây trong vòng 43 giây trên máy của tôi, trong khi GradientBoostingClassifierchỉ xử lý 10 cây (!) trong 1 phút và 2 giây :( …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Khi nào nên sử dụng Rừng ngẫu nhiên trên SVM và ngược lại?

Khi nào một người sẽ sử dụng Random Foresthơn SVMvà ngược lại? Tôi hiểu điều đó cross-validationvà so sánh mô hình là một khía cạnh quan trọng của việc chọn một mô hình, nhưng ở đây tôi muốn tìm hiểu thêm về quy tắc ngón tay cái và phương pháp …

28 machine-learning classification random-forest svm

3

Hiểu dự đoán_proba từ MultiOutputClassifier

Tôi đang theo dõi ví dụ này trên trang web scikit-learn để thực hiện phân loại đa mục tiêu với mô hình Rừng ngẫu nhiên. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, …

28 scikit-learn random-forest multilabel-classification

3

Tại sao chúng ta cần XGBoost và Rừng ngẫu nhiên?

Tôi đã không rõ ràng về một số khái niệm: XGBoost chuyển đổi người học yếu thành người học mạnh. Lợi thế của việc này là gì? Kết hợp nhiều người học yếu thay vì chỉ sử dụng một cây? Random Forest sử dụng nhiều mẫu khác nhau từ cây …

25 machine-learning data-mining random-forest decision-trees xgboost

4

Làm rừng ngẫu nhiên quá sức?

Tôi đã đọc xung quanh về Khu rừng ngẫu nhiên nhưng tôi thực sự không thể tìm thấy câu trả lời dứt khoát về vấn đề thừa. Theo bài báo gốc của Breiman, họ không nên quá phù hợp khi tăng số lượng cây trong rừng, nhưng dường như không …

24 machine-learning random-forest

3

Có phải mô hình hóa với Rừng ngẫu nhiên yêu cầu xác nhận chéo?

Theo như tôi đã thấy, các ý kiến có xu hướng khác nhau về điều này. Thực tiễn tốt nhất chắc chắn sẽ ra lệnh bằng cách sử dụng xác thực chéo (đặc biệt nếu so sánh RF với các thuật toán khác trên cùng một tập dữ liệu). Mặt …

23 random-forest cross-validation

5

Chọn thuật toán phân loại nhị phân

Tôi có một vấn đề phân loại nhị phân: Khoảng 1000 mẫu trong tập huấn luyện 10 thuộc tính, bao gồm nhị phân, số và phân loại Thuật toán nào là sự lựa chọn tốt nhất cho loại vấn đề này? Theo mặc định, tôi sẽ bắt đầu với SVM …

16 classification binary svm random-forest logistic-regression

2

Làm thế nào để tăng độ chính xác của phân loại?

Tôi đang sử dụng ví dụ thư_recog.cpp của OpenCV để thử nghiệm trên các cây ngẫu nhiên và các phân loại khác. Ví dụ này có triển khai sáu phân loại - cây ngẫu nhiên, tăng tốc, MLP, kNN, Bayes ngây thơ và SVM. Bộ dữ liệu nhận dạng thư …

16 machine-learning classification svm accuracy random-forest

5

làm cho bản đồ nhiệt biển lớn hơn

Tôi tạo một corr()df từ một df gốc. Các corr()df ra 70 X 70 và nó là không thể hình dung Heatmap ... sns.heatmap(df). Nếu tôi cố gắng hiển thị corr = df.corr(), bảng không vừa với màn hình và tôi có thể thấy tất cả các mối tương quan. …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

Là lấy mẫu phân tầng cần thiết (rừng ngẫu nhiên, Python)?

Tôi sử dụng Python để chạy một mô hình rừng ngẫu nhiên trên tập dữ liệu mất cân bằng của mình (biến mục tiêu là một lớp nhị phân). Khi tách tập dữ liệu huấn luyện và kiểm tra, tôi loay hoay có nên sử dụng lấy mẫu phân tầng …

14 machine-learning python random-forest sampling training

1

Phương pháp tính điểm OOB RandomForestClassifier

Là việc triển khai rừng ngẫu nhiên trong scikit-learn sử dụng độ chính xác trung bình làm phương pháp tính điểm của nó để ước tính lỗi tổng quát hóa với các mẫu ngoài túi? Điều này không được đề cập trong tài liệu, nhưng phương thức points () báo …

14 random-forest scikit-learn

1

Có bao nhiêu tính năng để lấy mẫu bằng cách sử dụng Rừng ngẫu nhiên

Các trang Wikipedia mà dấu ngoặc kép "The Elements of Learning thống kê" cho biết: Thông thường, đối với một vấn đề phân loại với các tính năng , các tính năng được sử dụng trong mỗi lần phân chia.ppp⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Tôi hiểu rằng đây là một phỏng đoán …

13 statistics random-forest optimization evaluation sampling

5

Tính năng quan trọng với Scikit-learn Random Forest cho thấy Độ lệch chuẩn rất cao

Tôi đang sử dụng Trình phân loại rừng ngẫu nhiên scikit-learn và tôi muốn vẽ tầm quan trọng của tính năng như trong ví dụ này . Tuy nhiên, kết quả của tôi là hoàn toàn khác nhau, theo nghĩa là độ lệch chuẩn của tính năng quan trọng hầu …

13 python random-forest

Câu hỏi được gắn thẻ «random-forest»