Khoa học dữ liệu scikit-learn

2

Bạn có thể giải thích sự khác biệt giữa SVC và linearSVC trong scikit-learn không?

Gần đây tôi đã bắt đầu học cách làm việc sklearnvà vừa bắt gặp kết quả đặc biệt này. Tôi đã sử dụng digitsbộ dữ liệu có sẵn sklearnđể thử các mô hình và phương pháp ước tính khác nhau. Khi tôi đã thử nghiệm một mô hình Support Vector …

19 svm scikit-learn

1

Làm thế nào để đối phó với nhãn chuỗi trong phân loại nhiều lớp với máy ảnh?

Tôi là người mới học về máy học và máy ảnh và hiện đang làm việc với một vấn đề phân loại hình ảnh đa lớp bằng cách sử dụng máy ảnh. Đầu vào được gắn thẻ hình ảnh. Sau một số xử lý trước, dữ liệu đào tạo được …

18 machine-learning scikit-learn tensorflow keras encoding

4

Cải thiện tốc độ thực hiện t-sne trong python cho dữ liệu khổng lồ

Tôi muốn thực hiện giảm kích thước trên gần 1 triệu vectơ mỗi chiều với 200 thứ nguyên ( doc2vec). Tôi đang sử dụng TSNEtriển khai từ sklearn.manifoldmô-đun cho nó và vấn đề chính là sự phức tạp về thời gian. Ngay cả với method = barnes_hut, tốc độ tính …

18 python bigdata nlp scikit-learn dimensionality-reduction

1

Thuật toán phân cụm văn bản

Tôi có một vấn đề về việc phân cụm số lượng lớn các câu thành các nhóm theo ý nghĩa của chúng. Điều này tương tự như một vấn đề khi bạn có rất nhiều câu và muốn nhóm chúng theo ý nghĩa của chúng. Những thuật toán được đề …

17 clustering text-mining algorithms scikit-learn

5

Hợp nhất dữ liệu thưa thớt và dày đặc trong học máy để cải thiện hiệu suất

Tôi có các tính năng thưa thớt mang tính dự đoán, tôi cũng có một số tính năng dày đặc cũng mang tính dự đoán. Tôi cần kết hợp các tính năng này với nhau để cải thiện hiệu suất tổng thể của trình phân loại. Bây giờ, điều là …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

2

Trường hợp trong quy trình làm việc chúng ta nên xử lý dữ liệu bị thiếu?

Tôi đang xây dựng một quy trình công việc để tạo các mô hình học máy (trong trường hợp của tôi, sử dụng các gói pandasvà sklearngói của Python ) từ dữ liệu được lấy từ một cơ sở dữ liệu rất lớn (ở đây, Vertica bằng SQL và pyodbc), …

16 machine-learning python pandas scikit-learn

6

Lý do đằng sau việc chuyển đổi log của một vài biến liên tục là gì?

Tôi đã làm một vấn đề phân loại và tôi đã đọc nhiều mã và hướng dẫn của mọi người. Một điều tôi nhận thấy là nhiều người lấy np.loghoặc logbiến liên tục như loan_amounthoặc applicant_incomev.v. Tôi chỉ muốn hiểu lý do đằng sau nó. Liệu nó có giúp cải …

16 machine-learning python classification scikit-learn

5

làm cho bản đồ nhiệt biển lớn hơn

Tôi tạo một corr()df từ một df gốc. Các corr()df ra 70 X 70 và nó là không thể hình dung Heatmap ... sns.heatmap(df). Nếu tôi cố gắng hiển thị corr = df.corr(), bảng không vừa với màn hình và tôi có thể thấy tất cả các mối tương quan. …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Dự đoán tương tự câu

Tôi đang tìm cách giải quyết vấn đề sau: Tôi có một bộ câu làm tập dữ liệu của mình và tôi muốn có thể gõ một câu mới và tìm câu mà câu mới giống với câu nhất trong tập dữ liệu. Một ví dụ sẽ giống như: Câu …

15 python nlp scikit-learn similarity text

3

Làm cách nào tôi có thể kiểm tra mối tương quan giữa các tính năng và biến mục tiêu?

Tôi đang cố gắng xây dựng một Regressionmô hình và tôi đang tìm cách để kiểm tra xem liệu có bất kỳ mối tương quan nào giữa các tính năng và các biến mục tiêu không? Đây là mẫu của tôi dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 …

15 machine-learning scikit-learn regression linear-regression

1

Phương pháp tính điểm OOB RandomForestClassifier

Là việc triển khai rừng ngẫu nhiên trong scikit-learn sử dụng độ chính xác trung bình làm phương pháp tính điểm của nó để ước tính lỗi tổng quát hóa với các mẫu ngoài túi? Điều này không được đề cập trong tài liệu, nhưng phương thức points () báo …

14 random-forest scikit-learn

2

ChọnKKest hoạt động như thế nào?

Tôi đang xem hướng dẫn này: https://www.dataquest.io/mission/75/improving-your-submission Ở phần 8, tìm các tính năng tốt nhất, nó hiển thị đoạn mã sau. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, …

14 python scikit-learn

1

Tính năng quan trọng với các tính năng phân loại cardinality cao cho hồi quy (biến phụ thuộc số)

Tôi đã cố gắng sử dụng các tính năng quan trọng từ Rừng ngẫu nhiên để thực hiện một số lựa chọn tính năng theo kinh nghiệm cho vấn đề hồi quy trong đó tất cả các tính năng là phân loại và rất nhiều trong số chúng có nhiều …

12 scikit-learn feature-selection random-forest xgboost categorical-data

3

Chuyển đổi hàng loạt cột phân loại trong Pandas (không mã hóa một lần nóng)

Tôi có khung dữ liệu gấu trúc với hàng tấn cột phân loại, mà tôi đang dự định sử dụng trong cây quyết định với scikit-learn. Tôi cần chuyển đổi chúng thành các giá trị số (không phải là một vectơ nóng). Tôi có thể làm điều đó với LabelEncoder …

12 scikit-learn pandas categorical-data labels

1

Lựa chọn tính năng bằng cách sử dụng tính năng quan trọng trong các khu rừng ngẫu nhiên với scikit-learn

Tôi đã vẽ các tính năng quan trọng trong các khu rừng ngẫu nhiên với scikit-learn . Để cải thiện dự đoán bằng cách sử dụng các khu rừng ngẫu nhiên, làm cách nào tôi có thể sử dụng thông tin cốt truyện để loại bỏ các tính năng? Tức …

12 feature-selection random-forest scikit-learn

Câu hỏi được gắn thẻ «scikit-learn»