Thống kê và dữ liệu lớn classification

1

GIỎ HÀNG: Lựa chọn công cụ dự đoán tốt nhất để phân tách khi mức tăng trong tạp chất giảm bằng nhau?

Câu hỏi của tôi liên quan đến cây phân loại . Xem xét ví dụ sau từ bộ dữ liệu Iris: Tôi muốn chọn thủ công dự đoán tốt nhất cho lần phân chia đầu tiên. Theo thuật toán GIỎI, tính năng tốt nhất để phân tách là tính năng …

8 r machine-learning classification data-mining cart

1

Là dữ liệu mất cân bằng lên hoặc xuống mẫu thực sự có hiệu quả? Tại sao?

Tôi thường nghe thấy việc lấy mẫu lên hoặc xuống của dữ liệu được thảo luận như một cách xử lý việc phân loại dữ liệu mất cân bằng. Tôi hiểu rằng điều này có thể hữu ích nếu bạn làm việc với trình phân loại nhị phân (trái ngược …

8 classification roc unbalanced-classes

3

Làm thế nào bạn sẽ phân loại / trích xuất thông tin ra khỏi mô tả công việc?

Tôi có một loạt các mô tả công việc được nhập bởi người dùng. Có tất cả các loại lỗi chính tả và dữ liệu xấu. I E: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction …

8 classification categorical-data text-mining

1

Sử dụng quy tắc chấm điểm thích hợp để xác định tư cách thành viên của lớp từ hồi quy logistic

Tôi đang sử dụng hồi quy logistic để dự đoán khả năng xảy ra sự kiện. Cuối cùng, những xác suất này được đưa vào một môi trường sản xuất, nơi chúng tôi tập trung nhiều nhất có thể vào việc đưa ra dự đoán "Có" của mình. Do đó, …

8 r logistic classification loss-functions scoring-rules

4

Điểm oob tốt cho các khu rừng ngẫu nhiên với sklearn, phân loại ba lớp là gì? [bản sao]

Câu hỏi này đã có câu trả lời ở đây : Mô hình của tôi có tốt không, dựa trên giá trị chẩn đoán ( / AUC / precision / RMSE, v.v.)? R2R2R^2 (3 câu trả lời) Đóng cửa 7 tháng trước . Tôi có dữ liệu học tập bao …

8 classification random-forest out-of-sample

2

xây dựng một mô hình phân loại cho dữ liệu nhị phân nghiêm ngặt

tôi có một bộ dữ liệu là nhị phân. mỗi bộ giá trị của biến nằm trong miền: true, false. thuộc tính "đặc biệt" của tập dữ liệu này là phần lớn các giá trị là "sai". tôi đã sử dụng một thuật toán học mạng bayes để học một …

8 machine-learning classification svm random-forest bayesian-network

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Làm cách nào để thực hiện phân loại Rừng ngẫu nhiên không giám sát bằng mã của Breiman?

Tôi đang làm việc với mã rừng ngẫu nhiên của Breiman ( http: //stat-www.ber siêu.edu/users/oustiman/RandomForests/cc_manual.htmlm#c2 ) để phân loại dữ liệu vệ tinh (học có giám sát). Tôi đang sử dụng tập dữ liệu huấn luyện và kiểm tra có cỡ mẫu 2000 và kích thước thay đổi 10. Dữ …

8 machine-learning classification random-forest

1

Khoảng cách Mahalanobis trên dữ liệu không bình thường

Khoảng cách Mahalanobis, khi được sử dụng cho mục đích phân loại, thường giả sử phân phối bình thường đa biến và khoảng cách từ tâm sẽ theo phân phối (với độ tự do d bằng số lượng kích thước / tính năng). Chúng ta có thể tính xác suất …

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

2

Cỡ mẫu liên quan đến dự đoán trong phân loại và hồi quy

Đối với thử nghiệm giả thuyết, việc ước tính kích thước mẫu được thực hiện thông qua sức mạnh và điều trực quan là việc tăng cùng kích thước sẽ làm tăng độ chính xác của hiệu ứng ước tính. Nhưng những gì về dự đoán cho cả phân loại …

8 classification sample-size prediction

3

Tại sao svm không tốt như cây quyết định trên cùng một dữ liệu?

Tôi chưa quen với học máy và cố gắng sử dụng scikit-learn (sklearn) để giải quyết vấn đề phân loại. Cả Quyết định và SVM đều có thể đào tạo một trình phân loại cho vấn đề này. Tôi sử dụng sklearn.ensemble.RandomForestClassifiervà sklearn.svm.SVCđể phù hợp với cùng một dữ liệu …

8 machine-learning classification svm scikit-learn

3

Phát hiện các cụm trong một chuỗi nhị phân

Tôi có một chuỗi nhị phân như 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Trong đó các cụm chủ yếu là 1 được theo sau bởi số lượng không lớn hơn, như trong hình bên dưới (màu đen là 1): Tôi muốn áp dụng một kỹ thuật (tốt nhất là trong R hoặc trong Python), nơi …

8 classification clustering data-mining pattern-recognition binary-data

5

Phân loại so với hồi quy để dự đoán dấu hiệu của biến phản ứng liên tục

Nói rằng tôi muốn dự đoán liệu một dự án sẽ có lợi nhuận hay không. Trong dữ liệu mẫu của tôi, biến trả lời thực sự là một biến liên tục: $ lãi / lỗ của dự án. Bởi vì mục tiêu cuối cùng của tôi chỉ là phân …

8 regression classification predictive-models

3

Tương tự độ nhạy và độ đặc hiệu cho kết quả liên tục

Làm cách nào tôi có thể tính toán độ nhạy và độ đặc hiệu (hoặc các biện pháp tương tự) của xét nghiệm chẩn đoán liên tục để dự đoán kết quả liên tục (ví dụ: huyết áp) mà không phân đôi kết quả? Có ý kiến gì không? Có …

8 classification mixed-model predictive-models roc continuous-data

1

Tổng quát hóa phân phối và phân loại bình thường đa biến

Tôi quan tâm đến một họ các phân phối đa biến có thể được xem như là một sự khái quát hóa của phân phối bình thường đa biến, trong khi chúng được xác định bởi một giá trị kỳ vọng và ma trận hiệp phương sai , cộng với …

8 distributions classification normal-distribution multivariate-analysis

Câu hỏi được gắn thẻ «classification»