Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu




4
Lựa chọn mô hình PCA bằng AIC (hoặc BIC)
Tôi muốn sử dụng Tiêu chí Thông tin Akaike (AIC) để chọn số lượng yếu tố thích hợp để trích xuất trong PCA. Vấn đề duy nhất là tôi không chắc chắn làm thế nào để xác định số lượng tham số. Hãy xem xét một ma trận X , …



2
RandomForest chọn hồi quy thay vì phân loại
Tôi đang sử dụng gói RandomForest trong R và sử dụng dữ liệu mống mắt, rừng ngẫu nhiên được tạo là một phân loại nhưng khi tôi sử dụng bộ dữ liệu với khoảng 700 tính năng (các tính năng là mỗi pixel trong hình ảnh 28x28 pixel) và cột …
12 r  random-forest 





3
SVD của một ma trận có các giá trị bị thiếu
Giả sử tôi có ma trận đề xuất theo kiểu Netflix và tôi muốn xây dựng một mô hình dự đoán xếp hạng phim tiềm năng trong tương lai cho một người dùng nhất định. Sử dụng phương pháp của Simon Funk, người ta sẽ sử dụng độ dốc dốc …

5
Do người Bayes có bao giờ tranh luận rằng có những trường hợp trong đó cách tiếp cận của họ khái quát / chồng chéo với cách tiếp cận thường xuyên?
Do người Bayes có bao giờ lập luận rằng cách tiếp cận của họ khái quát hóa cách tiếp cận thường xuyên, bởi vì người ta có thể sử dụng các linh mục không cung cấp thông tin và do đó, có thể phục hồi cấu trúc mô hình thường …

2
Vấn đề cá cược
Có một tài khoản lưu trữ được xuất bản tốt, với các chi tiết toán học, về các cách tiếp cận khác nhau đã được thực hiện cho vấn đề BehDRult Fisher không?

2
PCA và rừng ngẫu nhiên
Đối với một cuộc thi Kaggle gần đây, tôi (thủ công) đã xác định 10 tính năng bổ sung cho tập huấn luyện của mình, sau đó sẽ được sử dụng để huấn luyện một trình phân loại rừng ngẫu nhiên. Tôi quyết định chạy PCA trên bộ dữ liệu …

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.