Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu




4
Cách thích hợp hơn để tạo một tập hợp giữ: xóa một số đối tượng hoặc xóa một số quan sát khỏi từng đối tượng là gì?
Tôi có một bộ dữ liệu với 26 tính năng và 31000 hàng. Đây là bộ dữ liệu của 38 đối tượng. Đó là cho một hệ thống sinh trắc học. Vì vậy, tôi muốn có thể xác định đối tượng. Để có một bộ thử nghiệm, tôi biết tôi …




1
Tại sao một lựa chọn lớn của K làm giảm điểm xác nhận chéo của tôi?
Chơi xung quanh với Bộ dữ liệu nhà ở Boston và RandomForestRegressor(w / tham số mặc định) trong scikit-learn, tôi nhận thấy một điều kỳ lạ: điểm xác thực chéo có nghĩa là giảm khi tôi tăng số lần vượt quá 10. Chiến lược xác thực chéo của tôi như …

3
Những lợi thế của một máy tạo ngẫu nhiên theo cấp số nhân sử dụng phương pháp của AhDR và ​​Dieter (1972) thay vì biến đổi nghịch đảo là gì?
Câu hỏi của tôi được lấy cảm hứng từ hàm tạo số ngẫu nhiên theo hàm mũ tích hợp của R , hàm rexp(). Khi cố gắng tạo các số ngẫu nhiên phân tán theo cấp số nhân, nhiều sách giáo khoa khuyên dùng phương pháp biến đổi nghịch đảo …

2
Phân phối Beta khi lật một đồng xu
Cuốn sách Bayesian của Kruschke nói, liên quan đến việc sử dụng bản phân phối beta để lật một đồng xu, Ví dụ: nếu chúng ta không có kiến ​​thức trước ngoài kiến ​​thức rằng đồng xu có mặt đầu và mặt đuôi, thì đó là tương đương với việc …






Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.