Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu

4
Mối tương quan giữa X và XY
Nếu tôi có hai biến ngẫu nhiên X và Y độc lập, mối tương quan giữa X và sản phẩm XY là gì? Nếu điều này là không xác định, tôi sẽ quan tâm đến việc biết ít nhất những gì xảy ra trong trường hợp cụ thể của X …


5
Tại sao chúng tôi bác bỏ giả thuyết khống ở mức 0,05 chứ không phải mức 0,5 (như chúng tôi làm trong Phân loại)
Kiểm tra giả thuyết giống như một vấn đề Phân loại. Vì vậy, nói rằng, chúng tôi có 2 nhãn có thể cho một quan sát (chủ đề) - Có tội so với Không có tội. Đặt Non-Guilty là giả thuyết null. Nếu chúng tôi đã xem xét vấn đề …

5
Làm cách nào để tạo chuỗi
Tôi biết cách tạo chuỗi ±1±1\pm 1 với giá trị trung bình 000 . Ví dụ: trong Matlab, nếu tôi muốn tạo một ±1±1\pm 1 có độ dài 100001000010000 , thì đó là: 2*(rand(1, 10000, 1)<=.5)-1 Tuy nhiên, làm thế nào để tạo một ±1±1\pm 1 với giá trị trung …

2
Việc phân chia dữ liệu thành các bộ kiểm tra và huấn luyện có hoàn toàn là một điều thống kê hay không?
Tôi là sinh viên vật lý học máy học / khoa học dữ liệu, vì vậy tôi không có ý định cho câu hỏi này để bắt đầu bất kỳ xung đột nào :) Tuy nhiên, một phần lớn của bất kỳ chương trình đại học vật lý nào là …

2
Thông tin lẫn nhau như xác suất
Có thể thông tin lẫn nhau về entropy chung: 0 ≤ tôi( X, Y)H( X, Y)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 được định nghĩa là: "Xác suất chuyển một phần thông tin từ X đến Y"? Tôi xin lỗi vì quá ngây thơ, nhưng tôi chưa bao giờ nghiên …


1
RandomForest và trọng lượng lớp
Câu hỏi trong một câu: Có ai biết cách xác định trọng số lớp tốt cho một khu rừng ngẫu nhiên không? Giải thích: Tôi đang chơi xung quanh với các bộ dữ liệu mất cân bằng. Tôi muốn sử dụng Rgói randomForestđể đào tạo một mô hình trên bộ …
11 r  random-forest 





1
Làm thế nào để giải thích kết quả khi cả hai sườn núi và lasso hoạt động tốt nhưng tạo ra các hệ số khác nhau
Tôi đang chạy mô hình hồi quy cả với Lasso và Ridge (để dự đoán một biến kết quả rời rạc từ 0-5). Trước khi chạy mô hình, tôi sử dụng SelectKBestphương pháp scikit-learnđể giảm bộ tính năng từ 250 xuống 25 . Nếu không có lựa chọn tính năng …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.