Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu


5
Tại sao việc thu thập dữ liệu cho đến khi có được kết quả quan trọng làm tăng tỷ lệ lỗi Loại I?
Tôi đã tự hỏi chính xác tại sao thu thập dữ liệu cho đến khi có được một kết quả quan trọng (ví dụ: ) (ví dụ, hack p) làm tăng tỷ lệ lỗi Loại I?p<.05p<.05p \lt .05 Tôi cũng sẽ đánh giá cao một Rcuộc biểu tình của hiện …



8
Làm cách nào tôi có thể giúp đảm bảo dữ liệu thử nghiệm không bị rò rỉ vào dữ liệu đào tạo?
Giả sử chúng ta có ai đó xây dựng một mô hình dự đoán, nhưng ai đó không nhất thiết phải thành thạo các nguyên tắc thống kê hoặc máy học phù hợp. Có thể chúng tôi đang giúp người đó khi họ đang học hoặc có thể người đó …






3
Tại sao ước tính sườn núi trở nên tốt hơn OLS bằng cách thêm một hằng số vào đường chéo?
Tôi hiểu rằng ước tính hồi quy sườn núi là giảm thiểu tổng bình phương còn lại và hình phạt đối với kích thước củaββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Tuy nhiên, tôi không hiểu đầy đủ ý nghĩa của thực tế là …





Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.