Thống kê và dữ liệu lớn

1

Tôi đang tìm kiếm tài liệu tham khảo về việc tính toán khoảng tin cậy cho chế độ (nói chung). Bootstrap có vẻ là lựa chọn đầu tiên tự nhiên, nhưng như thảo luận của Romano (1988), bootstrap tiêu chuẩn không thành công cho chế độ và nó không cung …

11 confidence-interval bootstrap kernel-smoothing mode

2

Tìm hiểu về Gelman & Carlin Vượt xa các tính toán về sức mạnh: Mạnh Hồi (2014)

Tôi đang đọc Gelman & Carlin "Ngoài tính toán sức mạnh: Đánh giá lỗi loại S (Dấu hiệu) và Loại M (Độ lớn)" (2014). Tôi đang cố gắng để hiểu ý chính, phần chính, nhưng tôi bối rối. Bất cứ ai có thể giúp chắt lọc tôi bản chất? Bài …

11 statistical-significance effect-size power type-i-and-ii-errors

2

Xác suất rút bốn loại là bao nhiêu khi 20 lá bài được rút ra từ bộ bài 52?

Hôm qua bạn cùng phòng của tôi và tôi đang chơi các trò chơi bài và ai đó đã đặt ra câu hỏi này. Chúng tôi đã cố gắng giải quyết vấn đề, nhưng chúng tôi không thể tìm ra. Sáng nay tôi thức dậy và tôi vẫn đang tự …

11 probability

4

Cách thích hợp hơn để tạo một tập hợp giữ: xóa một số đối tượng hoặc xóa một số quan sát khỏi từng đối tượng là gì?

Tôi có một bộ dữ liệu với 26 tính năng và 31000 hàng. Đây là bộ dữ liệu của 38 đối tượng. Đó là cho một hệ thống sinh trắc học. Vì vậy, tôi muốn có thể xác định đối tượng. Để có một bộ thử nghiệm, tôi biết tôi …

11 machine-learning cross-validation out-of-sample

2

Trực giác đồ họa của số liệu thống kê trên một đa tạp

Trên bài đăng này , bạn có thể đọc tuyên bố: Các mô hình thường được biểu diễn bằng các điểm trên đa tạp chiều hữu hạn.θθ\theta Trên hình học và thống kê khác biệt của Michael K Murray và John W Rice, các khái niệm này được giải thích …

11 distributions manifold-learning information-geometry topologies

4

Tổng các biến ngẫu nhiên lognatural độc lập xuất hiện lognatural?

Tôi đang cố gắng để hiểu tại sao tổng của hai (hoặc nhiều hơn) các biến ngẫu nhiên logic bất thường tiếp cận phân phối logic bất thường khi bạn tăng số lượng quan sát. Tôi đã xem trực tuyến và không tìm thấy bất kỳ kết quả nào liên …

11 distributions lognormal convolution sum

2

Chứng minh định lý giới hạn trung tâm không sử dụng các hàm đặc trưng

Có bằng chứng nào cho việc CLT không sử dụng các hàm đặc trưng, một phương pháp đơn giản hơn không? Có lẽ phương pháp của Tikhomirov hoặc Stein? Một cái gì đó khép kín bạn có thể giải thích cho một sinh viên đại học (năm đầu tiên của …

11 mathematical-statistics central-limit-theorem characteristic-function

1

Tại sao một lựa chọn lớn của K làm giảm điểm xác nhận chéo của tôi?

Chơi xung quanh với Bộ dữ liệu nhà ở Boston và RandomForestRegressor(w / tham số mặc định) trong scikit-learn, tôi nhận thấy một điều kỳ lạ: điểm xác thực chéo có nghĩa là giảm khi tôi tăng số lần vượt quá 10. Chiến lược xác thực chéo của tôi như …

11 machine-learning cross-validation random-forest sample-size scikit-learn

3

Những lợi thế của một máy tạo ngẫu nhiên theo cấp số nhân sử dụng phương pháp của AhDR và Dieter (1972) thay vì biến đổi nghịch đảo là gì?

Câu hỏi của tôi được lấy cảm hứng từ hàm tạo số ngẫu nhiên theo hàm mũ tích hợp của R , hàm rexp(). Khi cố gắng tạo các số ngẫu nhiên phân tán theo cấp số nhân, nhiều sách giáo khoa khuyên dùng phương pháp biến đổi nghịch đảo …

11 r simulation random-generation exponential inverse-cdf

2

Phân phối Beta khi lật một đồng xu

Cuốn sách Bayesian của Kruschke nói, liên quan đến việc sử dụng bản phân phối beta để lật một đồng xu, Ví dụ: nếu chúng ta không có kiến thức trước ngoài kiến thức rằng đồng xu có mặt đầu và mặt đuôi, thì đó là tương đương với việc …

11 probability bayesian beta-distribution

1

Lựa chọn mô hình Mclust

Gói R mclustsử dụng BIC làm tiêu chí cho lựa chọn mô hình cụm. Theo hiểu biết của tôi, một mô hình có BIC thấp nhất nên được chọn so với các mô hình khác (nếu bạn chỉ quan tâm đến BIC). Tuy nhiên, khi tất cả các giá trị …

11 r clustering gaussian-mixture bic model-based-clustering

2

Có sai không khi sử dụng ANOVA thay vì kiểm tra t để so sánh hai phương tiện?

Tôi có một sự phân phối tiền lương và tôi muốn so sánh sự khác biệt về phương tiện cho nam và nữ. Tôi biết có bài kiểm tra T của sinh viên để so sánh hai phương tiện nhưng sau khi đề xuất ANOVA tôi đã nhận được một …

11 hypothesis-testing anova t-test

3

Tôi có nên sử dụng phần bù cho Poisson GLM của mình không?

Tôi đang thực hiện nghiên cứu để xem xét sự khác biệt về mật độ cá và sự phong phú của loài cá khi sử dụng hai phương pháp điều tra thị giác dưới nước khác nhau. Dữ liệu của tôi ban đầu là dữ liệu đếm nhưng sau đó, …

11 r generalized-linear-model poisson-distribution offset

2

Sử dụng hệ số tương quan của Pearson làm mục tiêu tối ưu hóa trong học máy

Trong học máy (đối với các vấn đề hồi quy), tôi thường thấy lỗi bình phương trung bình (MSE) hoặc lỗi trung bình tuyệt đối (MAE) được sử dụng làm hàm lỗi để giảm thiểu (cộng với thuật ngữ chính quy). Tôi tự hỏi nếu có những tình huống sử …

11 regression machine-learning svm optimization deep-learning

3

Các ví dụ thực tế của các mô hình thống kê phi tham số là gì?

Tôi đang đọc bài viết trên Wikipedia về các mô hình thống kê ở đây và tôi hơi bối rối về ý nghĩa của "các mô hình thống kê không tham số", cụ thể: Một mô hình thống kê là không tham số nếu bộ tham số là chiều vô …

11 nonparametric model