Thống kê và dữ liệu lớn

6

Lỗi tiêu chuẩn cho dự đoán Lasso khi sử dụng R

Tôi đang cố gắng sử dụng mô hình LASSO để dự đoán và tôi cần ước tính các lỗi tiêu chuẩn. Chắc chắn ai đó đã viết một gói để làm điều này. Nhưng theo như tôi có thể thấy, không có gói nào trên CRAN thực hiện dự đoán …

60 r standard-error prediction lasso

5

Tại sao việc thu thập dữ liệu cho đến khi có được kết quả quan trọng làm tăng tỷ lệ lỗi Loại I?

Tôi đã tự hỏi chính xác tại sao thu thập dữ liệu cho đến khi có được một kết quả quan trọng (ví dụ: ) (ví dụ, hack p) làm tăng tỷ lệ lỗi Loại I?p<.05p<.05p \lt .05 Tôi cũng sẽ đánh giá cao một Rcuộc biểu tình của hiện …

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

4

Tại sao bao gồm vĩ độ và kinh độ trong tài khoản GAM cho tự động tương quan không gian?

Tôi đã sản xuất các mô hình phụ gia tổng quát cho nạn phá rừng. Để giải thích cho sự tự tương quan không gian, tôi đã bao gồm vĩ độ và kinh độ như một thuật ngữ tương tác được làm mịn (ví dụ s (x, y)). Tôi đã …

60 r modeling spatial autocorrelation gam

11

Không trực giao có nghĩa là gì trong bối cảnh thống kê?

Trong các bối cảnh khác, trực giao có nghĩa là "ở góc bên phải" hoặc "vuông góc". Không trực giao có nghĩa là gì trong một bối cảnh thống kê? Cảm ơn cho bất kỳ làm rõ.

60 descriptive-statistics

8

Làm cách nào tôi có thể giúp đảm bảo dữ liệu thử nghiệm không bị rò rỉ vào dữ liệu đào tạo?

Giả sử chúng ta có ai đó xây dựng một mô hình dự đoán, nhưng ai đó không nhất thiết phải thành thạo các nguyên tắc thống kê hoặc máy học phù hợp. Có thể chúng tôi đang giúp người đó khi họ đang học hoặc có thể người đó …

60 machine-learning classification predictive-models cross-validation out-of-sample

9

Nhược điểm của việc sử dụng Lasso cho lựa chọn biến để hồi quy là gì?

Từ những gì tôi biết, sử dụng lasso cho lựa chọn biến xử lý vấn đề của các đầu vào tương quan. Ngoài ra, vì nó tương đương với Least Angle Regression, nên nó không bị tính toán chậm. Tuy nhiên, nhiều người (ví dụ những người tôi biết làm …

60 regression feature-selection lasso

9

Làm thế nào để hình dung những gì ANOVA làm?

Có cách nào (cách?) Để giải thích trực quan ANOVA là gì? Bất kỳ tài liệu tham khảo, liên kết (gói R?) Sẽ được hoan nghênh.

60 data-visualization anova teaching

3

Giải thích truyện tranh xkcd thạch đậu: Điều gì làm cho nó buồn cười?

Tôi thấy rằng một lần ra khỏi hai mươi tổng kiểm tra họ chạy, , vì vậy họ sai giả sử rằng trong một trong hai mươi xét nghiệm, kết quả là đáng kể ( 0,05 = 1 / 20 ).p<0.05p<0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 truyện tranh đậu xkcd - …

60 hypothesis-testing statistical-significance confidence-interval p-value humor

2

Sự khác biệt giữa làm trắng ZCA và làm trắng PCA là gì?

Tôi bối rối về làm trắng ZCA và làm trắng bình thường (có được bằng cách chia các thành phần chính cho căn bậc hai của giá trị bản địa PCA). Theo như tôi biết, xZ C A w h i t e= U xP C A w h i …

60 pca dimensionality-reduction image-processing

7

Tối ưu hóa khi chức năng chi phí chậm để đánh giá

Gradient giảm dần và nhiều phương thức khác hữu ích cho việc tìm cực tiểu cục bộ trong các hàm chi phí. Chúng có thể hiệu quả khi hàm chi phí có thể được đánh giá nhanh chóng tại mỗi điểm, cho dù bằng số hay phân tích. Tôi có …

59 gradient-descent optimization bayesian-optimization

3

Tại sao ước tính sườn núi trở nên tốt hơn OLS bằng cách thêm một hằng số vào đường chéo?

Tôi hiểu rằng ước tính hồi quy sườn núi là giảm thiểu tổng bình phương còn lại và hình phạt đối với kích thước củaββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Tuy nhiên, tôi không hiểu đầy đủ ý nghĩa của thực tế là …

59 regression least-squares ridge-regression shrinkage

12

Bài kiểm tra hai đuôi Bài tôi không bị thuyết phục. Vấn đề ở đây là gì?

Đoạn trích sau đây là từ mục, Sự khác biệt giữa các bài kiểm tra một đuôi và hai đuôi là gì? , trên trang trợ giúp thống kê của UCLA. ... Hãy xem xét hậu quả của việc thiếu một hiệu ứng theo hướng khác. Hãy tưởng tượng bạn …

59 hypothesis-testing statistical-significance inference

13

Nếu chúng ta không từ chối giả thuyết null trong một nghiên cứu lớn, thì đó có phải là bằng chứng cho null không?

Một hạn chế cơ bản của kiểm tra ý nghĩa giả thuyết null là nó không cho phép nhà nghiên cứu thu thập bằng chứng ủng hộ null ( Nguồn ) Tôi thấy yêu cầu này được lặp đi lặp lại ở nhiều nơi, nhưng tôi không thể tìm thấy …

59 hypothesis-testing

6

Cuộc tranh luận thường xuyên-Bayes đi đâu?

Thế giới thống kê được phân chia giữa những người thường xuyên và Bayes. Những ngày này dường như tất cả mọi người làm một chút của cả hai. Làm sao có thể? Nếu các cách tiếp cận khác nhau phù hợp cho các vấn đề khác nhau, tại sao …

59 bayesian frequentist history philosophical

4

Giải thích trực quan về Thông tin của Fisher và Cramer-Rao bị ràng buộc

Tôi không thoải mái với thông tin của Fisher, những gì nó đo lường và nó hữu ích như thế nào. Ngoài ra, mối quan hệ với ràng buộc Cramer-Rao không rõ ràng đối với tôi. Ai đó có thể xin vui lòng giải thích trực quan về các khái …

59 estimation intuition fisher-information