Thống kê và dữ liệu lớn

2

Liệu khoảng tin cậy có thực sự cung cấp thước đo độ không đảm bảo của ước tính tham số không?

Tôi đã đọc một bài đăng trên blog của nhà thống kê William Briggs, và tuyên bố sau đây khiến tôi quan tâm để nói ít nhất. Ông nghĩ gì về nó? Khoảng tin cậy là gì? Đó là một phương trình, tất nhiên, sẽ cung cấp cho bạn một …

12 confidence-interval frequentist philosophical

1

ANOVA: kiểm tra giả định về tính quy tắc cho nhiều nhóm với vài mẫu trên mỗi nhóm

Giả sử tình huống sau: chúng tôi có một số lượng lớn (ví dụ 20) với kích thước nhóm nhỏ (ví dụ n = 3). Tôi nhận thấy rằng nếu tôi tạo các giá trị từ phân phối đồng đều, phần dư sẽ trông xấp xỉ bình thường mặc dù …

12 anova normal-distribution small-sample

2

Khi nào MCMC hữu ích?

Tôi gặp khó khăn trong việc hiểu cách tiếp cận MCMC thực sự hữu ích trong tình huống nào. Tôi đang xem qua một ví dụ về đồ chơi từ cuốn sách Kruschke "Thực hiện phân tích dữ liệu Bayes: Hướng dẫn với R và BUGS". Những gì tôi hiểu …

12 mcmc

2

Ridge phạt GLMs bằng cách sử dụng hàng gia tăng?

Tôi đã đọc rằng có thể đạt được hồi quy sườn bằng cách thêm các hàng dữ liệu vào ma trận dữ liệu gốc, trong đó mỗi hàng được xây dựng bằng 0 cho các biến phụ thuộc và căn bậc hai của hoặc 0 cho các biến độc lập. …

12 logistic generalized-linear-model ridge-regression

3

Tại sao không phải là phương pháp nắm giữ (chia dữ liệu thành đào tạo và thử nghiệm) được sử dụng trong thống kê cổ điển?

Trong lớp học của tôi tiếp xúc với khai thác dữ liệu, phương pháp nắm giữ được giới thiệu như một cách đánh giá hiệu suất mô hình. Tuy nhiên, khi tôi học lớp đầu tiên về các mô hình tuyến tính, điều này không được giới thiệu như một …

12 regression validation model-evaluation out-of-sample

1

Có bất kỳ sử dụng đương đại của jackknifing?

Câu hỏi: Bootstrapping vượt trội hơn so với jackknifing; tuy nhiên, tôi tự hỏi liệu có những trường hợp trong đó jackknifing là lựa chọn duy nhất hoặc ít nhất là khả thi để mô tả tính không chắc chắn từ các ước tính tham số. Ngoài ra, trong các …

12 machine-learning cross-validation bootstrap maximum-entropy jackknife

4

Sự khác biệt giữa một mạng lưới thần kinh và một tri giác là gì?

Có sự khác biệt nào giữa các thuật ngữ "mạng lưới thần kinh" và "perceptron" không?

12 machine-learning neural-networks terminology perceptron

1

k-nghĩa là | | aka K-Means ++ có thể mở rộng

Bahman Bahmani et al. giới thiệu k-nghĩa | |, đây là phiên bản nhanh hơn của k-nghĩa ++. Thuật toán này được lấy từ trang 4 của bài báo của họ , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Khả năng mở rộng k-nghĩa là …

12 clustering k-means

4

Là bất đẳng thức tam giác được thực hiện cho các khoảng cách dựa trên tương quan?

Để phân cụm theo phân cấp, tôi thường thấy hai "số liệu" sau đây (chúng không nói chính xác) để đo khoảng cách giữa hai biến ngẫu nhiên XXX và YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} Có ai thực hiện bất đẳng thức tam …

12 correlation clustering distance metric

3

Xác suất có điều kiện của biến liên tục

Giả sử rằng biến ngẫu nhiên UUU tuân theo phân phối Thống nhất liên tục với các tham số 0 và 10 (tức là )U∼U(0,10)U∼U(0,10)U \sim \rm{U}(0,10) Bây giờ hãy biểu thị A sự kiện = 5 và B sự kiện bằng hoặc 6. Theo hiểu biết của tôi, cả …

12 conditional-probability continuous-data uniform

1

Người chơi cờ vua nam và nữ - Sự khác biệt dự kiến ở đuôi phân phối

Tôi quan tâm đến những phát hiện của bài báo này từ năm 2009: Tại sao phụ nữ (giỏi nhất) lại giỏi cờ vua đến vậy? Tỷ lệ tham gia và sự khác biệt về giới trong các lĩnh vực trí tuệ Bài viết này cố gắng giải thích lý …

12 population extreme-value

1

Trình tối ưu hóa lme4 mặc định yêu cầu nhiều lần lặp lại cho dữ liệu chiều cao

TL; DR: lme4tối ưu hóa dường như là tuyến tính trong số các thông số mô hình theo mặc định, và là cách chậm hơn so với một tương đương glmmô hình với biến giả cho các nhóm. Có bất cứ điều gì tôi có thể làm để tăng tốc …

12 r mixed-model optimization lme4-nlme numerics

1

Sự thay thế quá mức và mô hình hóa trong các mô hình hiệu ứng ngẫu nhiên Poisson với độ lệch

Tôi đã gặp một số câu hỏi thực tế khi mô hình hóa dữ liệu đếm từ nghiên cứu thử nghiệm bằng cách sử dụng thử nghiệm bên trong chủ đề. Tôi mô tả ngắn gọn về thí nghiệm, dữ liệu và những gì tôi đã làm cho đến nay, …

12 generalized-linear-model negative-binomial glmm poisson-regression overdispersion

2

Cách tìm

Làm sao tôi có thể giải quyết việc này? Tôi cần phương trình trung gian. Có lẽ câu trả lời là −tf(x)−tf(x)-tf(x) . ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x) là hàm mật độ xác suất. Đó là để nói, limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0 và limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to …

12 probability distributions self-study mathematical-statistics

1

Sự khác biệt giữa 'thử nghiệm giả thuyết' và 'lựa chọn mô hình' là gì?

Trong văn học, cả hai thuật ngữ thường được sử dụng đồng nghĩa hoặc đan xen. Bây giờ tôi đang cố gắng tìm một sự khác biệt rõ ràng giữa cả hai điều khoản. Theo quan điểm của tôi, một giả thuyết thường được thể hiện thông qua một mô …

12 hypothesis-testing model-selection regression-strategies