Phân phối dữ liệu tỷ lệ phần trăm


11

Tôi có một câu hỏi về phân phối chính xác để sử dụng để tạo một mô hình với dữ liệu của tôi. Tôi đã tiến hành kiểm kê rừng với 50 lô, mỗi ô có kích thước 20m × 50m. Đối với mỗi ô, tôi ước tính tỷ lệ tán cây che phủ mặt đất. Mỗi ô có một giá trị, tính bằng phần trăm, cho độ che phủ của tán cây. Tỷ lệ phần trăm từ 0 đến 0,95. Tôi đang tạo một mô hình che phủ tán cây phần trăm ( biến Y ), với ma trận các biến X độc lập dựa trên hình ảnh vệ tinh và dữ liệu môi trường.

Tôi không chắc chắn liệu tôi có nên sử dụng phân phối nhị thức hay không, vì biến ngẫu nhiên nhị thức là tổng của n thử nghiệm độc lập (nghĩa là biến ngẫu nhiên Bernoulli). Các giá trị phần trăm không phải là tổng của các thử nghiệm; chúng là tỷ lệ phần trăm thực tế. Tôi có nên sử dụng gamma, mặc dù nó không có giới hạn trên? Tôi có nên chuyển đổi tỷ lệ phần trăm thành số nguyên và sử dụng Poisson dưới dạng đếm không? Tôi có nên gắn bó với Gaussian? Tôi đã không tìm thấy nhiều ví dụ trong tài liệu hoặc trong sách giáo khoa cố gắng mô hình hóa tỷ lệ phần trăm theo cách này. Bất kỳ gợi ý hoặc hiểu biết đều được đánh giá cao.


Cảm ơn bạn cho câu trả lời của bạn. Trong thực tế, bản phân phối beta chính xác là những gì tôi cần và được thảo luận kỹ lưỡng trong bài viết này:

Bài viết sau đây thảo luận về một cách hay để chuyển đổi biến phản hồi phân phối beta khi nó bao gồm các số 0 thực và / hoặc 1 trong phạm vi tỷ lệ phần trăm:


2
Bạn đã nghĩ về việc sử dụng một logit phân đoạn hoặc beta không lạm phát ?
Dimitriy V. Masterov

2
Cảm ơn bạn cho câu trả lời của bạn. Trên thực tế, bản phân phối beta chính xác là những gì tôi cần và được thảo luận kỹ lưỡng trong bài viết này: Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Ước tính độ che phủ của thảm thực vật Ripary với mô hình hồi quy Beta và copula. Khoa học lâm nghiệp, 57 (3), 212-221. Các tác giả này sử dụng gói betareg trong R của Cribari-Neto và Zeileis. Bài viết sau đây thảo luận một cách tốt để chuyển đổi một biến phản ứng beta-phân phối khi nó bao gồm đúng 0 và / hoặc 1 trong phạm vi tỷ lệ: Smithson, M., và J. Verkuilen, 2006. Một tốt hơn chanh vuông

Câu trả lời:


7

Bạn đúng rằng phân phối nhị thức dành cho các tỷ lệ riêng biệt phát sinh từ số lượng 'thành công' từ số lượng thử nghiệm Bernoulli hữu hạn và điều này làm cho phân phối không phù hợp với dữ liệu của bạn. Bạn nên sử dụng phân phối Gamma chia cho tổng số Gamma đó cộng với một Gamma khác. Đó là, bạn nên sử dụng phân phối beta để mô hình tỷ lệ liên tục.

Tôi có một ví dụ về hồi quy beta trong câu trả lời của tôi ở đây: hiệu ứng Remove của yếu tố trên dữ liệu tỷ lệ liên tục sử dụng hồi quy trong R .

Cập nhật:
@ DimitriyV.Masterov nêu lên điểm hay là bạn đề cập đến dữ liệu của mình có , nhưng bản phân phối beta chỉ được hỗ trợ trên . Điều này đặt ra câu hỏi về những gì nên được thực hiện với các giá trị như vậy. Một số ý tưởng có thể được lượm lặt từ chuỗi CV xuất sắc này: Nên thêm số lượng nhỏ vào x để tránh lấy nhật ký bằng 0?0(0, 1)


3
Phân phối beta có thể xử lý các số không?
Dimitriy V. Masterov

1

Tỷ lệ phần trăm đại diện cho tỷ lệ độc lập với số lượng mẫu. Bạn muốn sử dụng các tỷ lệ phần trăm này làm biến phụ thuộc và hình ảnh vệ tinh làm biến giải thích. Tuy nhiên tôi đoán không phải tất cả 50 lô trong kho đều có số lượng mẫu tương tự nhau. Một mô hình phù hợp liên quan đến tỷ lệ phần trăm này với các biến khác sẽ tính đến độ không đảm bảo này trong phép đo, đưa ra nhiều trọng số hơn trên các ô có mẫu cao.

Hơn nữa, phân phối lỗi trong trường hợp dữ liệu của bạn rõ ràng là nhị thức. Phương sai lỗi là nhỏ nhất tại các ranh giới, điều này được ghi lại bằng phân phối nhị thức.

Tất cả điều này đối với tôi như là ví dụ điển hình của việc sử dụng GLM với mô hình lỗi nhị thức.

"Thống kê: Giới thiệu sử dụng R", Chương 14 của Crawley thảo luận chính xác chủ đề này và cách phân tích nó với R.


4
Các phân phối nhị thức là sự phân bố của số lần thành công từ một số được biết đến của các thử nghiệm Bernoulli. Nhận xét của bạn rằng "thực tế là các thử nghiệm Bernoulli cũng được mô tả bởi phân phối Binomial không có nghĩa là mọi thứ được mô tả bởi phân phối Binomial phải phù hợp với cấu trúc Bernoulli" là không chính xác. Phân phối nhị thức không thích hợp cho tỷ lệ liên tục. Ngoài ra, tôi không đề xuất phân phối Gamma, mà là phân phối beta.
gung - Phục hồi Monica

1
vâng, bạn hoàn toàn đúng
bonobo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.