Xử lý 0,1 giá trị trong hồi quy beta


20

Tôi có một số dữ liệu trong [0,1] mà tôi muốn phân tích với hồi quy beta. Tất nhiên một cái gì đó cần phải được thực hiện để chứa 0,1 giá trị. Tôi không thích sửa đổi dữ liệu để phù hợp với một mô hình. Ngoài ra, tôi không tin rằng lạm phát 0 và 1 là một ý tưởng hay vì tôi tin rằng trong trường hợp này, người ta nên coi 0 là giá trị dương rất nhỏ (nhưng tôi không muốn nói chính xác giá trị nào là phù hợp. Tôi tin rằng sẽ chọn các giá trị nhỏ như 0,001 và 0,999 và để phù hợp với mô hình bằng cách sử dụng dist tích lũy cho phiên bản beta. Vì vậy, đối với các quan sát y_i khả năng đăng nhập LL_iwould là

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Điều tôi thích ở mô hình này là nếu mô hình hồi quy beta hợp lệ thì mô hình này cũng hợp lệ, nhưng nó loại bỏ một chút độ nhạy đối với các giá trị cực trị. Tuy nhiên, đây dường như là một cách tiếp cận tự nhiên đến nỗi tôi tự hỏi tại sao tôi không tìm thấy bất kỳ tài liệu tham khảo rõ ràng nào trong tài liệu. Vì vậy, câu hỏi của tôi là thay vì sửa đổi dữ liệu, tại sao không sửa đổi mô hình. Sửa đổi dữ liệu làm sai lệch kết quả (dựa trên giả định rằng mô hình ban đầu là hợp lệ), trong khi sửa đổi mô hình bằng cách đánh dấu các giá trị cực trị không làm sai lệch kết quả.

Có lẽ có một vấn đề tôi đang xem xét?


1
Thật sự không thể đưa ra một câu trả lời hay cho câu hỏi này mà không biết thêm về vấn đề cụ thể. Câu hỏi chính là liệu các số 0 và số chính xác có được tạo bởi một quy trình khác với quy trình tạo dữ liệu trong (0,1) hay không. Một ví dụ kinh điển là lượng mưa, nơi có những ngày không chính xác phản ánh những ngày trời không mưa. Trong ứng dụng của bạn là số không và những người "đặc biệt" theo một cách nào đó?
Dikran Marsupial

Câu trả lời:


16

Theo bài báo này , một sự chuyển đổi thích hợp là

x'= =x(N-1)+SN

"trong đó N là cỡ mẫu và s là hằng số từ 0 đến 1. Từ quan điểm Bayes, s hoạt động như thể chúng ta đang tính đến trước. Một lựa chọn hợp lý cho s sẽ là 0,5."

Điều này sẽ ép dữ liệu nằm trong ở trong ( 0 , 1 ) . Các trích dẫn ở trên, và một lý do toán học của sự chuyển đổi có sẵn trong các ghi chú bổ sung của bài báo .[0,1](0,1)


1
+1 .. Nhưng bạn có thể sửa liên kết đầu tiên hoặc ít nhất là trích dẫn bài báo để chúng tôi có thể tìm thấy nó một cách độc lập không?
whuber

1
Nhưng điều đó không trả lời câu hỏi của tôi. Tôi nhận thức rõ rằng người ta có thể biến đổi dữ liệu. Câu hỏi của tôi là tại sao không chuyển đổi mô hình thay thế?
dave Fournier

1
Dave, sau đó xin vui lòng chỉnh sửa câu hỏi của bạn để phản ánh điều này: hiện tại, nó đọc như thể bạn đang tìm cách chuyển đổi dữ liệu . Trong quá trình, nó sẽ giúp bạn chỉ ra những gì bạn nghĩ là sự khác biệt giữa chuyển đổi dữ liệu và thay đổi mô hình, bởi vì nếu có một, nó rất tinh tế.
whuber

@davefournier, Nếu bạn đọc các trang web Cam, nó sẽ giải quyết câu hỏi của bạn. Họ cũng đưa ra các đề xuất mô hình thay thế (xem trang 69) và một phần của bản lề đề xuất về bản chất của dữ liệu. Khả năng điều chỉnh của bạn trông giống như "quá trình liên tục rời rạc" (được đề cập đến cuối trang 69). Đây cũng có thể là trường hợp mô hình Tobit sẽ thỏa đáng với dữ liệu của bạn, mặc dù tốt nhất nên xem các tài liệu tham khảo khác về sự phù hợp của mô hình Tobit, như cuốn sách của Scott Long về hồi quy phân loại.
Andy W

1
Nhưng họ không thực hiện phương pháp này. Họ đề xuất một mô hình khác nhau, một quá trình liên tục rời rạc. Điều đó rất khác với việc tạo ra các giá trị cực đoan. Như tôi đã nói trước đây nếu mô hình beta hợp lệ thì mô hình binning hợp lệ. Nếu mô hình liên tục rời rạc là hợp lệ thì mô hình beta không hợp lệ. Tôi nghi ngờ rằng họ chủ yếu được thúc đẩy trong phân tích của họ bởi các loại mô hình hỗn hợp mà họ có thể phù hợp với phần mềm của họ. Mô hình hỗn hợp beta binned khó khăn hơn một chút để phù hợp.
dave Fournier

3

Dave,

Một cách tiếp cận phổ biến cho vấn đề này là điều chỉnh 2 mô hình hồi quy logistic để dự đoán xem một trường hợp là 0 hay 1. Sau đó, hồi quy beta được sử dụng cho những mô hình trong phạm vi (0,1).


bạn có thể cung cấp một ví dụ? hoặc một bài báo thảo luận về điều này chi tiết hơn?
user1607

2

(đăng nhập(x),đăng nhập(1-x))

x(x,x2)

Tôi tin rằng cả hai đều dễ dàng được ước tính theo cách Bayes vì ​​cả hai đều là gia đình theo cấp số nhân. Đây là một sửa đổi của mô hình như bạn đã hy vọng.


1

Tôi nghĩ rằng câu trả lời "chính xác" thực sự cho câu hỏi này là hồi quy beta không tăng một. Điều này được thiết kế để xử lý dữ liệu thay đổi liên tục trong khoảng [0,1] và cho phép nhiều dữ liệu 0 và 1 thực trong dữ liệu. Cách tiếp cận này phù hợp với ba mô hình riêng biệt trong bối cảnh bayes, tương tự như những gì @B_Miner đề xuất.

Mô hình 1: Giá trị là 0/1 rời rạc hay là giá trị trong (0,1)? Phù hợp với một phân phối bernoulli.

Mô hình 2: Phù hợp với tập hợp con rời rạc với phân phối bernoulli.

Mô hình 3: Tập hợp con (0,1) với hồi quy beta.

Để dự đoán, kết quả mô hình đầu tiên có thể được sử dụng để cân nhắc dự đoán của mô hình 2 và 3. Điều này có thể được thực hiện trong zoibgói R hoặc được ủ tại nhà trong BUGS / JAGS / STAN / v.v.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.