Làm thế nào để chỉnh sửa các sự kiện hiếm được mô tả trong King và Zeng (2001)?

8

Tôi có một bộ dữ liệu với biến phản ứng nhị phân (tỷ lệ sống) và 3 biến giải thích ( A= 3 cấp độ, B= 3 cấp độ, C= 6 cấp độ). Trong bộ dữ liệu này, dữ liệu được cân bằng tốt, với 100 cá nhân cho mỗi ABCloại. Tôi đã nghiên cứu ảnh hưởng của các A, Bvà Ccác biến với tập dữ liệu này; tác dụng của chúng rất đáng kể.

Tôi có một tập hợp con. Trong mỗi ABCloại, 25 trong số 100 cá thể, trong đó khoảng một nửa còn sống và một nửa đã chết (khi ít hơn 12 người còn sống hoặc đã chết, con số đã được hoàn thành với loại khác), đã được điều tra thêm cho biến thứ 4 ( D). Tôi thấy ba vấn đề ở đây:

Tôi cần cân nhắc dữ liệu các hiệu chỉnh sự kiện hiếm được mô tả trong King và Zeng (2001) để tính đến tỷ lệ xấp xỉ 50% - 50% không bằng tỷ lệ 0/1 trong mẫu lớn hơn.
Việc lấy mẫu 0 và 1 không ngẫu nhiên này dẫn đến một xác suất khác nhau cho các cá nhân được lấy mẫu trong mỗi ABCloại, vì vậy tôi nghĩ rằng tôi phải sử dụng tỷ lệ thực từ mỗi loại thay vì tỷ lệ toàn cầu là 0/1 trong mẫu lớn .
Biến thứ 4 này có 4 cấp độ và dữ liệu thực sự không được cân bằng ở 4 cấp độ này (90% dữ liệu nằm trong 1 cấp độ này, giả sử là cấp độ D2).

Tôi đã đọc kỹ bài báo của King và Zeng (2001), cũng như câu hỏi CV này dẫn tôi đến bài báo của King và Zeng (2001), và sau đó là một bài khác dẫn tôi dùng thử logistfgói (tôi sử dụng R). Tôi đã cố gắng áp dụng những gì tôi hiểu từ King và Zheng (2001), nhưng tôi không chắc những gì tôi đã làm là đúng. Tôi hiểu có hai phương pháp:

Đối với phương pháp sửa lỗi trước, tôi hiểu bạn chỉ sửa lỗi chặn. Trong trường hợp của tôi, phần chặn là A1B1C1loại và trong trường hợp này tỷ lệ sống là 100%, vì vậy tỷ lệ sống trong tập dữ liệu lớn và tập hợp con là như nhau, và do đó việc hiệu chỉnh không thay đổi gì. Tôi nghi ngờ phương pháp này không nên áp dụng cho tôi vì tôi không có tỷ lệ thực sự tổng thể, nhưng tỷ lệ cho từng loại và phương pháp này bỏ qua điều đó.
Đối với phương pháp trọng số: Tôi đã tính w _i và từ những gì tôi hiểu trong bài báo: "Tất cả các nhà nghiên cứu cần làm là tính toán w _i trong phương trình (8), chọn nó làm trọng số trong chương trình máy tính của họ, rồi chạy một mô hình logit ". Vì vậy, lần đầu tiên tôi chạy glmnhư:
```
glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)
```
Tôi không chắc chắn tôi nên đưa vào A, Bvà Cnhư các biến giải thích, vì tôi thường hy vọng chúng không có ảnh hưởng đến sự sống sót trong mẫu phụ này (mỗi loại chứa khoảng 50% người chết và còn sống). Dù sao, nó không nên thay đổi đầu ra rất nhiều nếu chúng không đáng kể. Với sự điều chỉnh này, tôi có được sự phù hợp tốt cho cấp độ D2(cấp độ với hầu hết các cá nhân), nhưng hoàn toàn không phù hợp với các cấp độ khác D( D2ưu tiên). Xem biểu đồ trên cùng bên phải:

Phù hợp với glmmô hình không trọng số và glmmô hình có trọng số với w _i . Mỗi dấu chấm đại diện cho một loại. Proportion in the big datasetlà tỷ lệ thực sự của 1 trong ABCdanh mục trong bộ dữ liệu lớn, Proportion in the sub datasetlà tỷ lệ thực sự của 1 trong ABCdanh mục trong tập hợp con và Model predictionslà dự đoán của glmcác mô hình được trang bị tập hợp con. Mỗi pchbiểu tượng đại diện cho một mức độ nhất định D. Tam giác là cấp độ D2.

Chỉ sau này khi thấy có một logistf, tôi mặc dù điều này có lẽ không đơn giản. Tôi không chắc bây giờ. Khi thực hiện logistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial), tôi nhận được ước tính, nhưng hàm dự đoán không hoạt động và kiểm tra mô hình mặc định trả về các giá trị bình phương vô hạn (trừ một) và tất cả p-value = 0 (trừ 1).

Câu hỏi:

Tôi đã hiểu đúng về King và Zeng (2001) chưa? (Tôi hiểu được nó bao xa?)
Trong tôi glmphù hợp, A, B, và Ccó tác dụng đáng kể. Tất cả điều này có nghĩa là tôi rút ngắn rất nhiều từ tỷ lệ nửa / nửa của 0 và 1 trong tập hợp con của tôi và khác nhau trong các ABCdanh mục khác nhau - không phải vậy sao?
Tôi có thể áp dụng hiệu chỉnh trọng số của King và Zeng (2001) mặc dù thực tế là tôi có giá trị tau và giá trị cho mỗi danh mục thay vì giá trị toàn cầu không? $\bar y$ ABC
Có phải là một vấn đề mà Dbiến của tôi rất mất cân bằng, và nếu có, làm thế nào tôi có thể xử lý nó? (Có tính đến việc tôi sẽ phải cân nhắc cho sự điều chỉnh sự kiện hiếm gặp ... Có phải "trọng số gấp đôi", tức là có trọng số, có thể không?) Cảm ơn!

Chỉnh sửa : Xem điều gì xảy ra nếu tôi loại bỏ A, B và C khỏi các mô hình. Tôi không hiểu tại sao có sự khác biệt như vậy.

Phù hợp không có A, B và C là các biến giải thích trong các mô hình

— Aurelie
nguồn

2

Các logistf() chức năng không thực hiện hồi quy logistic sự kiện hiếm hoi, đó là thực hiện bởi các relogit() chức năng trong gói Zelig, trên cran. Bạn nên kiểm tra cái đó!

— kjetil b halvorsen
nguồn

Ok, tôi đã có một cái nhìn và tôi không thể sử dụng relogit (), vì như tôi đã nói, tôi có một giá trị tau cho mỗi loại ABC, thay vì giá trị toàn cầu và hàm này không cho phép tôi nhập một vectơ của cùng chiều dài như tập dữ liệu của tôi là tau. Từ những gì tôi đã hiểu về cách viết hàm, tôi nghĩ những gì đã làm là đúng (ngoại trừ tôi không thực hiện phần chỉnh sửa thiên vị nâng cao hơn ...).

— Aurelie

2

Tôi nhận ra rằng các so sánh của tôi về tỷ lệ phù hợp và thực tế trong biểu đồ đầu tiên, góc trên bên phải, không phải là cách tốt nhất để đánh giá mức độ phù hợp của mô hình, vì trong dữ liệu lớn tôi có thể tính tỷ lệ cho các loại ABC, nhưng với mô hình phù hợp ở đâu tất cả bốn biến được bao gồm, tỷ lệ được dự đoán cho từng loại ABCD.

Tôi đã trang bị một mô hình mới trên subata, nơi tôi đã xóa D:

glm(R~A+B+C, family=binomial, data=subdata)

Vì vậy, tôi có thể so sánh các dự đoán của mô hình này được trang bị bộ con và tỷ lệ thực trong bộ dữ liệu lớn và đánh giá trọng số của tôi làm những gì tôi mong đợi.

Kết quả là:

Dự đoán của mô hình mới so với tỷ lệ trong bộ dữ liệu lớn.

Bây giờ tôi nghĩ câu trả lời là: có, chắc chắn.

Do đó, điều này đã trả lời cho câu hỏi của tôi 1 (tôi hiểu đúng về King và Zheng (2001), ít nhất là phương pháp trọng số) và 3 (tôi có thể áp dụng hiệu chỉnh trọng số của King và Zheng (2001) mặc dù thực tế là tôi có giá trị và giá trị cho mỗi danh mục ABC thay vì giá trị toàn cầu). $\tau$ $\bar{y}$

Hai câu hỏi khác là:

Tại sao điều quan trọng là bao gồm A, B và C trong mô hình để có được sự phù hợp tốt và tại sao hiệu quả của chúng là đáng kể. Có phải như tôi đã đề xuất với thực tế là tôi đã tiết lộ rất nhiều từ tỷ lệ nửa / nửa của 0 và 1 trong tập hợp con của tôi và khác nhau trong các loại ABC khác nhau?

-> Tôi nghĩ rằng kỳ vọng của tôi bao gồm A + B + C trong mô hình sẽ không có hiệu lực vì tất cả các loại ABC nên chứa khoảng một nửa quan sát 0 và 1 sẽ đúng với mô hình tuyến tính không trọng số (thực ra, khi bạn so sánh Hai đồ họa góc trên bên trái, không có nhiều sự khác biệt giữa chúng ... nhưng vẫn vậy, B và C có ảnh hưởng đáng kể trong mô hình tuyến tính không trọng số này .. Tôi sẽ xem xét điều này là do sự khởi hành từ 50 / 50), nhưng không nhất thiết phải có mô hình tuyến tính có trọng số.
Có phải là một vấn đề mà biến D của tôi rất mất cân bằng, và nếu có, làm thế nào tôi có thể xử lý nó? (Là "trọng số gấp đôi", tức là có trọng số, có thể không?).

-> Tôi nghĩ về việc sử dụng chức năng Anova của 'car'thư viện cho hồi quy logistic (chỉ định 'test.statistic="LR"'). Trong trường hợp đó, hàm sẽ cân trực tiếp các ô để tạo SS loại II, vì vậy tôi có thể giữ 'weight'tùy chọn để hiệu chỉnh các sự kiện hiếm gặp.

— Aurelie
nguồn

Tôi chỉ thấy câu hỏi CV này cho thấy sử dụng chức năng Anova từ thư viện xe hơi với bài kiểm tra LR không được điều chỉnh. Tôi sẽ đọc kỹ liên kết CV này để tìm câu trả lời.

— Aurelie

Tôi đã nghiên cứu sâu hơn chức năng 'logistf', bởi vì có vẻ như nó chứa phương thức mà các mô hình trọng số kiểm tra có ý nghĩa. Các hệ số tôi nhận được với hàm 'logistf' rất gần với các hệ số tôi nhận được với 'glm' (khi quay lại chuyển thành tỷ lệ lẻ và vẽ đồ thị, tôi nhận được dòng ax = y).

— Aurelie

Do đó, không có phương pháp nào để có được các dự đoán và giá trị được trang bị 'logistf', âm mưu của các giá trị được trang bị 'logistf' sẽ trông giống như âm mưu cuối cùng tôi cung cấp (sự phù hợp là tốt).

— Aurelie