Việc sử dụng dữ liệu đếm làm biến độc lập có vi phạm bất kỳ giả định GLM nào không?


14

Tôi muốn sử dụng dữ liệu đếm dưới dạng đồng biến trong khi điều chỉnh mô hình hồi quy logistic. Câu hỏi của tôi là:

  • Tôi có vi phạm bất kỳ giả định nào về các mô hình logistic (và, nói chung hơn, của các mô hình tuyến tính tổng quát) bằng cách sử dụng các số nguyên, các biến số không âm làm các biến độc lập không?

Tôi tìm thấy rất nhiều tài liệu tham khảo trong các tài liệu liên quan đến việc sử dụng dữ liệu đếm làm kết quả, nhưng không phải là kết quả; xem ví dụ như bài viết rất rõ ràng: "NE Breslow (1996) Các mô hình tuyến tính tổng quát: Kiểm tra các giả định và tăng cường kết luận, Congresso Nazionale Societa Italiana di Biometria, Cortona tháng 6 năm 1995", có sẵn tại http://biostat.georgiahealth.edu/~dryu /c thuyết / stat9110spring12 / land16 numf.pdf .

Nói một cách lỏng lẻo, dường như các giả định glm có thể được thể hiện như sau:

  • iid dư;
  • hàm liên kết phải biểu diễn chính xác mối quan hệ giữa các biến phụ thuộc và độc lập;
  • không có ngoại lệ

Mọi người có biết liệu có tồn tại bất kỳ vấn đề giả định / kỹ thuật nào khác có thể đề xuất sử dụng một số loại mô hình khác để xử lý các biến số đếm không?

Cuối cùng, xin lưu ý rằng dữ liệu của tôi chứa tương đối ít mẫu (<100) và phạm vi của các biến đếm có thể thay đổi trong khoảng 3-4 bậc độ lớn (nghĩa là một số biến có giá trị trong phạm vi 0-10, trong khi các biến khác có thể có giá trị trong 0-10000).

Một mã ví dụ R đơn giản sau:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

Chào mừng đến với trang web! Một lưu ý: nếu bạn muốn đăng bài viết của mình, hãy sử dụng hồ sơ của bạn (đặc biệt là hộp giới thiệu về tôi).

11
thông thường, trong các mô hình GLM, các biến dự đoán ("độc lập") chỉ được coi là một số hằng đã biết, KHÔNG có giả định phân phối nào về chúng! Vì vậy, không có gì sai trong việc sử dụng dữ liệu đếm như dự đoán.
kjetil b halvorsen

1
kjetil Điều đó đúng - và một câu trả lời tốt cho câu hỏi. Tuy nhiên, với các phạm vi IV cực đoan được mô tả ở đây, người ta sẽ khôn ngoan khi đánh giá ảnh hưởng của dữ liệu, kiểm tra mức độ phù hợp và đặc biệt đánh giá tiềm năng của mối quan hệ phi tuyến tính. Điều này sẽ được thực hiện với hy vọng rằng mối quan hệ thực sự phi tuyến và một biểu hiện lại của IV, như gốc hoặc nhật ký, sẽ tuyến tính hóa nó, do đó đồng thời giải quyết một số vấn đề ảnh hưởng. Đây có lẽ là những gì @ user14583 đang cố gắng chỉ ra trong câu trả lời của họ.
whuber

@kjetilbhalvorsen - Tôi đồng ý về "không có giả định phân phối", nhưng tôi không nghĩ bạn muốn nói "đã biết" hay "hằng số", vì những từ đó không phù hợp.
rolando2

4
Chúng là "hằng số" theo nghĩa là chúng không ngẫu nhiên: không phân phối. Chúng được "biết" theo nghĩa là chúng được giả định là được đo mà không có lỗi, vì vậy giá trị đo được là giá trị thực sự hoạt động trong cơ chế tạo dữ liệu. Mô hình GLM giả định rằng tất cả sự ngẫu nhiên nằm trong cơ chế phản hồi, điều này thường không rõ ràng!
kjetil b halvorsen

Câu trả lời:


5

Có một số sắc thái chơi ở đây, và chúng có thể tạo ra một số nhầm lẫn.

Bạn nói rằng bạn hiểu các giả định của hồi quy logistic bao gồm " iid dư ...". Tôi sẽ tranh luận rằng điều này không hoàn toàn chính xác. Chúng ta thường nói rằng về Mô hình tuyến tính tổng quát (nghĩa là hồi quy), nhưng trong trường hợp đó, điều đó có nghĩa là phần dư độc lập với nhau, có cùng phân phối (thường là bình thường) có cùng giá trị trung bình (0) và phương sai ( tức là phương sai không đổi: tính đồng nhất của phương sai / tính đồng nhất). Tuy nhiên, xin lưu ý rằng đối với phân phối Bernoulliphân phối Binomial, phương sai là một hàm của giá trị trung bình. Do đó, phương sai không thể là hằng số, trừ khi hiệp phương sai hoàn toàn không liên quan đến đáp ứng. Đó sẽ là một giả định hạn chế đến mức khiến cho hồi quy logistic trở nên vô giá trị. Tôi lưu ý rằng trong bản tóm tắt của pdf mà bạn trích dẫn, nó liệt kê các giả định bắt đầu bằng "tính độc lập thống kê của các quan sát", mà chúng ta có thể gọi i-but-not-id(không có nghĩa là quá dễ thương về nó).

Tiếp theo, như @kjetilbhalvorsen ghi chú trong nhận xét ở trên , các giá trị đồng biến (nghĩa là các biến độc lập của bạn) được giả định là được cố định trong Mô hình tuyến tính tổng quát. Đó là, không có giả định phân phối cụ thể được thực hiện. Do đó, không quan trọng chúng có được tính hay không, cũng không quan trọng nếu chúng nằm trong khoảng từ 0 đến 10, từ 1 đến 10000, hoặc từ -3,1415927 đến -2,718281828.

Tuy nhiên, một điều cần xem xét, như @whuber lưu ý , nếu bạn có một số lượng nhỏ dữ liệu rất cực đoan trên một trong các kích thước đồng biến, những điểm đó có thể có rất nhiều điều tôi sẽ không mô tả những cân nhắc này là "giả định", nhưng chúng chắc chắn là những cân nhắc quan trọng trong việc phát triển một mô hình thích hợp. ảnh hưởng lớn đến kết quả phân tích của bạn. Đó là, bạn có thể nhận được một kết quả nhất định chỉ vì những điểm đó. Một cách để nghĩ về điều này là thực hiện một loại phân tích độ nhạy bằng cách khớp mô hình của bạn cả có và không có những dữ liệu đó. Bạn có thể tin rằng sẽ an toàn hơn hoặc phù hợp hơn khi bỏ những quan sát đó, sử dụng một số hình thức phân tích thống kê mạnh mẽ hoặc để biến đổi các đồng biến đó để giảm thiểu đòn bẩy cực đoan mà những điểm đó sẽ có.


1

Một điều tôi chắc chắn sẽ kiểm tra là các thuộc tính phân phối của các biến độc lập của bạn. Rất thường xuyên với dữ liệu đếm, bạn sẽ thấy một số sai lệch vừa phải đến nghiêm trọng. Trong trường hợp đó, bạn có thể muốn chuyển đổi dữ liệu của mình vì bạn sẽ mất mối quan hệ log-linear. Nhưng không, sử dụng mô hình logistic (hoặc GLM khác) là tốt.


3
Làm thế nào để lệch phải mất 'mối quan hệ log-linear'?
Glen_b -Reinstate Monica

3
Nhận xét này có vẻ không đúng với tôi. Giống như @Glen_b, tôi không thấy điều này nhất thiết sẽ làm mất mối quan hệ log-linear. Trong mọi trường hợp, tốt hơn là kiểm tra mối quan hệ trực tiếp (thông qua âm mưu, ví dụ).
Peter Flom - Tái lập Monica

2
Một phép biến đổi phi tuyến của IV chắc chắn sẽ thay đổi mối quan hệ log-linear thành một thứ khác, @Peter. Câu trả lời này về cơ bản là chính xác với tôi.
whuber

1
@whuber Tôi đồng ý rằng một biến đổi phi tuyến của một biến sẽ thay đổi mối quan hệ giữa nó và một biến khác. Điều đó có vẻ khá rõ ràng. Nhưng từ loại mối quan hệ để sắp xếp những gì? Tại sao không kiểm tra mối quan hệ trực tiếp thay vì giả định nó sẽ được thay đổi như thế nào? Ngoài ra, câu trả lời dường như nói rằng người đó muốn mất mối quan hệ tuyến tính log.
Peter Flom - Tái lập Monica

2
Đó là một điểm tốt @Peter. Tuy nhiên, một số người làm muốn thay đổi mối quan hệ; đó không hẳn là một quan niệm sai lầm Tôi đồng ý rằng kiểm tra trực tiếp là đúng quy trình: nó sẽ gợi ý cách thể hiện lại (các) IV liên quan để tạo mối quan hệ tuyến tính.
ai
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.