GLM: xác minh lựa chọn chức năng phân phối và liên kết


14

Tôi có một mô hình tuyến tính tổng quát áp dụng hàm phân phối và liên kết nhật ký Gaussian. Sau khi lắp mô hình, tôi kiểm tra các phần dư: biểu đồ QQ, phần dư so với giá trị dự đoán, biểu đồ của phần dư (thừa nhận rằng cần thận trọng). Mọi thứ trông có vẻ tốt. Điều này dường như gợi ý (với tôi) rằng việc lựa chọn phân phối Gaussian là khá hợp lý. Hoặc, ít nhất, phần dư phù hợp với phân phối tôi đã sử dụng trong mô hình của mình.

Q1 : Nó sẽ đi quá xa để nói rằng nó xác nhận sự lựa chọn phân phối của tôi?

Tôi đã chọn một hàm liên kết nhật ký vì biến phản hồi của tôi luôn dương, nhưng tôi muốn một số xác nhận rằng đó là một lựa chọn tốt.

Câu hỏi 2 : Có bất kỳ thử nghiệm nào, như kiểm tra phần dư cho sự lựa chọn phân phối, có thể hỗ trợ cho sự lựa chọn của tôi về chức năng liên kết không? (Việc chọn một chức năng liên kết có vẻ hơi tùy tiện đối với tôi, vì các hướng dẫn duy nhất tôi có thể tìm thấy là khá mơ hồ và vẫy tay, có lẽ vì lý do chính đáng.)


2
Q1. Bạn có thể thử các bản phân phối khác và xem nếu chúng hoạt động tốt hơn. Quý 2 Chọn một liên kết nhật ký để đảm bảo dự đoán tích cực dường như không tùy tiện với tôi. Đó là một lý do. Nhưng liệu bạn có nhận được dự đoán tiêu cực với liên kết danh tính hay không và dữ liệu bạn có thể lần lượt được kiểm tra. Điểm mấu chốt: bạn không thể rõ ràng rằng các mô hình khác sẽ không tốt hơn cho đến khi bạn đã thử chúng.
Nick Cox

1
Yexp(η)R2

2
R2

Câu trả lời:


13
  1. Đây là một biến thể của câu hỏi thường gặp liên quan đến việc bạn có thể khẳng định giả thuyết không. Trong trường hợp của bạn, null sẽ là phần dư là Gaussian và kiểm tra trực quan các ô của bạn (qq-lô, biểu đồ, v.v.) tạo thành 'phép thử'. (Để có cái nhìn tổng quan chung về vấn đề khẳng định null, có thể giúp đọc câu trả lời của tôi ở đây: Tại sao các nhà thống kê nói rằng một kết quả không quan trọng có nghĩa là bạn không thể từ chối null, trái ngược với việc chấp nhận giả thuyết null? ) Trong trường hợp cụ thể của bạn, bạn có thể nói rằng các ô hiển thị phần dư của bạn phù hợp với giả định về tính quy tắc của bạn, nhưng chúng không "xác nhận" giả định.

  2. Bạn có thể điều chỉnh mô hình của mình bằng các hàm liên kết khác nhau và so sánh chúng, nhưng không có thử nghiệm chức năng liên kết đơn lẻ nào (điều này rõ ràng không chính xác, xem câu trả lời của @ Glen_b ). Trong câu trả lời của tôi về Sự khác biệt giữa các mô hình logit và probit (có thể đáng đọc, mặc dù nó không hoàn toàn giống nhau), tôi cho rằng nên chọn các hàm liên kết dựa trên:

    1. Kiến thức về phân phối đáp ứng,
    2. Xem xét lý thuyết, và
    3. Thực nghiệm phù hợp với dữ liệu.

    YYtừ việc trở nên tiêu cực, nó cũng tạo ra một hình dạng cụ thể cho mối quan hệ đường cong. Một biểu đồ chuẩn của phần dư so với giá trị được trang bị (có lẽ với phần phủ vừa vặn) sẽ giúp bạn xác định xem độ cong nội tại trong dữ liệu của bạn có khớp với độ cong cụ thể được áp đặt bởi liên kết nhật ký hay không. Như tôi đã đề cập, bạn cũng có thể thử bất kỳ phép chuyển đổi nào khác đáp ứng các tiêu chí lý thuyết mà bạn muốn và so sánh trực tiếp hai phép đo.


16

Nó sẽ đi quá xa để nói rằng nó xác nhận sự lựa chọn phân phối của tôi?

Nó phụ thuộc vào ý nghĩa của bạn bằng cách 'xác thực' chính xác, nhưng tôi nói 'vâng, điều đó đi quá xa' giống như cách bạn không thể thực sự nói "null được thể hiện là đúng", (đặc biệt là với điểm null, nhưng ít nhất là theo nghĩa nào đó nói chung hơn). Bạn chỉ có thể thực sự nói "tốt, chúng tôi không có bằng chứng mạnh mẽ rằng nó sai". Nhưng trong mọi trường hợp, chúng tôi không hy vọng mô hình của mình hoàn hảo, chúng là mô hình . Điều quan trọng, như Box & Draper đã nói, là " họ đã sai đến mức nào để không hữu ích? "

Một trong hai câu trước:

Điều này dường như gợi ý (với tôi) rằng việc lựa chọn phân phối Gaussian là khá hợp lý. Hoặc, ít nhất, phần dư phù hợp với phân phối tôi đã sử dụng trong mô hình của mình.

mô tả chính xác hơn nhiều những gì chẩn đoán của bạn chỉ ra - không phải mô hình Gaussian với liên kết nhật ký là đúng - mà là hợp lý hoặc phù hợp với dữ liệu.

Tôi đã chọn một hàm liên kết nhật ký vì biến phản hồi của tôi luôn dương, nhưng tôi muốn một số xác nhận rằng đó là một lựa chọn tốt.

Nếu bạn biết nó phải tích cực thì ý nghĩa của nó phải tích cực. Thật hợp lý khi chọn một mô hình ít nhất phù hợp với điều đó. Tôi không biết liệu đó có phải là một lựa chọn tốt hay không (cũng có thể có nhiều lựa chọn tốt hơn), nhưng đó là một điều hợp lý để làm; nó cũng có thể là điểm khởi đầu của tôi [Tuy nhiên, nếu bản thân biến đó nhất thiết là dương, thì suy nghĩ đầu tiên của tôi sẽ có xu hướng là Gamma với log-link, thay vì Gaussian. "Nhất thiết phải tích cực" không cho thấy cả độ lệch và phương sai thay đổi theo giá trị trung bình.]

Câu hỏi 2: Có bất kỳ thử nghiệm nào, như kiểm tra phần dư cho sự lựa chọn phân phối, có thể hỗ trợ cho sự lựa chọn của tôi về chức năng liên kết không?

Có vẻ như bạn không có nghĩa là 'kiểm tra' như trong "kiểm tra giả thuyết chính thức" mà là 'kiểm tra chẩn đoán'.

Trong cả hai trường hợp, câu trả lời là, có, có.

Một thử nghiệm giả thuyết chính thức là Độ tốt của kiểm tra liên kết của Pregibon [1].

Điều này dựa trên việc nhúng chức năng liên kết trong họ Box-Cox để thực hiện kiểm tra giả thuyết về tham số Box-Cox.

Xem thêm cuộc thảo luận ngắn gọn về thử nghiệm của Pregibon tại Breslow (1996) [2] ( xem trang 14 ).

Tuy nhiên, tôi thực sự khuyên bạn nên gắn bó với lộ trình chẩn đoán. Nếu bạn muốn kiểm tra chức năng liên kết, về cơ bản bạn sẽ khẳng định rằng trên thang đo liên kết,η= =g(μ) là tuyến tính trong xĐó là trong mô hình, vì vậy một đánh giá cơ bản có thể xem xét một lô dư so với các dự đoán. Ví dụ,

dư lượng làm việc rTôiW= =(yTôi-μ^Tôi)(ημ)

(mà tôi muốn hướng nạc cho đánh giá này), hoặc có lẽ bằng cách nhìn vào độ lệch từ tuyến tính trong dư một phần, với một cốt truyện cho từng dự đoán (xem ví dụ, Hardin và Hilbe, Generalized tuyến tính mô hình và phần mở rộng, ed 2. giây 4.5 .4 p54, cho định nghĩa),

rkTôiT= =(yTôi-μ^Tôi)(ημ)+xTôikβ^k

= =rTôiW+xTôikβ^k

Trong trường hợp dữ liệu thừa nhận chuyển đổi bằng chức năng liên kết, bạn có thể tìm kiếm tuyến tính theo cùng kiểu với hồi quy tuyến tính (mặc dù bạn đã để lại độ lệch và có thể không đồng nhất).

Trong trường hợp của các yếu tố dự đoán phân loại, việc lựa chọn chức năng liên kết là vấn đề thuận tiện hoặc dễ hiểu hơn, sự phù hợp phải giống nhau (vì vậy không cần phải đánh giá cho chúng).

Bạn cũng có thể căn cứ chẩn đoán theo cách tiếp cận của Pregibon.

Chúng không tạo thành một danh sách đầy đủ; bạn có thể tìm thấy các chẩn đoán khác được thảo luận.

[Điều đó nói rằng, tôi đồng ý với đánh giá của gung rằng việc lựa chọn chức năng liên kết ban đầu nên dựa trên những điều như cân nhắc lý thuyết, khi có thể.]

Xem thêm một số cuộc thảo luận trong bài viết này , ít nhất là một phần có liên quan.

[1]: Pregibon, D. (1980),
"Mức độ tốt của các thử nghiệm liên kết đối với các mô hình tuyến tính tổng quát",
Tạp chí của Hiệp hội thống kê Hoàng gia. Sê-ri C (Thống kê ứng dụng) ,
Tập. 29, số 1, trang 15-23.

[2]: Breslow NE (1996),
"Các mô hình tuyến tính tổng quát: Kiểm tra các giả định và củng cố kết luận,"
Statistica Applicata 8 , 23-41.
pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.