Tôi đăng nhập biến đổi biến phụ thuộc của mình, tôi có thể sử dụng phân phối bình thường GLM với chức năng liên kết LOG không?


10

Tôi có một câu hỏi liên quan đến Mô hình tuyến tính tổng quát (GLM). Biến phụ thuộc của tôi (DV) là liên tục và không bình thường. Vì vậy, tôi đăng nhập đã chuyển đổi nó (vẫn không bình thường nhưng đã cải thiện nó).

Tôi muốn liên kết DV với hai biến phân loại và một biến liên tục. Đối với điều này, tôi muốn tiến hành GLM (tôi đang sử dụng SPSS) nhưng tôi không chắc chắn làm thế nào để quyết định phân phối và chức năng để chọn.

Tôi đã tiến hành thử nghiệm không đối xứng của Levene và tôi có sự đồng nhất về phương sai nên tôi có xu hướng sử dụng phân phối bình thường. Tôi đã đọc rằng để hồi quy tuyến tính, dữ liệu không cần phải bình thường, phần dư làm. Vì vậy, tôi đã in các phần dư Pearson được chuẩn hóa và các giá trị dự đoán cho bộ dự báo tuyến tính từ mỗi GLM riêng lẻ (chức năng nhận dạng thông thường GLM và chức năng nhật ký bình thường). Tôi đã tiến hành các thử nghiệm thông thường (biểu đồ và Shapiro-Wilk) và vẽ các phần dư dựa trên các giá trị dự đoán (để kiểm tra tính ngẫu nhiên và phương sai) cho cả hai cá nhân. Phần dư từ chức năng nhận dạng không bình thường nhưng phần dư từ chức năng đăng nhập là bình thường. Tôi có xu hướng chọn bình thường với chức năng liên kết nhật ký vì phần dư Pearson thường được phân phối.

Vì vậy, câu hỏi của tôi là:

  • Tôi có thể sử dụng phân phối bình thường GLM với chức năng liên kết LOG trên DV đã được chuyển đổi nhật ký không?
  • Là thử nghiệm đồng nhất phương sai có đủ để biện minh cho việc sử dụng phân phối bình thường không?
  • Là quy trình kiểm tra dư có đúng để biện minh cho việc chọn mô hình chức năng liên kết không?

Hình ảnh phân phối DV ở bên trái và phần dư từ GLM bình thường với chức năng liên kết nhật ký ở bên phải.

Phân phối DV ở bên trái và phần dư từ GLM bình thường ở bên phải


Không rõ ý của bạn là gì: " Vì vậy, tôi đã so sánh phần dư Pearson từ GLM với chức năng nhận dạng bình thường và chức năng ghi nhật ký bình thường. "
Glen_b -Reinstate Monica

Cảm ơn bình luận của bạn. Tôi có nghĩa là tôi đã in các phần dư và giá trị dự đoán từ từng GLM (danh tính và nhật ký) và kiểm tra tính quy tắc và vẽ các phần dư Pearson được chuẩn hóa theo các giá trị dự đoán cho từng mô hình. Đối với chức năng nhận dạng, phần dư không bình thường, trong khi đối với chức năng ghi nhật ký, phần dư là bình thường.
Nhà khoa học

Làm thế nào để một biểu đồ của phần dư Pearson được tiêu chuẩn hóa so với các giá trị dự đoán cho biết liệu dữ liệu có thực sự bình thường hay không?
Glen_b -Reinstate Monica

Tôi đã kiểm tra tính quy phạm bằng cách vẽ biểu đồ của phần dư và tiến hành Shapiro-Wilk (P> 0,05 cho hàm log). Sau đó, tôi đã vẽ các phần dư so với các giá trị dự đoán để xem liệu chúng có được phân phối ngẫu nhiên không và để kiểm tra phương sai. (xin lỗi vì không nói thông tin quan trọng, là lần đầu tiên tôi đăng bài)
Nhà khoa học

Tôi đoán rằng "chức năng nhận dạng" là một từ đồng âm ở đây cho "chức năng mật độ".
Nick Cox

Câu trả lời:


7

Tôi có thể sử dụng phân phối bình thường GLM với chức năng liên kết LOG trên DV đã được chuyển đổi nhật ký không?

Đúng; nếu các giả định được thỏa mãn trên thang đo đó

Là thử nghiệm đồng nhất phương sai có đủ để biện minh cho việc sử dụng phân phối bình thường không?

Tại sao bình đẳng của phương sai ngụ ý bình thường?

Là quy trình kiểm tra dư có đúng để biện minh cho việc chọn mô hình chức năng liên kết không?

Bạn nên cẩn thận khi sử dụng cả biểu đồ và mức độ tốt của các bài kiểm tra phù hợp để kiểm tra sự phù hợp của các giả định của bạn:

1) Coi chừng sử dụng biểu đồ để đánh giá tính chuẩn. (Cũng xem tại đây )

Nói tóm lại, tùy thuộc vào một cái gì đó đơn giản như một thay đổi nhỏ trong lựa chọn băng thông của bạn, hoặc thậm chí chỉ là vị trí của ranh giới bin, có thể có những ấn tượng khá khác nhau về hình dạng của dữ liệu:

Hai biểu đồ của phần dư

Đó là hai biểu đồ của cùng một bộ dữ liệu. Sử dụng một số băng thông khác nhau có thể hữu ích trong việc xem liệu ấn tượng có nhạy cảm với điều đó hay không.

2) Coi chừng sử dụng tính tốt của các bài kiểm tra phù hợp để kết luận rằng giả định về tính quy phạm là hợp lý. Các thử nghiệm giả thuyết chính thức không thực sự trả lời đúng câu hỏi.

ví dụ: xem các liên kết dưới mục 2. ở đây

Về phương sai, điều đó đã được đề cập trong một số bài báo sử dụng các bộ dữ liệu tương tự "bởi vì các bản phân phối có phương sai đồng nhất, một GLM với phân phối Gaussian đã được sử dụng". Nếu điều này không đúng, làm thế nào tôi có thể biện minh hoặc quyết định phân phối?

Trong trường hợp bình thường, câu hỏi không phải là 'lỗi của tôi (hoặc phân phối có điều kiện) có bình thường không?' - họ sẽ không, chúng tôi thậm chí không cần kiểm tra. Một câu hỏi phù hợp hơn là "mức độ phi bình thường hiện tại ảnh hưởng đến suy luận của tôi như thế nào?"

Tôi đề nghị một ước tính mật độ hạt nhân hoặc QQplot bình thường (âm mưu của phần dư so với điểm số bình thường). Nếu phân phối trông hợp lý bình thường, bạn không có gì phải lo lắng. Trên thực tế, ngay cả khi nó rõ ràng không bình thường, nó vẫn có thể không quan trọng lắm, tùy thuộc vào những gì bạn muốn làm (ví dụ, các khoảng dự đoán thông thường thực sự sẽ dựa vào tính quy tắc, nhưng nhiều thứ khác sẽ có xu hướng hoạt động ở cỡ mẫu lớn )

Thật thú vị, ở các mẫu lớn, tính quy phạm nói chung ngày càng ít quan trọng hơn (ngoài PI như đã đề cập ở trên), nhưng khả năng từ chối tính quy tắc của bạn ngày càng lớn hơn.

Chỉnh sửa: điểm về sự bình đẳng của phương sai là thực sự có thể tác động đến suy luận của bạn, ngay cả ở kích thước mẫu lớn. Nhưng có lẽ bạn không nên đánh giá điều đó bằng các bài kiểm tra giả thuyết. Nhận giả định phương sai sai là một vấn đề bất kể phân phối giả định của bạn.

Tôi đọc rằng độ lệch tỷ lệ nên ở xung quanh Np cho mô hình cho phù hợp phải không?

Khi bạn phù hợp với một mô hình bình thường, nó có một tham số tỷ lệ, trong trường hợp đó độ lệch tỷ lệ của bạn sẽ là về Np ngay cả khi phân phối của bạn không bình thường.

Theo ý kiến ​​của bạn, phân phối bình thường với liên kết nhật ký là một lựa chọn tốt

Trong trường hợp tiếp tục không biết bạn đang đo lường cái gì hoặc bạn đang sử dụng suy luận để làm gì, tôi vẫn không thể đánh giá liệu có nên đề xuất phân phối khác cho GLM hay không, tính bình thường có thể quan trọng như thế nào đối với suy luận của bạn.

Tuy nhiên, nếu các giả định khác của bạn cũng hợp lý (tuyến tính và phương sai của phương sai ít nhất nên được kiểm tra và các nguồn phụ thuộc tiềm năng được xem xét), thì trong hầu hết các trường hợp, tôi sẽ rất thoải mái khi làm những việc như sử dụng TCTD và thực hiện các thử nghiệm về hệ số hoặc độ tương phản - chỉ có một ấn tượng rất nhỏ về độ lệch trong những phần dư đó, mà ngay cả khi đó là một hiệu ứng thực sự, sẽ không có tác động đáng kể đến những loại suy luận đó.

Tóm lại, bạn sẽ ổn thôi.

(Mặc dù chức năng phân phối và liên kết khác có thể làm tốt hơn một chút về mức độ phù hợp, nhưng chỉ trong những trường hợp hạn chế, chúng mới có khả năng cũng có ý nghĩa hơn.)


Cảm ơn một lần nữa! Về phương sai, đã được đề cập trong một số bài báo sử dụng các bộ dữ liệu tương tự "bởi vì các bản phân phối có phương sai đồng nhất, một GLM với phân phối Gaussian đã được sử dụng". Nếu điều này không đúng, làm thế nào tôi có thể biện minh hoặc quyết định phân phối? Liên quan đến phân phối bình thường còn lại, nó có nghĩa là nó phù hợp hơn phải không? Tôi đọc rằng độ lệch tỷ lệ nên ở xung quanh Np cho mô hình cho phù hợp phải không? Giá trị là như nhau cho cả GLM và xung quanh Np. Tôi cũng đã xác định mô hình phù hợp nhất trong mô hình sử dụng tiêu chí AIC. Không chắc chắn nếu đây là những gì bạn có ý nghĩa.
Nhà khoa học

xem cuộc thảo luận trong các chỉnh sửa của tôi ở trên
Glen_b -Reinstate Monica

Cảm ơn @Glen_b vì lời giải thích tốt đẹp. Biểu đồ tôi cũng đã thử nghiệm bằng Shapiro-Wilk, liệu điều này có cân nhắc mọi thứ không? Tôi đã vẽ sơ đồ QQ dự kiến ​​các giá trị còn lại bình thường và được quan sát Pearson và các điểm + - phù hợp với dòng, ngoại trừ trong các mẹo mà chúng đi lên một chút. Đây có phải là những gì bạn có ý nghĩa? Việc phân phối phần dư có vẻ bình thường, vậy tôi có thể tiến hành? (ngay cả khi DV đăng nhập không bình thường) (Tôi vẫn đang đọc các liên kết nhưng muốn hỏi điều này)
Nhà khoa học

1
" Bởi vì biểu đồ QQ bình thường được phân phối bình thường cho mô hình này? " ... Tôi có thể nói "Biểu đồ QQ của phần dư cho thấy giả định về tính quy tắc là hợp lý" hoặc "phần dư có vẻ gần với mức bình thường". Nếu khán giả của bạn mong đợi các bài kiểm tra giả thuyết, bạn vẫn có thể trích dẫn một (nhưng điều đó không làm thay đổi thực tế rằng chúng không đặc biệt hữu ích). " Vấn đề với bộ dữ liệu là trong biểu đồ của DV " ... không có giả định nào về việc phân phối DV vô điều kiện hoặc bất kỳ IV nào.
Glen_b -Reinstate Monica

1
Xem các cuộc thảo luận bổ sung ở dưới cùng của câu trả lời của tôi. Xin lỗi tôi đã không trả lời sớm hơn, nhưng tôi đang ngủ. Ở câu hỏi khác, lý do tại sao tôi hỏi là hai mô hình chia sẻ hầu hết các giả định của họ và gần như tất cả các cuộc thảo luận này đều liên quan đến câu hỏi đó - ngay cả khi DV khác nhau. Đó không phải là chính xác hoàn cảnh tương tự (và do đó phải là một câu hỏi mới), nhưng câu hỏi này nên được liên kết từ nó, vì vậy bạn có thể đặt câu hỏi trong bối cảnh của cuộc thảo luận này, chẳng hạn như liệu có bất kỳ vấn đề khác nhau hoặc bổ sung.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.