Làm cách nào để thực hiện hồi quy trên dữ liệu không bình thường mà vẫn không bình thường khi được chuyển đổi?


15

Tôi đã có một số dữ liệu (158 trường hợp) được lấy từ câu trả lời theo thang đo Likert cho 21 mục câu hỏi. Tôi thực sự muốn / cần thực hiện phân tích hồi quy để xem mục nào trong bảng câu hỏi dự đoán câu trả lời cho một mục tổng thể (sự hài lòng). Các phản hồi thường không được phân phối (theo các thử nghiệm của KS) và tôi đã chuyển đổi nó theo mọi cách tôi có thể nghĩ đến (nghịch đảo, log, log10, sqrt, bình phương) và nó từ chối phân phối bình thường. Cốt truyện còn sót lại ở khắp mọi nơi nên tôi tin rằng thực sự không hợp pháp khi thực hiện hồi quy tuyến tính và giả vờ nó hoạt động bình thường (nó cũng không phải là phân phối Poisson). Tôi nghĩ điều này là do các câu trả lời được phân cụm rất chặt chẽ (trung bình là 3,91, 95% CI 3,88 đến 3,95).

Vì vậy, tôi nghĩ rằng tôi cần một cách mới để chuyển đổi dữ liệu của mình hoặc cần một loại hồi quy không tham số nhưng tôi không biết bất kỳ điều gì tôi có thể làm trong SPSS.


1
Hãy xem xét một phép biến đổi Box-Cox ( en.wikipedia.org/wiki/ .). Thêm cốt truyện còn lại vào câu hỏi của bạn có thể hữu ích.
M. Berk

3
Vâng, xin vui lòng cho chúng tôi thấy âm mưu còn lại của bạn. cũng có thể là một âm mưu qq.
David Marx

5
Nếu các giá trị của bạn rời rạc, đặc biệt nếu chúng bị cắt xén một đầu, có thể không có biến đổi nào làm cho kết quả thậm chí gần như bình thường. Nhưng các bài kiểm tra giả thuyết chính thức về tính quy phạm không trả lời đúng câu hỏi và khiến các thủ tục khác của bạn được thực hiện có điều kiện về việc bạn có từ chối tính quy phạm để không còn thuộc tính danh nghĩa của chúng hay không.
Glen_b -Reinstate Monica

1
hồi quy logistic tỷ lệ cược có thể là một cách tiếp cận hợp lý cho câu hỏi này, nhưng tôi không biết nếu nó có sẵn trong SPSS.
Ben Bolker

3
Tôi không tin rằng hồi quy là cách tiếp cận đúng, và không phải vì những lo ngại về tính quy tắc. Câu trả lời câu hỏi của bạn thậm chí có thể không phải là hồng y. Chẳng hạn, nếu bạn hỏi một anh chàng 'Bạn có hạnh phúc không? "Và nhận được câu trả lời 3, trong khi tháng trước là 4, điều này có nghĩa là anh ta ít hạnh phúc hơn 25%? Rất có thể là không. Vì vậy, trước cả khi bắt đầu nghĩ về sự bình thường, bạn cần phải biết liệu bạn thậm chí có đang xử lý các số chính và không chỉ là số thứ tự hay không. Có nhiều cách xử lý đặc biệt với suy nghĩ như khảo sát, và hồi quy không phải là lựa chọn mặc định. Bạn phải thể hiện điều đó trước tiên.
Aksakal

Câu trả lời:


32

Bạn không cần phải giả sử các bản phân phối bình thường để thực hiện hồi quy. Hồi quy bình phương tối thiểu là công cụ ước tính BLUE (Công cụ ước tính tuyến tính tốt nhất, không thiên vị) bất kể phân phối. Xem Định lý Gauss-Markov (ví dụ wikipedia) Một phân phối bình thường chỉ được sử dụng để chỉ ra rằng công cụ ước tính cũng là công cụ ước tính khả năng tối đa. Đó là một sự hiểu lầm phổ biến rằng OLS bằng cách nào đó giả định dữ liệu phân phối bình thường. Nó không. Nó là chung chung hơn nhiều.


2
Đúng đấy. Để nhiều người thường bỏ qua SỰ THẬT này.
Trả lời

đồng ý với @Repmat. Tôi không chắc chắn mình đã từng vượt qua bài kiểm tra quy tắc ... nhưng các mô hình của tôi hoạt động.
HEITZ

5

Thay vì dựa vào một bài kiểm tra về tính bình thường của phần dư, hãy thử đánh giá tính chuẩn bằng phán đoán hợp lý. Các xét nghiệm thông thường không cho bạn biết rằng dữ liệu của bạn là bình thường, chỉ có điều là không. Nhưng cho rằng dữ liệu là một mẫu bạn có thể khá chắc chắn rằng chúng không thực sự bình thường nếu không có thử nghiệm. Yêu cầu là xấp xỉ bình thường. Bài kiểm tra không thể cho bạn biết điều đó. Các xét nghiệm cũng rất nhạy cảm ở N lớn hoặc nghiêm trọng hơn, độ nhạy khác nhau với N. N của bạn nằm trong phạm vi mà độ nhạy bắt đầu tăng cao. Nếu bạn chạy mô phỏng sau trong R một số lần và nhìn vào các ô thì bạn sẽ thấy rằng kiểm tra tính quy tắc đang nói "không bình thường" trên một số lượng lớn các bản phân phối bình thường.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Hy vọng rằng, sau khi trải qua các mô phỏng, bạn có thể thấy rằng một bài kiểm tra tính quy tắc có thể dễ dàng từ chối dữ liệu trông khá bình thường và dữ liệu từ một bản phân phối bình thường có thể trông khá xa so với bình thường. Nếu bạn muốn thấy một giá trị cực đoan của thử đó n <- 1000. Tất cả các bản phân phối sẽ trông bình thường nhưng vẫn thất bại trong thử nghiệm với cùng tốc độ với giá trị N thấp hơn. Và ngược lại, với phân phối N thấp vượt qua bài kiểm tra có thể trông rất xa so với bình thường.

Biểu đồ dư chuẩn trong SPSS không hữu ích lắm để đánh giá tính chuẩn. Bạn có thể thấy các ngoại lệ, phạm vi, mức độ phù hợp và thậm chí có thể là đòn bẩy. Nhưng sự bình thường rất khó để bắt nguồn từ nó. Hãy thử mô phỏng sau đây so sánh biểu đồ, các ô bình thường lượng tử - lượng tử và các ô dư.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Thật khó để nói sự bình thường, hoặc bất cứ điều gì, từ cốt truyện cuối cùng và do đó không phải là chẩn đoán quá mức về tính quy phạm.

Tóm lại, thông thường không nên dựa vào các xét nghiệm thông thường mà là các sơ đồ chẩn đoán của phần dư. Không có những âm mưu hoặc giá trị thực tế trong câu hỏi của bạn, rất khó để ai có thể cho bạn lời khuyên chắc chắn về những gì dữ liệu của bạn cần về mặt phân tích hoặc chuyển đổi. Để có được sự giúp đỡ tốt nhất, hãy cung cấp dữ liệu thô.


Xin chào. Cảm ơn tất cả các đề xuất. Tôi cuối cùng đã xem xét phần dư của tôi như được đề xuất và sử dụng cú pháp ở trên với các biến của tôi. Dữ liệu của tôi không thảm khốc như bình thường như tôi nghĩ vì vậy tôi đã sử dụng hồi quy tuyến tính tham số của mình với sự tự tin hơn rất nhiều và lương tâm rõ ràng! Cảm ơn một lần nữa.
rachel S

4

Đầu tiên, hồi quy OLS không đưa ra giả định nào về dữ liệu, nó đưa ra các giả định về các lỗi, theo ước tính của phần dư.

Thứ hai, chuyển đổi dữ liệu để làm cho phù hợp với một mô hình, theo tôi, là cách tiếp cận sai. Bạn muốn mô hình của bạn phù hợp với vấn đề của bạn, không phải cách khác. Ngày xưa, hồi quy OLS là "trò chơi duy nhất trong thị trấn" vì máy tính chậm, nhưng điều đó không còn đúng nữa.

Thứ ba, tôi không sử dụng SPSS vì vậy tôi không thể giúp đỡ ở đó, nhưng tôi rất ngạc nhiên nếu nó không cung cấp một số hình thức hồi quy phi tuyến. Một số khả năng là hồi quy lượng tử, cây hồi quy và hồi quy mạnh.

Thứ tư, tôi hơi lo lắng về tuyên bố của bạn:

Tôi thực sự muốn / cần thực hiện phân tích hồi quy để xem mục nào trong bảng câu hỏi dự đoán câu trả lời cho một mục tổng thể (sự hài lòng)

Nếu các mục được tổng hợp hoặc bằng cách nào đó kết hợp để tạo ra quy mô tổng thể, thì hồi quy hoàn toàn không phải là phương pháp đúng đắn. Bạn có thể muốn phân tích nhân tố.


Bạn có gợi ý rằng anh ta có thể muốn phân tích nhân tố, nhưng phân tích nhân tố không bị ảnh hưởng nếu dữ liệu không được phân phối bình thường?
tinh giản

Bạn có thể thực hiện phân tích nhân tố trên dữ liệu thậm chí không liên tục. Nhưng đó là một cuộc thảo luận riêng - và nó đã được thảo luận ở đây.
Peter Flom - Tái lập Monica

1
Xin chào Peter, tôi đánh giá cao chuyên môn của bạn và tôi đánh giá cao lời khuyên của bạn. Cảm ơn đã dành thời gian trả lời. Chỉ cần làm rõ, tôi biết rằng người ta có thể làm FA trên các mặt hàng không được phân phối thông thường (cũng như các cuộc thảo luận về tính quy tắc của phần dư). Tôi chỉ tò mò tìm hiểu (từ một người có chuyên môn của bạn) nếu OP sẽ không rơi vào tình huống khó xử như vậy. Nhưng, tôi cho rằng bạn đã trả lời :)
sắp xếp hợp lý

1

Nhìn rộng ra, có hai cách tiếp cận khả thi cho vấn đề của bạn: một cách tiếp cận hợp lý từ góc độ lý thuyết, nhưng có khả năng không thể thực hiện trong thực tế, trong khi phương pháp kia mang tính heuristic hơn.

Thật không may, cách tiếp cận tối ưu về mặt lý thuyết (mà có lẽ bạn sẽ không thực sự có thể sử dụng) là tính toán hồi quy bằng cách quay lại áp dụng trực tiếp phương pháp được gọi là phương pháp tối đa. Mối liên hệ giữa ước lượng khả năng tối đa (thực sự là khái niệm toán học cơ bản và cơ bản hơn) và hồi quy bình phương nhỏ nhất (OLS) (cách tiếp cận thông thường, hợp lệ cho trường hợp cụ thể nhưng cực kỳ phổ biến trong đó các biến quan sát đều ngẫu nhiên và phân phối bình thường ) được mô tả trong nhiều sách giáo khoa về thống kê; một cuộc thảo luận mà tôi đặc biệt thích là phần 7.1 của "Phân tích dữ liệu thống kê" của Glen Cowan. Trong trường hợp các biến quan sát của bạn không được phân phối bình thường,

Trong trường hợp này, vì bạn dường như không thực sự biết phân phối cơ bản chi phối các biến quan sát của mình (nghĩa là, điều duy nhất được biết chắc chắn là nó chắc chắn không phải là Gaussian, nhưng không phải là thực tế), cách tiếp cận trên đã thắng ' t làm việc cho bạn Thông thường, khi OLS thất bại hoặc trả về một kết quả điên rồ, đó là do có quá nhiều điểm ngoại lệ. Các điểm ngoại lệ, là những gì thực sự phá vỡ giả định của các biến quan sát phân phối thông thường, đóng góp quá nhiều trọng lượng cho phù hợp, bởi vì các điểm trong OLS được cân bằng bởi bình phương độ lệch của chúng so với đường cong hồi quy và đối với các ngoại lệ, độ lệch đó là lớn Cách tiếp cận heuristic thông thường trong trường hợp này là phát triển một số điều chỉnh hoặc sửa đổi đối với OLS, điều này dẫn đến sự đóng góp từ các điểm ngoại lệ trở nên không nhấn mạnh hoặc giảm trọng lượng, liên quan đến phương pháp OLS cơ bản. Nói chung, chúng thường được gọi làhồi quy mạnh mẽ . Một danh sách chứa một số ví dụ về các kỹ thuật ước lượng mạnh mẽ cụ thể mà bạn có thể muốn thử có thể được tìm thấy ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.