Hồi quy tuyến tính khi Y bị giới hạn và rời rạc


13

Câu hỏi rất đơn giản: Có phù hợp để sử dụng hồi quy tuyến tính khi Y bị giới hạn và rời rạc (ví dụ: điểm kiểm tra 1 ~ 100, một số xếp hạng được xác định trước 1 ~ 17) không? Trong trường hợp này, việc sử dụng hồi quy tuyến tính là "không tốt" hay hoàn toàn sai khi sử dụng nó?

Câu trả lời:


9

Khi một câu trả lời hoặc kết quả bị chặn, nhiều câu hỏi khác nhau sẽ xuất hiện trong việc điều chỉnh một mô hình, bao gồm: Y

  1. Bất kỳ mô hình nào có thể dự đoán các giá trị cho phản hồi bên ngoài các giới hạn đó về nguyên tắc là không rõ ràng. Do đó, một mô hình tuyến tính có thể có vấn đề vì không có giới hạn trên đối với các yếu tố dự đoán và hệ số bất cứ khi nào bản thân không bị ràng buộc theo một hoặc cả hai hướng. Tuy nhiên, mối quan hệ có thể đủ yếu để không cắn và / hoặc dự đoán có thể vẫn nằm trong giới hạn trong phạm vi quan sát hoặc hợp lý của các yếu tố dự đoán. Ở một thái cực, nếu đáp ứng là một số trung bình nhiễu thì hầu như không phù hợp với mô hình nào.Y^=XbXbX+

  2. Vì phản hồi không thể vượt quá giới hạn của nó, mối quan hệ phi tuyến tính thường hợp lý hơn với các phản hồi được dự đoán sẽ xuất hiện để tiếp cận giới hạn một cách không có triệu chứng. Các đường cong hoặc bề mặt Sigmoid như được dự đoán bởi các mô hình logit hoặc probit đều hấp dẫn về vấn đề này và hiện không khó để phù hợp. Một phản hồi như biết chữ (hoặc phân đoạn áp dụng bất kỳ ý tưởng mới nào) thường cho thấy một đường cong sigmoid như vậy theo thời gian và hợp lý với hầu hết các dự đoán khác.

  3. Đáp ứng giới hạn không thể có các thuộc tính phương sai được mong đợi trong hồi quy đồng bằng hoặc vani. Nhất thiết là đáp ứng trung bình tiếp cận giới hạn dưới và trên, phương sai luôn tiến đến không.

Một mô hình nên được chọn theo những gì hoạt động và kiến ​​thức về quá trình tạo cơ bản. Cho dù khách hàng hoặc khán giả biết về các gia đình kiểu mẫu cụ thể cũng có thể hướng dẫn thực hành.

Lưu ý rằng tôi đang cố tình tránh các phán xét mền như tốt / không tốt, phù hợp / không phù hợp, đúng / sai. Tất cả các mô hình là xấp xỉ tốt nhất và kháng cáo gần đúng, hoặc đủ tốt cho một dự án, không dễ dự đoán. Tôi thường ưu tiên các mô hình logit là lựa chọn đầu tiên cho các phản hồi bị ràng buộc, nhưng ngay cả sở thích đó cũng dựa một phần vào thói quen (ví dụ: các mô hình probit tránh của tôi không có lý do chính đáng) và một phần là nơi tôi sẽ báo cáo kết quả cho độc giả, hoặc nên được, thông tin thống kê tốt.

Các ví dụ của bạn về các thang đo rời rạc là cho điểm 1-100 (trong các bài tập tôi đánh dấu, 0 là chắc chắn có thể!) Hoặc xếp hạng 1-17. Đối với các thang đo như vậy, tôi thường nghĩ đến việc điều chỉnh các mô hình liên tục cho các phản hồi được chia tỷ lệ thành [0, 1]. Tuy nhiên, có những người thực hiện các mô hình hồi quy thứ tự, những người sẽ vui vẻ điều chỉnh các mô hình như vậy theo tỷ lệ với một số lượng lớn các giá trị rời rạc. Tôi rất vui nếu họ trả lời nếu họ rất quan tâm.


7

Tôi làm việc trong nghiên cứu dịch vụ y tế. Chúng tôi thu thập các kết quả được báo cáo của bệnh nhân, ví dụ như chức năng thực thể hoặc các triệu chứng trầm cảm và chúng thường được ghi theo định dạng bạn đã đề cập: thang điểm từ 0 đến N được tạo bằng cách tổng hợp tất cả các câu hỏi riêng lẻ trong thang đo.

Phần lớn các tài liệu tôi đã xem xét chỉ sử dụng mô hình tuyến tính (hoặc mô hình tuyến tính phân cấp nếu dữ liệu xuất phát từ các quan sát lặp lại). Tôi chưa thấy ai sử dụng đề xuất của @ NickCox cho mô hình logit (phân đoạn), mặc dù đây là mô hình hoàn toàn hợp lý.

Lý thuyết phản hồi vật phẩm đình công tôi như một mô hình thống kê hợp lý khác để áp dụng. Đây là nơi bạn giả sử một số đặc điểm tiềm ẩn gây ra câu trả lời cho các câu hỏi bằng cách sử dụng mô hình logistic hoặc logistic. Điều đó vốn đã xử lý các vấn đề về giới hạn và phi tuyến tính có thể có mà Nick nêu ra.θ

Biểu đồ dưới đây bắt nguồn từ công việc luận văn sắp tới của tôi. Đây là nơi tôi điều chỉnh mô hình tuyến tính (màu đỏ) cho điểm câu hỏi triệu chứng trầm cảm đã được chuyển đổi thành điểm Z và mô hình IRT (giải thích) màu xanh lam cho cùng một câu hỏi. Về cơ bản, các hệ số cho cả hai mô hình đều có cùng tỷ lệ (nghĩa là ở độ lệch chuẩn). Thực sự có một chút thỏa thuận về quy mô của các hệ số. Như Nick đã ám chỉ, tất cả các mô hình đều sai. Nhưng mô hình tuyến tính có thể không quá sai để sử dụng.

nhập mô tả hình ảnh ở đây

Điều đó nói rằng, một giả định cơ bản của hầu hết tất cả các mô hình IRT hiện tại là đặc điểm được đề cập là lưỡng cực, tức là sự hỗ trợ của nó là to . Điều đó có lẽ không đúng với các triệu chứng trầm cảm. Các mô hình cho các đặc điểm tiềm ẩn đơn cực vẫn đang được phát triển và phần mềm tiêu chuẩn không thể phù hợp với chúng. Rất nhiều đặc điểm trong nghiên cứu dịch vụ y tế mà chúng tôi quan tâm có khả năng là đơn cực, ví dụ như các triệu chứng trầm cảm, các khía cạnh khác của tâm lý học, sự hài lòng của bệnh nhân. Vì vậy, mô hình IRT cũng có thể sai.

(Lưu ý: mô hình ở trên phù hợp với mirtgói của Phil Chalmer trong R. Đồ thị được tạo bằng cách sử dụng ggplot2ggthemes. Bảng màu được vẽ từ bảng màu mặc định của Stata.)


6
Chỉ vì các mô hình tuyến tính được sử dụng rộng rãi, không có nghĩa là chúng phù hợp. Nhiều người sử dụng mô hình tuyến tính bởi vì đó chỉ là những gì họ biết hoặc cảm thấy thoải mái.
qwr

1
Các tài liệu y khoa đặc biệt đầy rẫy với thực hành kém được tuyên truyền bởi "đây là những gì lĩnh vực / tạp chí này" loại ý tưởng. Theo nguyên tắc chung, tôi sẽ không sử dụng hoặc không sử dụng thứ gì đó chỉ vì vẻ ngoài của nó, tuy nhiên, phổ biến, trong nghiên cứu y học.
LSC

1

Hãy xem các giá trị dự đoán và kiểm tra xem chúng có phân phối gần giống với Ys ban đầu không. Nếu đây là trường hợp, hồi quy tuyến tính có lẽ là tốt. và bạn sẽ đạt được ít bằng cách cải thiện mô hình của bạn.


1

Hồi quy tuyến tính có thể "mô tả đầy đủ" dữ liệu đó, nhưng không thể. Nhiều giả định về hồi quy tuyến tính có xu hướng bị vi phạm trong loại dữ liệu này đến mức độ mà hồi quy tuyến tính trở nên khó hiểu. Tôi sẽ chỉ chọn một vài giả định làm ví dụ,

  1. Tính quy phạm - Ngay cả khi bỏ qua sự không thống nhất của dữ liệu đó, dữ liệu đó có xu hướng thể hiện sự vi phạm nghiêm trọng về tính quy tắc vì các bản phân phối bị "cắt đứt" bởi các giới hạn.
  2. Homoscedasticity - Loại dữ liệu này có xu hướng vi phạm homoscedasticity. Phương sai có xu hướng lớn hơn khi giá trị trung bình thực tế hướng về trung tâm của phạm vi, so với các cạnh.
  3. Độ tuyến tính - Vì phạm vi của Y bị giới hạn, giả định sẽ tự động bị vi phạm.

Việc vi phạm các giả định này được giảm nhẹ nếu dữ liệu có xu hướng rơi quanh trung tâm của phạm vi, cách xa các cạnh. Nhưng thực sự, hồi quy tuyến tính không phải là công cụ tối ưu cho loại dữ liệu này. Các lựa chọn thay thế tốt hơn nhiều có thể là hồi quy nhị thức, hoặc hồi quy poisson.


2
Thật khó để thấy rằng hồi quy Poisson là một ứng cử viên cho các phản ứng gấp đôi.
Nick Cox

0

Nếu phản hồi chỉ mất một vài loại, bạn có thể sử dụng các phương pháp phân loại hoặc hồi quy thứ tự nếu biến trả lời của bạn là thứ tự.

Hồi quy tuyến tính đơn giản sẽ không cung cấp cho bạn các danh mục riêng biệt cũng như các biến trả lời bị ràng buộc. Cái sau có thể được sửa bằng cách sử dụng mô hình logit như trong hồi quy logistic. Đối với một cái gì đó như điểm kiểm tra với 100 loại 1-100, bạn cũng có thể đơn giản hóa dự đoán của mình và sử dụng biến phản hồi giới hạn.


0

sử dụng một cdf (hàm phân phối tích lũy từ thống kê). nếu mô hình của bạn là y = xb + e, thì hãy đổi nó thành y = cdf (xb + e). Bạn sẽ cần phải thay đổi dữ liệu biến phụ thuộc của mình xuống từ 0 đến 1. Nếu đó là số dương, chia cho chúng tối đa và lấy dự đoán mô hình của bạn và nhân với cùng một số. Sau đó đi kiểm tra sự phù hợp và xem nếu dự đoán giới hạn cải thiện mọi thứ.

Bạn có thể muốn sử dụng một thuật toán đóng hộp để chăm sóc các số liệu thống kê cho bạn.


1
Điều này dường như gây nhầm lẫn hai sự thật: (1) các câu trả lời bị ràng buộc nên được chia tỷ lệ từ 0 đến 1 cho logit, probit và các mô hình tương tự để áp dụng (2) cdf cũng khác nhau giữa 0 và 1. Khi xử lý một phản ứng phân đoạn như vậy, bạn sẽ phát sinh mô hình cdf của nó.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.