Sự không đồng nhất và phân phối của biến phụ thuộc trong mô hình tuyến tính


7

Tôi đang chạy một mô hình ols đa biến trong đó biến phụ thuộc của tôi là Điểm tiêu thụ thực phẩm , một chỉ số được tạo bởi tổng trọng số của các lần xuất hiện tiêu dùng của một số loại thực phẩm nhất định.

Mặc dù tôi đã thử các thông số kỹ thuật khác nhau của mô hình, thu nhỏ và / hoặc chuyển đổi các yếu tố dự đoán, thử nghiệm Breusch-Pagan luôn phát hiện sự không đồng nhất mạnh mẽ.

  1. Tôi loại trừ nguyên nhân thông thường của các biến bị bỏ qua;
  2. Không có sự hiện diện của các ngoại lệ, đặc biệt là sau khi mở rộng quy mô và bình thường hóa;
  3. Tôi sử dụng 3/4 chỉ mục được tạo bằng cách áp dụng Polychoric PCA, tuy nhiên thậm chí loại trừ một số hoặc tất cả chúng khỏi OLS không làm thay đổi đầu ra Breusch-Pagan.
  4. Chỉ có một vài biến giả (thông thường) được sử dụng trong mô hình: giới tính, tình trạng hôn nhân;
  5. Tôi phát hiện mức độ biến đổi cao xảy ra giữa các khu vực trong mẫu của mình, mặc dù kiểm soát bằng cách đưa vào các hình nộm cho từng khu vực và đạt được hơn 20% về mặt điều chỉnh R ^ 2, các reamin không đồng nhất.
  6. Mẫu có 20.000 quan sát.

Tôi nghĩ rằng vấn đề là trong việc phân phối biến phụ thuộc của tôi. Theo như tôi có thể kiểm tra, phân phối bình thường là xấp xỉ tốt nhất cho phân phối thực tế của dữ liệu của tôi (có thể không đủ gần) Tôi đính kèm ở đây hai biểu đồ qq tương ứng với biến phụ thuộc được chuẩn hóa và biến đổi logarit (màu đỏ Lượng tử lý thuyết bình thường).

  1. Với sự phân phối của biến của tôi, sự không đồng nhất có thể được gây ra bởi tính không quy tắc trong biến phụ thuộc (nguyên nhân gây ra tính không quy tắc trong các lỗi của mô hình?)
  2. Tôi có nên chuyển đổi biến phụ thuộc? Tôi có nên áp dụng một mô hình glm? -Tôi đã thử với glm nhưng không có gì thay đổi về đầu ra kiểm tra HA.
  3. Tôi có cách nào hiệu quả hơn để kiểm soát sự khác biệt giữa các nhóm và loại bỏ tính không đồng nhất (mô hình hỗn hợp đánh chặn ngẫu nhiên) không?

    nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây Cảm ơn bạn trước.

EDIT 1: Tôi đã kiểm tra trong hướng dẫn kỹ thuật của Điểm tiêu thụ thực phẩm và được báo cáo rằng thông thường chỉ tiêu tuân theo phân phối "gần với bình thường". Thật vậy, Thử nghiệm Shapiro-Wilk bác bỏ giả thuyết khống rằng biến của tôi thường được phân phối (tôi đã có thể chạy thử nghiệm trên 5000 quan sát đầu tiên). Những gì tôi có thể thấy từ âm mưu của phần được trang bị so với phần dư là đối với các giá trị thấp hơn của phần được trang bị thì độ biến thiên trong các lỗi sẽ giảm. Tôi đính kèm cốt truyện ở đây dưới đây. Cốt truyện xuất phát từ Mô hình hỗn hợp tuyến tính, chính xác là Mô hình đánh chặn ngẫu nhiên có tính đến 398 nhóm khác nhau (Hệ số tương quan giữa = 0,32, độ tin cậy trung bình của các nhóm không nhỏ hơn 0,80). Mặc dù tôi đã tính đến sự biến đổi giữa các nhóm, sự không đồng nhất vẫn còn đó.

Tôi cũng đã chạy hồi quy lượng tử đa dạng. Tôi đặc biệt quan tâm đến hồi quy trên định lượng 0,25, tuy nhiên không có sự cải thiện nào về phương sai của các lỗi.

Bây giờ tôi đang suy nghĩ để tính đến sự đa dạng giữa các lượng tử và các nhóm (khu vực địa lý) cùng một lúc bằng cách áp dụng Hồi quy lượng tử đánh chặn ngẫu nhiên. Có thể là một ý tưởng tốt?

Hơn nữa, phân phối Poisson trông giống như theo xu hướng dữ liệu của tôi, ngay cả khi đối với các giá trị thấp của biến, nó đi lang thang một chút (ít hơn một chút so với bình thường). Tuy nhiên, vấn đề là glm phù hợp của họ Poisson yêu cầu số nguyên định vị, biến của tôi là dương nhưng không có số nguyên riêng. Do đó tôi đã loại bỏ tùy chọn glm (hoặc glmm).

nhập mô tả hình ảnh ở đây EDIT 2:

Hầu hết các đề xuất của bạn đi theo hướng ước tính mạnh mẽ. Tuy nhiên, tôi nghĩ chỉ là một trong những giải pháp. Hiểu lý do không đồng nhất trong dữ liệu của tôi sẽ cải thiện sự hiểu biết về mối quan hệ tôi muốn mô hình hóa. Ở đây rõ ràng rằng một cái gì đó đang diễn ra ở dưới cùng của phân phối lỗi - hãy xem qqplot phần dư này từ một đặc tả OLS.

Có ý tưởng nào xuất hiện trong đầu bạn về cách giải quyết vấn đề này không? Tôi có nên điều tra nhiều hơn với hồi quy lượng tử?

nhập mô tả hình ảnh ở đây VẤN ĐỀ GIẢI QUYẾT?

Theo đề xuất của bạn, cuối cùng tôi đã chạy một mô hình đánh chặn ngẫu nhiên để liên quan đến vấn đề kỹ thuật với lý thuyết về lĩnh vực nghiên cứu của tôi. Tôi đã tìm thấy một biến mà nếu được bao gồm trong phần ngẫu nhiên của mô hình sẽ làm cho các thuật ngữ lỗi sẽ trở thành đồng nhất. Ở đây tôi đăng 3 lô:

  1. Nhóm đầu tiên được tính toán từ Mô hình đánh chặn ngẫu nhiên với 34 nhóm (tỉnh)
  2. Thứ hai đến từ Mô hình Hệ số Ngẫu nhiên với 34 nhóm (tỉnh)
  3. Cuối cùng, thứ ba là kết quả của việc ước tính Mô hình Hệ số Ngẫu nhiên với 398 nhóm (quận).

Tôi có thể nói một cách an toàn rằng tôi đang kiểm soát sự không đồng nhất trong đặc điểm kỹ thuật cuối cùng không?

Đánh chặn ngẫu nhiên M. Coeff ngẫu nhiên.  M. (34 nhóm Coeff ngẫu nhiên.  M (398 nhóm


1
Mục tiêu phân tích của bạn là gì? Bạn đã thử các biến đổi khác của DV như căn bậc hai chưa? Bạn cũng có thể sử dụng các ô vuông có trọng số nhỏ nhất hoặc một công cụ ước lượng phù hợp không đồng nhất như Huber-White
Robert Long

1
Căn bậc hai của DV không giải quyết được vấn đề.
Caserio

1
Tại sao bạn quan tâm đến sự không đồng nhất? Sử dụng các lỗi tiêu chuẩn mạnh mẽ và vui vẻ
Lặp lại

2
Căn bậc hai chỉ là một ví dụ. Chuyển đổi nên có thể, nếu phần dư bình thường rất quan trọng, nhưng đừng quên rằng các hệ số hồi quy là không thiên vị dưới độ dị ứng. Và như tôi đã nói trong bình luận đầu tiên của tôi, bạn luôn có thể sử dụng WLS hoặc một công cụ ước tính mạnh mẽ.
Robert Long

1
Sử dụng một công cụ ước tính mạnh mẽ có nghĩa là bạn không cần phải lo lắng về xét nghiệm HA. Vì bạn có 20.000 quan sát, bạn có thể "phát hiện" rất nhiều thứ!
Robert Long

Câu trả lời:


1

Đây là giải pháp cho vấn đề trên:

Tóm lại, đối với trường hợp của tôi, sự không đồng nhất được gây ra bởi ít nhất hai nguồn khác nhau:

  1. Sự khác biệt của nhóm mà OLS và tất cả các mô hình hồi quy "đơn cấp" khó có thể giải thích được;
  2. Đặc tả sai của dạng chức năng mô hình: chi tiết hơn (như được đề xuất bởi @Robert Long ở vị trí đầu tiên) mối quan hệ giữa DV và hiệp phương sai không tuyến tính.

Đối với những gì liên quan đến sự khác biệt của nhóm gây ra sự không đồng nhất, nó đã giúp ích rất nhiều cho việc phân tích dữ liệu bị cắt bớt cho các nhóm đơn lẻ, và thừa nhận từ thử nghiệm HA rằng sự không đồng nhất đã biến mất gần như trong tất cả các nhóm khi được coi là đơn lẻ.

Bằng cách lắp một mô hình chặn ngẫu nhiên, cấu trúc lỗi đã được cải thiện, nhưng như đã lưu ý bởi các nhà bình luận ở trên sự không đồng nhất vẫn có thể được phát hiện. Ngay cả sau khi bao gồm một biến trong phần ngẫu nhiên của phương trình đã có thể cải thiện cấu trúc lỗi hơn nữa, vấn đề không thể được xem xét giải quyết. (Biến chính này, chiến lược đối phó, mô tả tốt thói quen của hộ gia đình trong trường hợp thiếu lương thực, thực sự những thói quen này thường thay đổi nhiều giữa các vùng địa lý và dân tộc.)

Ở đây có điểm thứ hai, quan trọng nhất. Mối quan hệ giữa DV (như ban đầu) và hiệp phương sai không tuyến tính.

Nhiều tùy chọn có sẵn ở giai đoạn này:

  1. Sử dụng một mô hình phi tuyến tính để xem xét rõ ràng vấn đề;
  2. Chuyển đổi DV, nếu bạn có thể tìm thấy một chuyển đổi phù hợp. Trong trường hợp của tôi căn bậc hai của DV.
  3. Hãy thử sử dụng các mô hình không đưa ra bất kỳ giả định nào về việc phân phối cụm từ lỗi (họ glm).

Theo quan điểm của tôi, tùy chọn đầu tiên làm phức tạp một chút việc giải thích các hệ số (là một quan sát phụ thuộc vào dự án cá nhân chỉ vì tôi muốn giữ mọi thứ đơn giản cho bài viết này) và ít nhất là từ kinh nghiệm (gần đây) của tôi, cần nhiều sức mạnh tính toán hơn. đối với các mô hình phức tạp với nhiều hệ số ngẫu nhiên và các quan sát có thể khiến R gặp sự cố.

Chuyển đổi DV chắc chắn là giải pháp tốt nhất, nếu nó hoạt động và nếu bạn may mắn hơn tôi. Ý tôi là sao Trong trường hợp DV được chuyển đổi, việc giải thích sẽ được tính theo tỷ lệ phần trăm, nhưng về chuyển đổi căn bậc hai thì sao? Làm thế nào tôi có thể so sánh kết quả của tôi với các nghiên cứu khác? Có lẽ một tiêu chuẩn của biến được chuyển đổi có thể giúp giải thích kết quả theo điểm z. Theo tôi là quá nhiều.

Về các mô hình glm hoặc glmm tôi không thể nói nhiều, trong trường hợp của tôi không có mô hình nào hoạt động, glm không giải thích chính xác sự khác biệt ngẫu nhiên giữa các nhóm và đầu ra của các vấn đề hội tụ được báo cáo glmm.

Lưu ý rằng đối với mô hình của tôi, việc chuyển đổi DV không hoạt động với OLS vì lý do tương tự liên quan đến glm ở trên.

Tuy nhiên, có ít nhất một tùy chọn còn lại: gán trọng số cho hồi quy để sửa lỗi không đồng nhất mà không chuyển đổi DV. Ergo: giải thích đơn giản của coeff.s.

Đây là kết quả thu được bằng cách sử dụng DV_sqrt trong khi sử dụng DV không biến đổi trong mô hình hệ số ngẫu nhiên.

Ở giai đoạn này, tôi có thể so sánh các lỗi tiêu chuẩn của nhân viên của mình với các đối tác của họ từ công cụ ước tính mạnh mẽ.

nhập mô tả hình ảnh ở đây

Về việc sử dụng trực tiếp các công cụ ước tính mạnh trong trường hợp như của tôi mà không cố gắng tìm hiểu nguồn gốc của vấn đề, tôi muốn đề xuất cách đọc này: G. King, ME Roberts (2014), "Làm thế nào các lỗi tiêu chuẩn mạnh mẽ đưa ra các vấn đề phương pháp mà họ không khắc phục và phải làm gì với nó ".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.