Nếu bạn chạy hồi quy OLS trên dữ liệu cắt ngang, bạn có nên kiểm tra tự động tương quan trong phần dư không?


8

Tôi có một bộ các quan sát, độc lập với thời gian. Tôi đang tự hỏi liệu tôi có nên chạy bất kỳ bài kiểm tra tự kỷ nào không? Dường như với tôi rằng nó vô nghĩa, vì không có thành phần thời gian trong dữ liệu của tôi. Tuy nhiên, tôi thực sự đã thử kiểm tra LM tương quan nối tiếp và nó cho thấy sự tự tương quan mạnh của phần dư. Liệu no co y nghia gi? Điều tôi đang nghĩ là tôi thực sự có thể sắp xếp lại các quan sát trong tập dữ liệu của mình theo bất kỳ thứ tự nào có thể, và điều này sẽ thay đổi sự tự tương quan trong phần dư. Vì vậy, câu hỏi là - tôi có nên quan tâm đến vấn đề tự tương quan trong trường hợp này không? Và tôi có nên sử dụng Newey-West để điều chỉnh SE cho nó trong trường hợp thử nghiệm cho thấy như vậy không? Cảm ơn!


2
Bạn đã nói một cách chính xác rằng không có thành phần thời gian, phần dư của bạn không thể tương quan với nhau. Vì vậy, một thử nghiệm cho tương quan nối tiếp trong trường hợp này là không hợp lệ. Mối quan tâm phổ biến nhất trong dữ liệu cắt ngang là sự không đồng nhất hoặc tương quan không gian (ví dụ: tỷ lệ tội phạm ở thành phố A ảnh hưởng đến tỷ lệ tội phạm ở thành phố B), nhưng cả hai đều dễ dàng được sửa chữa với các tùy chọn mạnh mẽ và cụm trong Stata.
Andy

Hãy thử viết lại từ này mà không sử dụng thuật ngữ tương quan nối tiếp hoặc tự động tương quan. Biến phụ thuộc của mô hình hồi quy có ma trận phương sai có điều kiện, tức là có điều kiện trên các biến độc lập. Chúng tôi hy vọng rằng các phần tử đường chéo của ma trận, tức là phương sai điều kiện của các phần tử của y, sẽ khác không. Nếu mô hình có mặt cắt ngang, chúng ta có thể suy ra rằng các phần tử nằm ngoài đường chéo, tức là hiệp phương sai của các cặp phần tử của y, phải bằng không? Chắc chắn việc thiếu một diễn giải chuỗi thời gian không loại bỏ khả năng này, mặc dù nó có thể làm cho nó ít khả năng hơn?
Adam Bailey

... Một ví dụ như Andy gợi ý sẽ là hiệp phương sai giữa các yếu tố liên quan đến không gian. Một ví dụ phi không gian có thể là trong đó biến phụ thuộc là GNP ở các quốc gia khác nhau (cùng một lúc), trong đó hai quốc gia cách xa nhau có thể có liên kết thương mại chặt chẽ (ví dụ vì lý do lịch sử) dẫn đến hiệp phương sai không.
Adam Bailey

Khi dữ liệu của bạn có cụm, sự phụ thuộc cắt ngang là có thể. Bạn có thể điều chỉnh SE như @Andy đề xuất. Một lưu ý về SE mạnh mẽ cụm là SE mạnh mẽ hoạt động nếu mỗi cụm dữ liệu nhỏ và có nhiều cụm được quan sát. Tuy nhiên, nếu bạn có một vài cụm lớn, cụm SE mạnh mẽ không hợp lệ. Thật vậy, trong trường hợp cụm lớn, OLS gộp có thể không nhất quán. Bạn có thể tham khảo Andrew (2005, Kinh tế lượng) để tham khảo.
semibruin

Câu trả lời:


10

Sự khác biệt thực sự giữa dữ liệu là liệu có tồn tại hay không, một trật tự tự nhiên của chúng tương ứng với các cấu trúc trong thế giới thực và có liên quan đến vấn đề hiện tại.

Tất nhiên, "trật tự tự nhiên" rõ ràng nhất (và không thể chối cãi) là thời gian, và do đó là "chuỗi phân chia / thời gian" thông thường. Nhưng như đã chỉ ra trong các ý kiến, chúng ta có thể có dữ liệu chuỗi không theo thời gian mà vẫn có thứ tự không gian tự nhiên . Trong trường hợp như vậy, tất cả các khái niệm và công cụ được phát triển trong bối cảnh phân tích chuỗi thời gian đều áp dụng tốt ở đây, vì bạn phải nhận ra rằng một trật tự không gian có ý nghĩa tồn tại, và không chỉ bảo tồn nó, mà còn kiểm tra xem nó có thể ám chỉ điều gì một loạt các thuật ngữ lỗi, trong số những thứ khác liên quan đến toàn bộ mô hình (như sự tồn tại của một xu hướng, sẽ làm cho dữ liệu không ổn định chẳng hạn).

Ví dụ (thô), giả sử rằng bạn thu thập dữ liệu về số lượng xe đã dừng ở nhiều cơ sở dừng khác nhau dọc theo đường cao tốc, vào một ngày cụ thể (đó là biến phụ thuộc). Các hồi quy của bạn đo lường các cơ sở / dịch vụ khác nhau mà mỗi điểm dừng chân cung cấp và có lẽ những thứ khác như khoảng cách từ lối ra / lối vào đường cao tốc. Những cơ sở này được đặt hàng tự nhiên dọc theo đường cao tốc ...

Nhưng điều này có vấn đề? Chúng ta có nên duy trì việc đặt hàng và thậm chí tự hỏi liệu thuật ngữ lỗi có tương quan tự động không? Chắc chắn : giả sử rằng một số cơ sở / dịch vụ tại cơ sở số 1 trong thực tế không hoạt động trong ngày đặc biệt này (sự kiện này sẽ bị bắt bởi thuật ngữ lỗi). Ô tô có ý định sử dụng các cơ sở / dịch vụ cụ thể này tuy nhiên sẽ dừng lại vì họ không biết về vấn đề này. Nhưng họ sẽ tìm hiểu về vấn đề này, và vì vậy, vì vấn đề , họ cũng sẽ dừng lại ở cơ sở tiếp theo , số 2, ở đâu, nếunhững gì họ muốn được cung cấp, họ sẽ nhận được các dịch vụ và họ sẽ không dừng lại ở cơ sở số 3 - nhưng có khả năng cơ sở số 2 sẽ xuất hiện đắt đỏ, và vì vậy, sau tất cả, họ cũng sẽ thử thành lập số 3: Điều này có nghĩa là các biến phụ thuộc của ba cơ sở có thể không độc lập, điều này tương đương với việc nói rằng có khả năng tương quan của ba thuật ngữ lỗi tương ứng và không "bằng nhau", nhưng tùy thuộc vào vị trí tương ứng của chúng.

Vì vậy, trật tự không gian sẽ được bảo tồn và các thử nghiệm cho sự tự tương quan phải được thực hiện - và chúng sẽ có ý nghĩa.

Mặt khác, nếu không có thứ tự "tự nhiên" và có ý nghĩa như vậy xuất hiện cho một tập dữ liệu cụ thể, thì mối tương quan có thể có giữa các quan sát không nên được chỉ định là "tự tương quan" vì nó sẽ gây hiểu lầm và các công cụ được phát triển riêng cho đặt hàng dữ liệu không thể áp dụng. Nhưng mối tương quan có thể tồn tại rất tốt, mặc dù trong trường hợp như vậy, việc phát hiện và ước tính nó khá khó khăn hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.