Hồi quy thông thường so với hồi quy khi các biến được phân biệt


13

Tôi chỉ cố gắng hiểu mối quan hệ giữa hồi quy bội / đơn giản bình thường so với hồi quy bội / đơn giản khi các biến được phân biệt.

Ví dụ: tôi đang phân tích mối quan hệ giữa số dư tiền gửi ( ) so với lãi suất thị trường ( R T ) Nếu tôi chạy hồi quy tuyến tính đơn giản, mối tương quan là âm và khá đáng kể (khoảng -.74) Tuy nhiên, nếu tôi thực hiện log và sự khác biệt của biến phụ thuộc và sự khác biệt của biến độc lập, vì vậy phương trình của tôi bây giờ là dYTRT bị thoái lui với ddln(YT) , mối tương quan của tôi và R ^ 2 không có ý nghĩa gì cả ( R 2 = 0,04 ).dR(T)R2= =0,04

Tôi chỉ tự hỏi liệu thấp này thậm chí có ý nghĩa gì? Điều đó có nghĩa là mô hình của tôi không phù hợp hay tôi bỏ qua R 2 khi tôi đang xem dữ liệu khác biệt? Tôi biết từ dữ liệu có một mối tương quan đáng kể giữa hai biến ban đầu, nhưng đối với mô hình của tôi, tôi cần xem xét các biến khác nhau, vì vậy chỉ cần tự hỏi làm thế nào để đi về điều này.R2R2

Câu trả lời:


16

Phiên bản đơn giản là bất kỳ hai biến nào có xu hướng thay đổi theo một hướng theo thời gian sẽ xuất hiện tương quan, cho dù có bất kỳ kết nối nào giữa chúng hay không. Hãy xem xét các biến sau:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

xy1y2xxy2xy1

nhập mô tả hình ảnh ở đây

R2xy1R2xy2xy1xy2, vậy làm thế nào để chúng ta phân biệt thực tế với sự xuất hiện đơn thuần? Đó là nơi có sự khác biệt. Đối với bất kỳ hai trong số các biến số, vì cả hai biến có xu hướng tăng theo thời gian, điều đó không có nhiều thông tin, nhưng cho rằng một biến tăng lên theo một số lượng cụ thể, điều đó cho chúng ta biết bao nhiêu biến số tăng lên? Sự khác biệt cho phép chúng tôi trả lời câu hỏi đó. Lưu ý hai hình sau đây, biểu đồ phân tán tôi đã thực hiện sau khi phân biệt cả ba biến.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

xy2R2= =.43xy1R2= =0,05R2

Một số điểm khác: Trong các số liệu, tôi đưa ra một điểm cần lưu ý rằng đây là những thay đổi đồng thời. Không có gì sai với điều đó, và nó xuất phát từ cách tôi thiết lập vấn đề, nhưng thường mọi người quan tâm đến hiệu ứng ở một số độ trễ. (Đó là, thay đổi một thứ tại một thời điểm dẫn đến thay đổi một thứ khác sau này.) Thứ hai, bạn đề cập đến việc ghi nhật ký của một trong các loạt của bạn. Lấy nhật ký chỉ đơn giản là chuyển dữ liệu của bạn từ cấp độ sang tỷ lệ. Và do đó, khi bạn khác biệt, bạn đang xem xét các thay đổi về tỷ lệ thay vì thay đổi về cấp độ. Điều đó rất phổ biến, nhưng tôi đã không đưa yếu tố đó vào phần trình diễn của mình; nó trực giao với các vấn đề tôi đã thảo luận. Cuối cùng, tôi muốn thừa nhận rằng dữ liệu chuỗi thời gian thường phức tạp hơn so với trình diễn của tôi cho phép.


10

@gung cung cấp một câu trả lời hay, nhưng tôi muốn đưa ra một vài lời cảnh báo cho những gì bạn đang đề xuất.

Sự khác biệt chủ yếu được sử dụng để chống lại vấn đề gốc rễ đơn vị, ví dụ, khi quá trình là AR (1) với hệ số tương quan là 1. Sự khác biệt có thể được sử dụng hiệu quả để loại bỏ xu hướng thời gian tuyến tính khi thuật ngữ lỗi là nhiễu trắng (trong đặc biệt, nó thể hiện không có mối tương quan nối tiếp), như @gung hiển thị ở trên. Nhưng, nếu thuật ngữ lỗi có tương quan nối tiếp với hệ số tương quan nhỏ hơn 1 về giá trị tuyệt đối, sử dụng sự khác biệt để loại bỏ xu hướng thời gian tuyến tính sẽ tạo ra các lỗi có cấu trúc rất phức tạp. Rất khó để có được các lỗi tiêu chuẩn chính xác và đưa ra các kết luận hợp lệ trong trường hợp này.

Do đó, tốt nhất là kiểm tra gốc đơn vị trước và, nếu phát hiện ra, để khắc phục điều đó thông qua sự khác biệt. Tiếp theo, kiểm tra xu hướng thời gian tuyến tính. Khắc phục sự cố này bằng cách giảm dần. Không thực hiện cái sau, bạn sẽ mở ra vấn đề loại biến bị bỏ qua mà @gung minh họa độc đáo.


1
+1 Đây là một bổ sung tốt cho câu trả lời của tôi. Tôi đã cố gắng để giữ cho câu trả lời của tôi đơn giản và trực quan. Tuy nhiên, điều chắc chắn là có nhiều phức tạp hơn tôi đã thảo luận, và chúng có thể rất quan trọng. Tôi nên đã thừa nhận rằng trong đoạn cuối cùng của tôi. Cảm ơn đã giữ cho tôi trung thực.
gung - Tái lập Monica

1

Khi mục tiêu là hình thành / xác định mối quan hệ giữa hai hoặc nhiều chuỗi, người ta có thể cần phải lọc biến X cố định để biến nó thành nhiễu. Đây là một quá trình gồm hai bước, sự khác biệt cần thiết và cấu trúc ARMA. Để duy trì tính khách quan và để tránh Đặc tả mô hình Xu hướng, người ta không nên sử dụng bộ lọc mà nên xây dựng bộ lọc đó bằng cách sử dụng tính chất tự tương quan của dòng X tĩnh. Sau đó, người ta lấy chuỗi Y và áp dụng bất kỳ toán tử phân biệt nào là cần thiết để làm cho nó đứng yên và sau đó áp dụng bộ lọc được phát triển trước đó cho Y tĩnh. Quy trình này có một và chỉ một mục tiêu và đó là xác định mối quan hệ giữa Y và X. Không bao giờ nên đưa ra kết luận về các toán tử khác biệt cần thiết, bộ lọc ARMA và mối quan hệ giữa các biến trừ khi một người là nhà kinh tế lượng biết mô hình trước khi họ quan sát dữ liệu hoặc nếu bạn nói trực tiếp với toàn năng. Phân tích cẩn thận về tính quy phạm của yêu cầu lỗi là cần thiết để tin bất kỳ kiểm tra thống kê nào có thể được tính toán. Tính toán của các bài kiểm tra F / T là cần thiết nhưng không đủ. Tóm lại, tôi khuyên bạn nên theo đuổi chủ đề "Cách xác định mô hình chức năng chuyển giao". Những người khác và tôi đã giải quyết chủ đề này một số lần. Nếu bạn muốn bạn có thể xem qua một số câu trả lời cho các câu hỏi có gắn thẻ "chuỗi thời gian". Như Yogi đã nói "Bạn có thể quan sát rất nhiều chỉ bằng cách đọc / xem". Đôi khi những câu trả lời hay và đơn giản có thể khiến bạn lạc lối và những câu trả lời quá phức tạp / bảo thủ như của tôi có thể yêu cầu bạn phát triển sự hiểu biết tốt hơn về mô hình dữ liệu chuỗi thời gian. Như đã từng nói "Toto, chúng tôi không ở Kansas (tức là dữ liệu cắt ngang) nữa!"

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.