Mô hình tuyến tính không đồng nhất


10

Tôi có mô hình tuyến tính sau:

Dư mô hình tuyến tính Phân phối quan sát

Để giải quyết sự không đồng nhất của phần dư, tôi đã thử áp dụng chuyển đổi nhật ký trên biến phụ thuộc là nhưng tôi vẫn thấy hiệu ứng quạt ra tương tự trên phần dư. Các giá trị DV tương đối nhỏ nên việc bổ sung hằng số +1 trước khi lấy nhật ký có thể không phù hợp trong trường hợp này.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Làm cách nào tôi có thể chuyển đổi các biến để cải thiện lỗi dự đoán và phương sai, đặc biệt đối với các giá trị được trang bị ở bên phải?

Câu trả lời:


11

Mục tiêu của bạn là gì? Chúng tôi biết rằng tính không đồng nhất không làm sai lệch ước tính hệ số của chúng tôi; nó chỉ làm cho lỗi tiêu chuẩn của chúng tôi không chính xác. Do đó, nếu bạn chỉ quan tâm đến sự phù hợp của mô hình, thì sự không đồng nhất không thành vấn đề.

Bạn có thể có được một mô hình hiệu quả hơn ( ví dụ , một mô hình có lỗi tiêu chuẩn nhỏ hơn) nếu bạn sử dụng bình phương tối thiểu có trọng số. Trong trường hợp này, bạn cần ước tính phương sai cho từng quan sát và trọng số của từng quan sát bằng nghịch đảo của phương sai cụ thể quan sát đó (trong trường hợp weightsđối số là lm). Thủ tục ước tính này thay đổi ước tính của bạn.

Ngoài ra, để sửa các lỗi tiêu chuẩn cho tính không đồng nhất mà không thay đổi các ước tính của bạn, bạn có thể sử dụng các lỗi tiêu chuẩn mạnh mẽ. Đối với một Rứng dụng, xem gói sandwich.

Sử dụng chuyển đổi nhật ký có thể là một cách tiếp cận tốt để sửa lỗi cho tính không đồng nhất, nhưng chỉ khi tất cả các giá trị của bạn là dương và mô hình mới cung cấp một giải thích hợp lý liên quan đến câu hỏi mà bạn đang hỏi.


Mục tiêu chính của tôi là giảm các lỗi. Tôi sẽ phải xem xét các bình phương tối thiểu có trọng số nhưng tôi có ấn tượng rằng một phép biến đổi DV là bước đi đúng, với mức độ thường xuyên của phương sai còn lại tăng cho các giá trị phù hợp cao hơn.
Robert Kubrick

Bạn có ý nghĩa gì "giảm lỗi"? Lỗi trung bình là 0. Ngay cả khi nhìn vào ô của bạn, trong bất kỳ cửa sổ nào bạn chọn, trung bình là 0.
Charlie

Tôi có nghĩa là cải thiện dự đoán của mô hình, đó là giảm sai số tuyệt đối tổng thể và phương sai lỗi, đặc biệt đối với các giá trị được trang bị cao hơn.
Robert Kubrick

1
Giả sử rằng bạn có thể biến đổi theo cách làm giảm tính không đồng nhất. Nếu bạn muốn dự đoán , bạn sẽ phải áp dụng nghịch đảo của phép biến đổi đó, đưa vấn đề không đồng nhất trở lại. Chuyển đổi là tốt nếu tất cả những gì bạn quan tâm là hệ số, nhưng sẽ không giúp bạn nếu bạn đang cố gắng dự đoán . yyy
Charlie

1
Tôi đoán rằng bạn không muốn dự đoán biến đổi , phải không? Thực tế, sự biến đổi của bạn sẽ phải thu hẹp khoảng cách giữa các trên thang đo ban đầu của bạn. Bạn tạo các khoảng dự đoán trên thang đo được chuyển đổi có độ rộng tương tự trên các giá trị chuyển đổi , nhưng khi bạn hoàn tác chuyển đổi, các khoảng dự đoán sẽ được kéo dài lên thang đo ban đầu . yyyy
Charlie

4

Bạn sẽ muốn thử chuyển đổi Box-Cox . Đây là phiên bản của sự chuyển đổi sức mạnh:

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
trong đó là giá trị trung bình hình học của dữ liệu. Khi được sử dụng như một biến đổi của biến trả lời, vai trò danh nghĩa của nó là làm cho dữ liệu gần với phân phối bình thường hơn và độ lệch là lý do hàng đầu khiến dữ liệu có thể trông không bình thường. Cảm giác ruột của tôi với biểu đồ phân tán của bạn là nó cần được áp dụng cho (một số) các biến giải thích và các biến trả lời.y˙

Một số thảo luận trước đó bao gồm Những biến đổi chuẩn hóa nào khác thường được sử dụng ngoài các phép biến đổi phổ biến như căn bậc hai, log, v.v.? tôi nên chuyển đổi dữ liệu không âm bao gồm số không như thế nào? . Bạn có thể tìm thấy mã R sau đây Làm thế nào để tìm kiếm một quy trình thống kê trong R?

Các nhà kinh tế lượng đã ngừng bận tâm về tính không đồng nhất sau khi nghiên cứu tinh tế của Halbert White (1980) về việc thiết lập các thủ tục suy luận mạnh mẽ cho tính không đồng nhất (trong thực tế chỉ là kể lại câu chuyện trước đó của một nhà thống kê F. Eicker (1967)). Xem trang Wikipedia mà tôi vừa viết lại.


Cảm ơn, tại thời điểm này tôi đang tranh luận về việc nên áp dụng biến đổi công suất hay sử dụng hồi quy mạnh để giảm lỗi và cải thiện các khoảng dự đoán. Tôi tự hỏi làm thế nào hai kỹ thuật so sánh. Ngoài ra nếu tôi sử dụng phép chuyển đổi, tôi sẽ cần phải chuyển đổi lại các giá trị dự đoán. Nó không giống như một công thức rõ ràng, phải không?
Robert Kubrick

Nếu bằng hồi quy mạnh, bạn có nghĩa là các lỗi tiêu chuẩn mạnh như @StasK mô tả, điều đó hoàn toàn không thay đổi các phần dư / lỗi. Các hệ số hoàn toàn giống với OLS, cho chính xác các phần dư giống nhau. Các lỗi tiêu chuẩn của các hệ số thay đổi và thường lớn hơn các OLS SE. Khoảng dự đoán được cải thiện ở chỗ bạn hiện đang sử dụng các lỗi tiêu chuẩn chính xác cho các hệ số của mình (mặc dù chúng có thể lớn hơn so với các lỗi từ OLS). Nếu mục tiêu của bạn là dự đoán , bạn thực sự nên gắn bó với mô hình tuyến tính và sử dụng các kỹ thuật mà tôi đề cập trong câu trả lời của tôi. y
Charlie

@Charlie Ý tôi là en.wikipedia.org/wiki/Robust_regression . Tôi chưa quen với điều này, nhưng tôi hiểu hồi quy mạnh mẽ thay đổi kỹ thuật ước lượng, do đó phần dư phải khác nhau.
Robert Kubrick

Đúng, đó là một phương pháp khác nhau và không thay đổi ước tính của bạn. Tôi nghĩ rằng hồi quy mạnh mẽ phù hợp hơn với các trường hợp ngoại lệ. Tùy thuộc vào phiên bản hồi quy mạnh nào mà bạn quyết định sử dụng và tập dữ liệu cụ thể của mình, bạn có thể có khoảng tin cậy rộng hơn so với OLS.
Charlie

1

Có một giải pháp rất đơn giản cho vấn đề không đồng nhất liên quan đến các biến phụ thuộc trong dữ liệu chuỗi thời gian. Tôi không biết nếu điều này được áp dụng cho biến phụ thuộc của bạn. Giả sử là vậy, thay vì sử dụng Y danh nghĩa, thay đổi thành% thay đổi trong Y từ giai đoạn hiện tại so với giai đoạn trước. Chẳng hạn, giả sử Y danh nghĩa của bạn là GDP là 14 nghìn tỷ đô la trong giai đoạn gần đây nhất. Thay vào đó, hãy tính toán thay đổi GDP trong giai đoạn gần đây nhất (giả sử 2,5%).

Một chuỗi thời gian danh nghĩa luôn phát triển và luôn luôn không đồng nhất (phương sai của lỗi tăng theo thời gian vì các giá trị tăng lên). Một chuỗi thay đổi% thường là homoskedastic vì biến phụ thuộc là khá nhiều.


Các giá trị tôi đang sử dụng là chuỗi thời gian% thay đổi so với giai đoạn trước. Y
Robert Kubrick

Điều này thật đáng ngạc nhiên. Thông thường,% biến thay đổi không phải là dị. Tôi tự hỏi nếu phần dư ít dị hơn chúng ta nghĩ. Và, vấn đề cơ bản là một trong những ngoại lệ. Tôi thấy 4 hoặc 5 quan sát trong phạm vi 0,15% mà nếu loại bỏ sẽ làm cho toàn bộ biểu đồ không bị dị hình. Ngoài ra, như những người khác đã đề cập đến tính không đồng nhất sẽ không làm hỏng hệ số hồi quy của bạn, mà chỉ có khoảng tin cậy của bạn và lỗi tiêu chuẩn liên quan. Tuy nhiên, nhìn vào biểu đồ của bạn, có vẻ như các TCTD có thể không bị ảnh hưởng quá nhiều. Và, vẫn có thể hữu ích.
Sympa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.