Tại sao nên được chuyển đổi trước các yếu tố dự đoán?


8

Cả hai câu trả lời trong các luồng này, mộthai cho rằng nên được biến đổi trước khi áp dụng bất kỳ phép biến đổi nào khác cho các yếu tố dự đoán. Thật vậy, chương Weisberg về các phép biến đổi tập trung nhiều vào DV hơn là các yếu tố dự đoán và trang hướng dẫn gói xe powerTransform () cũng vậy.Y

Tuy nhiên, chúng tôi biết rằng tính quy phạm của phân phối DV không phải là một yêu cầu trong OLS để ước tính các hệ số BLUE và, ngay cả khi phần dư không được phân phối bình thường, OLS vẫn là một công cụ ước tính hợp lý .

Vậy tại sao lại nhấn mạnh vào việc biến đổi ? Có một vài lý do tôi nghĩ rằng thực sự không nên chuyển đổi : đầu tiên nó làm cho mối quan hệ IV khó đọc hơn và thứ hai, theo dự đoán, nó đòi hỏi phải chuyển đổi ngược từ giá trị ước tính sang thang đo ban đầu . Tùy thuộc vào những gì bạn đang làm điều này có thể là một vấn đề.Y YYYY


2
Chúng tôi đã khái quát các mô hình tuyến tính trong tên từ năm 1972 và trong các trường hợp cụ thể lâu hơn nhiều. Nghĩa là, sử dụng các hàm liên kết phù hợp có thể cung cấp cho bạn tất cả các lợi thế của việc sử dụng thang đo phi tuyến tính với tất cả các lợi thế của việc nhận dự đoán theo tỷ lệ của dữ liệu gốc. Tại sao điều này không được biết đến và thực hành rộng rãi hơn? Trả lời dài hơn là cần thiết và sẽ được đưa ra nhưng phân tích mối quan hệ phi tuyến tính với các công cụ tuyến tính được áp dụng cho dữ liệu chưa được xử lý hiếm khi hoạt động tốt.
Nick Cox

1
+1 vào @Nick. Ngoài ra, phân tích mối quan hệ với hầu hết mọi quy trình chuẩn (nghĩa là dựa trên các phân phối gần như Bình thường) trong trường hợp phân phối lỗi bị sai lệch thường rất phức tạp và cũng không đạt yêu cầu. Các biểu thức lại phi tuyến thực sự đạt được ba điều (và thường thực hiện đồng thời tất cả): chúng đối xứng phân phối các phần dư, tạo đồng đẳngtuyến tính hóa các mối quan hệ.
whuber

Câu trả lời:


5

Biến đổi X không ảnh hưởng đến hình dạng của phân phối có điều kiện, cũng như tính không đồng nhất, do đó, chuyển đổi X thực sự chỉ phục vụ để giải quyết các mối quan hệ phi tuyến. (Nếu bạn phù hợp với các mô hình phụ gia, nó có thể giúp loại bỏ sự tương tác, nhưng thậm chí đó thường là tốt nhất để chuyển đổi Y)

Một ví dụ trong đó việc chuyển đổi chỉ X có ý nghĩa:
nhập mô tả hình ảnh ở đây

Nếu đó là - không phù hợp với ý nghĩa có điều kiện - là vấn đề chính của bạn, thì việc chuyển đổi X có thể có ý nghĩa, nhưng nếu bạn biến đổi vì hình dạng của Y có điều kiện hoặc do tính không đồng nhất, nếu bạn giải quyết điều đó bằng cách chuyển đổi ( không nhất thiết là sự lựa chọn tốt nhất, nhưng chúng ta đang thực hiện chuyển đổi như một sự cho trước cho câu hỏi này), thì bạn phải biến đổi Y theo một cách nào đó để thay đổi nó.

Ví dụ, xem xét một mô hình trong đó phương sai có điều kiện tỷ lệ thuận với trung bình:

Một ví dụ trong đó việc chuyển đổi chỉ X không thể giải quyết các vấn đề:
nhập mô tả hình ảnh ở đây

Di chuyển các giá trị trên trục x sẽ không thay đổi thực tế là mức chênh lệch lớn hơn đối với các giá trị ở bên phải so với các giá trị ở bên trái. Nếu bạn muốn khắc phục phương sai thay đổi này bằng cách chuyển đổi, bạn phải giảm giá trị Y cao và kéo dài giá trị Y thấp.

Bây giờ, nếu bạn đang xem xét chuyển đổi Y, điều đó sẽ thay đổi hình dạng của mối quan hệ giữa phản hồi và dự đoán ... vì vậy bạn sẽ thường xuyên chuyển đổi X nếu bạn muốn mô hình tuyến tính (nếu là tuyến tính trước khi chuyển đổi, nó sẽ không được sau đó). Đôi khi (như trong âm mưu thứ hai ở trên), phép biến đổi Y = sẽ làm cho mối quan hệ trở nên tuyến tính hơn cùng một lúc - nhưng không phải lúc nào cũng như vậy.

Nếu bạn chuyển đổi cả X và Y, bạn muốn thực hiện Y trước, vì sự thay đổi đó trong hình dạng của mối quan hệ giữa Y và X - thông thường bạn cần xem mối quan hệ như thế nào sau khi bạn chuyển đổi. Chuyển đổi tiếp theo của X sau đó sẽ nhằm mục đích thu được tuyến tính của mối quan hệ.

Vì vậy, nói chung, nếu bạn đang chuyển đổi tất cả, bạn thường cần phải chuyển đổi Y và nếu bạn đang làm điều đó, bạn gần như luôn muốn làm điều đó trước tiên.


Nếu chúng ta có , phần dư sẽ tăng hồi quy phương sai so với (chưa được dịch). Tất nhiên việc biến đổi có tác động đến tính không đồng nhất dư. X 1 XY=β0+β1X5+ϵX1X
Robert Kubrick

1
@RobertKubrick không liên quan đến ý nghĩa địa phương của họ. Xem bài chỉnh sửa của tôi.
Glen_b -Reinstate Monica

Tôi vẫn không thấy nó. Tôi tin rằng các thay đổi phương sai thực sự là do , không phải phân phối có điều kiệnBtw, cốt truyện bạn đã đăng là dành cho chưa được dịch . Tôi biết bạn đã làm điều đó để thể hiện tính phi tuyến tính của mối quan hệ nhưng nó hơi khó hiểu trong bối cảnh câu trả lời của bạn. Y XϵYX
Robert Kubrick

Var(ϵ)=Var(Y|X) . Bạn dường như đang phân biệt giữa hai phương sai, nhưng chúng không khác biệt.
Glen_b -Reinstate Monica

1
Nó chỉ thay đổi có nghĩa là có điều kiện. Đó là điểm được đưa ra trong câu trả lời của tôi.
Glen_b -Reinstate Monica

2

Biến đổi Y ban đầu là một cách tiếp cận lỗi thời để phân tích dữ liệu. Những người ông vĩ đại của chúng ta đã làm điều đó vậy tại sao chúng ta không nên? Rất nhiều lý do và bài đăng của bạn phản ánh rằng các giả định của Gaussian chỉ dựa trên các lỗi từ một mô hình KHÔNG phải là dòng Y đã chết.


4
Tôi đồng ý với câu đầu tiên nhiều hơn tôi không đồng ý; tuy nhiên câu trả lời là nhiều hơn một chút đơn giản hóa. Các ví dụ như pH hoặc decibel cho thấy rằng phép đo khoa học thường đã ở quy mô chuyển đổi và với lý do chính đáng. Nhiều nhà kinh tế thường xuyên sử dụng thu nhập log không phải là thu nhập như biến phản ứng của họ và điều đó phù hợp với cách mà người bình thường đưa ra nhiều quyết định (ví dụ như về tư duy phần trăm). (Lịch sử ở đây tôi nghĩ cũng có thể tranh cãi; sự biến đổi không đặc biệt phổ biến trước giữa thế kỷ 20.)
Nick Cox

@Nick Tôi đã nói rất nhiều về những người đi trước. Các biến đổi bắt đầu xuất hiện vào giữa năm mươi .....
IrishStat

3
Tôi có thể mua những lời quảng cáo đầy màu sắc và đầy màu sắc, nhưng những tuyên bố chính xác vẫn phải chính xác. Văn học về lognatural bắt đầu vào thế kỷ 19, cũng như giấy biểu đồ logarit. Các biến đổi là chủ đề của một số đánh giá trước những năm 1950, ví dụ bài báo của Bartlett trong Sinh trắc học 1947, vì vậy văn học đã cũ hơn. Điều đó phù hợp, tôi nghĩ, với sự khẳng định trước đây của tôi về việc chúng "không đặc biệt phổ biến".
Nick Cox

3
@Nick Các nhà khoa học đã sử dụng các phép biến đổi từ lâu trước năm 1947, vì chúng rất tự nhiên. Một trường hợp điển hình là dẫn xuất của Rydberg về công thức của ông cho phổ hydro , thu được vào những năm 1880 bằng cách chọn các phép biến đổi phi tuyến phù hợp của các biến. Người ta có thể lôi cuốn công việc của Fechner trong tâm lý học c. 1860 cũng vậy. Thực tiễn này rất hiệu quả và quan trọng trong các ngành khoa học đến nỗi người ta không thể thực hiện nghiêm túc tuyên bố đầu tiên trong câu trả lời này rằng đó là "lỗi thời".
whuber

3
@whuber Chúng tôi đồng ý, về bản chất. Có một phổ (ý định chơi chữ) từ việc sử dụng các phép biến đổi trong khoa học vật lý và khoa học khác, thường phát sinh như một phương tiện hoặc là kết quả của việc khám phá các mối quan hệ phi tuyến tính, để cố tình sử dụng các phép biến đổi dữ liệu thô theo khuyến nghị của (một số) thống kê. Tôi sẽ không muốn vạch ra một ranh giới giữa hai người, vì điều đó sẽ vô ích và không hữu ích.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.