Tại sao chúng ta không thể sử dụng để biến đổi các biến phụ thuộc?


10

Hãy tưởng tượng chúng ta có một mô hình hồi quy tuyến tính với biến phụ thuộc . Chúng tôi tìm thấy của nó . Bây giờ, chúng tôi thực hiện một hồi quy khác, nhưng lần này là trên và tương tự tìm . Tôi được cho biết rằng tôi không thể so sánh cả để xem mô hình nào phù hợp hơn. Tại sao vậy? Lý do được đưa ra cho tôi là chúng tôi sẽ so sánh sự thay đổi của các đại lượng khác nhau (các biến phụ thuộc khác nhau). Tôi không chắc đây có phải là một lý do đầy đủ cho việc này không.R 2 y log ( y ) R 2 log ( y ) R 2yRy2log(y)Rlog(y)2R2

Ngoài ra có cách nào để chính thức hóa điều này?

Bất kỳ trợ giúp sẽ được đánh giá cao.


1
Tôi nghi ngờ điều này có thể đã được thảo luận trước đây về Xác thực chéo. Bạn đã đi qua chủ đề tương tự triệt để? Ngoài ra, bạn có quan tâm đến các biến phụ thuộc khác nhau (như GDP so với giá dầu) hoặc các biến đổi của cùng một biến (GDP so với tăng trưởng GDP), hoặc cả hai?
Richard Hardy

@RichardHardy Tôi đã tìm thấy một số, nhưng tôi nghĩ rằng họ đã tiếp xúc với câu hỏi của tôi. Giống như thế này: stats.stackexchange.com/questions/235117/ Từ Câu trả lời chỉ nêu có, không thực sự giải thích lý do tại sao.
Một ông già ở biển.

@RichardHardy Tôi quan tâm đến việc biến đổi biến phụ thuộc.
Một ông già ở biển.

1
R2So sánh chỉ có ý nghĩa giữa các mô hình lồng nhau.
LVRao

@LVRao Cảm ơn bình luận của bạn. Tại sao nó như vậy?
Một ông già ở biển.

Câu trả lời:


8

Đó là một câu hỏi hay, bởi vì "số lượng khác nhau" dường như không phải là một lời giải thích.

Có hai lý do quan trọng để cảnh giác khi sử dụng để so sánh các mô hình này: nó quá thô sơ (nó không thực sự đánh giá mức độ phù hợp ) và nó sẽ không phù hợp với ít nhất một trong các mô hình. Câu trả lời này giải quyết vấn đề thứ hai.R2


Điều trị lý thuyết

R 2 yR2 so sánh phương sai của phần dư mô hình với phương sai của các phản ứng. Phương sai là một độ lệch phụ gia bình phương trung bình từ một sự phù hợp. Như vậy, chúng ta có thể hiểu khi so sánh hai mô hình của phản hồi . R2y

Mô hình "cơ sở"

(1)yi=μ+δi

trong đó là một tham số (đáp ứng trung bình theo lý thuyết) và là các "lỗi" ngẫu nhiên độc lập, mỗi lỗi có giá trị trung bình bằng 0 và phương sai chung của .delta i τ 2μδiτ2

Mô hình hồi quy tuyến tính giới thiệu các vectơ dưới dạng các biến giải thích:xi

(2)yi=β0+xiβ+εi.

Số và vectơ là các tham số (phần chặn và "độ dốc"). Các lại những sai sót ngẫu nhiên độc lập, mỗi zero trung bình và phổ biến sai . β ε i σ 2β0βεiσ2

τ 2 - σ 2 τ 2R2 ước tính mức giảm phương sai, , so với phương sai ban đầu .τ2σ2τ2

Khi bạn lấy logarit và sử dụng bình phương tối thiểu để phù hợp với mô hình , bạn hoàn toàn đang so sánh mối quan hệ của biểu mẫu

(1a)log(yi)=ν+ζi

đến một trong các hình thức

(2a)log(yi)=γ0+xiγ+ηi.

Đây giống như các mô hình và nhưng có phản hồi nhật ký. Chúng không tương đương với hai mô hình đầu tiên, mặc dù. Chẳng hạn, lũy thừa cả hai mặt của sẽ cho(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Các thuật ngữ lỗi hiện nhân lên mối quan hệ cơ bản . Do đó, phương sai của các câu trả lời làexp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

Phương sai phụ thuộc vào . xi Đó không phải là mô hình , giả sử các phương sai đều bằng một hằng số .(2)σ2

Thông thường, chỉ một trong những bộ mô hình này có thể là một mô tả hợp lý của dữ liệu. Áp dụng bộ thứ hai và khi bộ thứ nhất và là một mô hình tốt hoặc thứ nhất khi thứ hai tốt, sẽ hoạt động với một tập dữ liệu phi tuyến, không đồng nhất, do đó phải phù hợp kém với hồi quy tuyến tính. Khi một trong những tình huống này là trường hợp, chúng ta có thể mong đợi mô hình tốt hơn để trưng bày lớn hơn . Tuy nhiên, những gì về nếu không phải là trường hợp? Chúng ta vẫn có thể mong đợi lớn hơn để giúp chúng ta xác định mô hình tốt hơn chứ?(1a)(2a)(1)(2)R2R2

Phân tích

Trong một số trường hợp, đây không phải là một câu hỏi hay, bởi vì nếu không có mô hình nào phù hợp, chúng ta phải tìm một mô hình thứ ba. Tuy nhiên, vấn đề trước mắt chúng tôi liên quan đến tiện ích của trong việc giúp chúng tôi đưa ra quyết định này. Hơn nữa, nhiều người nghĩ đầu tiên về hình dạng của mối quan hệ giữa và nó là tuyến tính, là logarit, là một cái gì đó khác - mà không quan tâm đến các đặc điểm của lỗi hồi quy hoặc . Do đó, chúng ta hãy xem xét một tình huống trong đó mô hình của chúng ta có được mối quan hệ đúng nhưng sai về cấu trúc lỗi của nó hoặc ngược lại .R2xyεiηi

Một mô hình như vậy (thường xảy ra) là một hình vuông nhỏ nhất phù hợp với mối quan hệ theo cấp số nhân,

(3)yi=exp(α0+xiα)+θi.

Bây giờ logarit của là hàm tuyến tính của , như trong , nhưng các thuật ngữ lỗi là phụ gia , như trong . Trong những trường hợp như vậy, có thể khiến chúng ta hiểu lầm về việc chọn mô hình có mối quan hệ sai giữa .yx(2a)θi(2)R2xy

Dưới đây là một minh họa của mô hình . Có quan sát cho (1 vectơ phân bố đều giữa và ). Bảng bên trái hiển thị dữ liệu gốc trong khi bảng bên phải hiển thị dữ liệu được chuyển đổi . Các đường màu đỏ nét đứt biểu thị mối quan hệ cơ bản thực sự, trong khi các đường màu xanh đặc hiển thị các hình vuông nhỏ nhất phù hợp. Dữ liệu và mối quan hệ thực sự giống nhau trong cả hai bảng: chỉ có các mô hình và sự phù hợp của chúng khác nhau.(3)300xi1.01.6(x,y)(x,log(y))

Điểm phân tán

Sự phù hợp với các phản hồi nhật ký ở bên phải rõ ràng là tốt: nó gần như trùng khớp với mối quan hệ thực sự và cả hai đều là tuyến tính. Sự phù hợp với các phản ứng ban đầu ở bên trái rõ ràng là tồi tệ hơn: đó là tuyến tính trong khi mối quan hệ thực sự là theo cấp số nhân. Thật không may, nó có giá trị lớn hơn đáng kể là : so với . Đó là lý do tại sao chúng ta không nên tin tưởng để dẫn chúng ta đến mô hình tốt hơn. Đó là lý do tại sao chúng ta không nên hài lòng với sự phù hợp ngay cả khi "cao" (và trong nhiều ứng dụng, giá trị sẽ thực sự được coi là cao). 0,70 0,56 R 2 R 2 0,70R20.700.56R2R20.70


Ngẫu nhiên, một cách tốt hơn để đánh giá các mô hình này bao gồm độ tốt của các thử nghiệm phù hợp (sẽ chỉ ra tính ưu việt của mô hình nhật ký ở bên phải) và các sơ đồ chẩn đoán cho sự ổn định của phần dư (sẽ làm nổi bật các vấn đề với cả hai mô hình). Những đánh giá như vậy tự nhiên sẽ dẫn người ta đến một mức phù hợp bình phương nhỏ nhất của hoặc trực tiếp đến mô hình , điều này sẽ phải phù hợp bằng cách sử dụng phương pháp bình phương tối thiểu hoặc phương pháp bình phương nhỏ nhất phi tuyến.( 3 )log(y)(3)


Những lời chỉ trích về R ^ 2 là không công bằng. Vì mọi công cụ nên sử dụng nó nên được hiểu rõ. Trong các ví dụ của bạn ở trên, R ^ 2 đang đưa ra thông điệp chính xác. R ^ 2 theo cách chọn tín hiệu tốt hơn cho tỷ lệ nhiễu. Tất nhiên không rõ ràng khi bạn đặt hai biểu đồ với tỷ lệ hoàn toàn khác nhau cạnh nhau. Trong thực tế, tín hiệu bên trái rất mạnh so với độ lệch nhiễu.
Cagdas Ozgenc

@Cagdas Bạn dường như cung cấp một thông điệp mâu thuẫn vốn có. Vì hai âm mưu không thể tránh khỏi ở hai thang đo khác nhau - một âm mưu phản hồi ban đầu và các âm mưu khác logarit của chúng - sau đó biện hộ rằng một cái gì đó là "không rõ ràng" vì thực tế không thể tránh khỏi này dường như không hỗ trợ cho trường hợp của bạn. Khiếu nại rằng câu trả lời này là "không công bằng" thực sự không theo kịp các phân tích rõ ràng về các mô hình tôi đã cung cấp.
whuber

Không có mâu thuẫn trong những gì tôi đang nói. R ^ 2 chọn tín hiệu cao hơn tỷ lệ nhiễu. Đó là những gì nó đang làm. Cố gắng biến nó thành một cái gì đó khác và tuyên bố rằng nó không hoạt động là hoàn toàn sai. Tất cả những lời chỉ trích cho R ^ 2 cũng áp dụng cho các chỉ số phù hợp khác khi áp dụng cho các biến phản ứng khác nhau, nhưng vì một số lý do, R ^ 2 được chọn làm vật tế thần.
Cagdas Ozgenc

Tôi thực sự rất muốn biết, @Cagdas, phần nào trong phân tích này mà bạn xem là "nói xấu" . Theo như tôi có thể nói đó là một đánh giá không chính xác và kỹ thuật về là gì và không có khả năng hoàn thành. Tôi không thấy nó liên quan đến "tín hiệu tỷ lệ nhiễu" như thế nào trong khi thực tế ví dụ cho thấy rõ mô hình tốt hơn như thế nào (theo nghĩa tôi đã mô tả, phù hợp với ý nghĩa của hầu hết mọi người bởi "sự phù hợp của sự phù hợp") càng tệ . R 2 R 2R2R2R2
whuber

2
Cảm ơn sự giúp đỡ của bạn whuber. Xin lỗi vì sự chấp nhận muộn, gần đây tôi không có nhiều thời gian rảnh. ;)
Một ông già ở biển.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.