Đó là một câu hỏi hay, bởi vì "số lượng khác nhau" dường như không phải là một lời giải thích.
Có hai lý do quan trọng để cảnh giác khi sử dụng để so sánh các mô hình này: nó quá thô sơ (nó không thực sự đánh giá mức độ phù hợp ) và nó sẽ không phù hợp với ít nhất một trong các mô hình. Câu trả lời này giải quyết vấn đề thứ hai.R2
Điều trị lý thuyết
R 2 yR2 so sánh phương sai của phần dư mô hình với phương sai của các phản ứng. Phương sai là một độ lệch phụ gia bình phương trung bình từ một sự phù hợp. Như vậy, chúng ta có thể hiểu khi so sánh hai mô hình của phản hồi . R2y
Mô hình "cơ sở" là
yi=μ+δi(1)
trong đó là một tham số (đáp ứng trung bình theo lý thuyết) và là các "lỗi" ngẫu nhiên độc lập, mỗi lỗi có giá trị trung bình bằng 0 và phương sai chung của .delta i τ 2μδiτ2
Mô hình hồi quy tuyến tính giới thiệu các vectơ dưới dạng các biến giải thích:xi
yi=β0+xiβ+εi.(2)
Số và vectơ là các tham số (phần chặn và "độ dốc"). Các lại những sai sót ngẫu nhiên độc lập, mỗi zero trung bình và phổ biến sai . β ε i σ 2β0βεiσ2
τ 2 - σ 2 τ 2R2 ước tính mức giảm phương sai, , so với phương sai ban đầu .τ2−σ2τ2
Khi bạn lấy logarit và sử dụng bình phương tối thiểu để phù hợp với mô hình , bạn hoàn toàn đang so sánh mối quan hệ của biểu mẫu
log(yi)=ν+ζi(1a)
đến một trong các hình thức
log(yi)=γ0+xiγ+ηi.(2a)
Đây giống như các mô hình và nhưng có phản hồi nhật ký. Chúng không tương đương với hai mô hình đầu tiên, mặc dù. Chẳng hạn, lũy thừa cả hai mặt của sẽ cho(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Các thuật ngữ lỗi hiện nhân lên mối quan hệ cơ bản . Do đó, phương sai của các câu trả lời làexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
Phương sai phụ thuộc vào . xi Đó không phải là mô hình , giả sử các phương sai đều bằng một hằng số .(2)σ2
Thông thường, chỉ một trong những bộ mô hình này có thể là một mô tả hợp lý của dữ liệu. Áp dụng bộ thứ hai và khi bộ thứ nhất và là một mô hình tốt hoặc thứ nhất khi thứ hai tốt, sẽ hoạt động với một tập dữ liệu phi tuyến, không đồng nhất, do đó phải phù hợp kém với hồi quy tuyến tính. Khi một trong những tình huống này là trường hợp, chúng ta có thể mong đợi mô hình tốt hơn để trưng bày lớn hơn . Tuy nhiên, những gì về nếu không phải là trường hợp? Chúng ta vẫn có thể mong đợi lớn hơn để giúp chúng ta xác định mô hình tốt hơn chứ?(1a)(2a)(1)(2)R2R2
Phân tích
Trong một số trường hợp, đây không phải là một câu hỏi hay, bởi vì nếu không có mô hình nào phù hợp, chúng ta phải tìm một mô hình thứ ba. Tuy nhiên, vấn đề trước mắt chúng tôi liên quan đến tiện ích của trong việc giúp chúng tôi đưa ra quyết định này. Hơn nữa, nhiều người nghĩ đầu tiên về hình dạng của mối quan hệ giữa và nó là tuyến tính, là logarit, là một cái gì đó khác - mà không quan tâm đến các đặc điểm của lỗi hồi quy hoặc . Do đó, chúng ta hãy xem xét một tình huống trong đó mô hình của chúng ta có được mối quan hệ đúng nhưng sai về cấu trúc lỗi của nó hoặc ngược lại .R2xyεiηi
Một mô hình như vậy (thường xảy ra) là một hình vuông nhỏ nhất phù hợp với mối quan hệ theo cấp số nhân,
yi=exp(α0+xiα)+θi.(3)
Bây giờ logarit của là hàm tuyến tính của , như trong , nhưng các thuật ngữ lỗi là phụ gia , như trong . Trong những trường hợp như vậy, có thể khiến chúng ta hiểu lầm về việc chọn mô hình có mối quan hệ sai giữa và .yx(2a)θi(2)R2xy
Dưới đây là một minh họa của mô hình . Có quan sát cho (1 vectơ phân bố đều giữa và ). Bảng bên trái hiển thị dữ liệu gốc trong khi bảng bên phải hiển thị dữ liệu được chuyển đổi . Các đường màu đỏ nét đứt biểu thị mối quan hệ cơ bản thực sự, trong khi các đường màu xanh đặc hiển thị các hình vuông nhỏ nhất phù hợp. Dữ liệu và mối quan hệ thực sự giống nhau trong cả hai bảng: chỉ có các mô hình và sự phù hợp của chúng khác nhau.(3)300xi1.01.6(x,y)(x,log(y))
Sự phù hợp với các phản hồi nhật ký ở bên phải rõ ràng là tốt: nó gần như trùng khớp với mối quan hệ thực sự và cả hai đều là tuyến tính. Sự phù hợp với các phản ứng ban đầu ở bên trái rõ ràng là tồi tệ hơn: đó là tuyến tính trong khi mối quan hệ thực sự là theo cấp số nhân. Thật không may, nó có giá trị lớn hơn đáng kể là : so với . Đó là lý do tại sao chúng ta không nên tin tưởng để dẫn chúng ta đến mô hình tốt hơn. Đó là lý do tại sao chúng ta không nên hài lòng với sự phù hợp ngay cả khi "cao" (và trong nhiều ứng dụng, giá trị sẽ thực sự được coi là cao). 0,70 0,56 R 2 R 2 0,70R20.700.56R2R20.70
Ngẫu nhiên, một cách tốt hơn để đánh giá các mô hình này bao gồm độ tốt của các thử nghiệm phù hợp (sẽ chỉ ra tính ưu việt của mô hình nhật ký ở bên phải) và các sơ đồ chẩn đoán cho sự ổn định của phần dư (sẽ làm nổi bật các vấn đề với cả hai mô hình). Những đánh giá như vậy tự nhiên sẽ dẫn người ta đến một mức phù hợp bình phương nhỏ nhất của hoặc trực tiếp đến mô hình , điều này sẽ phải phù hợp bằng cách sử dụng phương pháp bình phương tối thiểu hoặc phương pháp bình phương nhỏ nhất phi tuyến.( 3 )log(y)(3)