Làm thế nào để khái niệm lỗi trong mô hình hồi quy?


11

Tôi đang tham dự một lớp phân tích dữ liệu và một số ý tưởng có gốc rễ của tôi đang bị lung lay. Cụ thể, ý tưởng rằng lỗi (epsilon), cũng như bất kỳ loại phương sai nào khác, chỉ áp dụng (vì vậy tôi nghĩ) cho một nhóm (một mẫu hoặc toàn bộ dân số). Bây giờ, chúng ta được dạy rằng một trong những giả định hồi quy là phương sai là "giống nhau cho tất cả các cá nhân". Điều này bằng cách nào đó gây sốc cho tôi. Tôi luôn nghĩ rằng đó là phương sai trong Y trên tất cả các giá trị của X được coi là không đổi.

Tôi đã có một cuộc trò chuyện với prof, người nói với tôi rằng khi chúng tôi thực hiện hồi quy, chúng tôi cho rằng mô hình của chúng tôi là đúng. Và tôi nghĩ đó là phần khó khăn. Đối với tôi, thuật ngữ lỗi (epsilon) luôn có nghĩa như "bất kỳ yếu tố nào chúng tôi không biết và điều đó có thể ảnh hưởng đến biến kết quả của chúng tôi, cộng với một số lỗi đo lường". Theo cách mà lớp học được dạy, không có thứ gọi là "những thứ khác"; mô hình của chúng tôi được coi là đúng và đầy đủ. Điều này có nghĩa là tất cả các biến thể dư phải được coi là một sản phẩm của lỗi đo lường (do đó, đo một cá nhân 20 lần sẽ được dự kiến ​​sẽ tạo ra phương sai tương tự như đo 20 cá thể một lần).

Tôi cảm thấy có gì đó không đúng ở đâu đó, tôi muốn có một số ý kiến ​​chuyên gia về vấn đề này ... Có chỗ nào để giải thích về thuật ngữ lỗi là gì, nói một cách khái niệm không?


3
Có lẽ điều ông muốn nói là, ngay cả khi mô hình là đúng, vẫn có sự thay đổi ngẫu nhiên trong các phản hồi - điều này được ghi lại bởi phương sai lỗi - ví dụ, điều này có thể được quy cho một thiết bị đo không hoàn hảo. Những người khác đôi khi khái niệm phương sai lỗi là do thiếu dự đoán (không nhất thiết là lỗi ở dạng mô hình), ngụ ý rằng nếu tất cả các dự đoán có thể được đo, phương sai lỗi sẽ là 0. Điều này không nhất quán với lỗi đầu tiên - lỗi trong đo lường có thể được coi là một "dự đoán mất tích".
Macro

Tôi nghĩ rằng một điều luôn khó nắm bắt lúc đầu là "lỗi" có thể có nghĩa là những điều khác nhau trong trường hợp này. "Lỗi" có thể đề cập đến sự khác biệt giữa các giá trị được trang bị mà chúng tôi thu được từ mô hình của chúng tôi và các giá trị được quan sát (sự khác biệt có thể là do một mô hình khá phức tạp, ví dụ). "Lỗi" cũng có thể có nghĩa là sự khác biệt giữa các giá trị quan sát và giá trị thực (sự khác biệt có thể là do, thiết bị bạn sử dụng để đo các giá trị làm tròn đến số nguyên / thập phân thứ mười / v.v. gần nhất). [Loại đầu tiên là nơi bạn nghe các thuật ngữ như "phần dư / phương sai dư."]

@Macro Vâng, điều này đối với tôi giống như một cách nghĩ tự nhiên về lỗi. Tuy nhiên, tôi đang cố gắng để hiểu lý do tại sao các prof nhấn mạnh vào định nghĩa chặt chẽ hơn của nó (nghĩ về nó là áp dụng cho mỗi cá nhân mặc dù chúng ta biết trong thực tế, điều đó không đúng).
Đaminh Comtois

@MikeWierzbicki Phải. Và nếu tôi hiểu chính xác, tất cả sẽ được gộp lại trong quan điểm "nghiêm ngặt". Có nghĩa là tất cả sự khác biệt giữa các giá trị được quan sát và dự đoán đều xuất phát từ lỗi đo lường, vì mô hình của chúng tôi "phải là sự thật".
Đaminh Comtois

Câu trả lời:


2

Nếu có các khía cạnh của các cá nhân có ảnh hưởng đến các giá trị y kết quả, thì có một số cách để đạt được các khía cạnh đó (trong trường hợp đó họ phải là một phần của yếu tố dự đoán x), hoặc không có cách nào để có được điều đó thông tin.

Nếu không có cách nào nhận được thông tin này và không có cách nào liên tục đo các giá trị y cho các cá nhân, thì điều đó thực sự không quan trọng. Nếu bạn có thể đo y nhiều lần và nếu tập dữ liệu của bạn thực sự chứa các phép đo lặp lại cho một số cá nhân, thì bạn đã gặp vấn đề tiềm ẩn trong tay, vì lý thuyết thống kê giả định tính độc lập của sai số đo / dư.

Ví dụ: giả sử bạn đang cố gắng khớp với mô hình của biểu mẫu

y=β0+β1x

và điều đó cho mỗi cá nhân,

yind=100+10x+z

Trong đó z phụ thuộc vào từng cá thể và thường được phân phối với giá trị trung bình 0 và độ lệch chuẩn 10. Với mỗi lần đo lặp lại của một cá nhân,

ymeas=100+10x+z+e

e

Bạn có thể thử mô hình này như

y=β0+β1x+ϵ

ϵ

σ=102+0.12=100.01

Miễn là bạn chỉ có một phép đo cho mỗi cá nhân, điều đó sẽ ổn. Tuy nhiên, nếu bạn có nhiều phép đo cho cùng một cá nhân, thì số dư của bạn sẽ không còn độc lập nữa!

β0=100β1=10χ2


Tôi đã cố gắng tránh sử dụng thuật ngữ "mô hình đa cấp" đáng sợ trong câu trả lời của mình, nhưng bạn nên lưu ý rằng trong một số trường hợp, nó cung cấp một cách để đối phó với loại tình huống này.
Brian Borchers

1

Tôi nghĩ rằng "lỗi" được mô tả tốt nhất là "một phần của các quan sát không thể đoán được với thông tin hiện tại của chúng tôi". Cố gắng suy nghĩ về mặt dân số so với mẫu dẫn đến các vấn đề về khái niệm (dù sao nó cũng đúng với tôi), cũng như nghĩ về các lỗi là "hoàn toàn ngẫu nhiên" được rút ra từ một số phân phối. suy nghĩ về mặt dự đoán và "dự đoán" có ý nghĩa hơn đối với tôi.

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

Và gần gũi, ý tôi là sự phân kỳ kl được giảm thiểu
xác suất

Vấn đề nan giải không phải là giữa mẫu và dân số. Đó là suy nghĩ về lỗi khi áp dụng cho các cá nhân so với mẫu / dân số.
Đaminh Comtois

1

Đây là liên kết rất hữu ích để giải thích hồi quy tuyến tính đơn giản: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html có lẽ nó có thể giúp nắm bắt khái niệm "lỗi".

FD


Đó là một applet rất đẹp! Cảm ơn đã tham khảo nó. Nó nhắc tôi khá nhiều hình ảnh minh họa tôi tạo ra cho một câu hỏi khác , trong đó câu trả lời của bạn có thể liên quan nhiều hơn.
whuber

1

Tôi không đồng ý với công thức của giáo sư về điều này. Như bạn nói, ý tưởng rằng phương sai là giống nhau cho mỗi cá nhân ngụ ý rằng thuật ngữ lỗi chỉ đại diện cho lỗi đo lường. Đây thường không phải là cách mô hình hồi quy bội cơ bản được xây dựng. Cũng như bạn nói, phương sai được xác định cho một nhóm (cho dù đó là một nhóm các đối tượng riêng lẻ hay một nhóm các phép đo). Nó không áp dụng ở cấp độ cá nhân, trừ khi bạn có các biện pháp lặp đi lặp lại.

Một mô hình cần phải được hoàn thành trong đó thuật ngữ lỗi không được chứa ảnh hưởng từ bất kỳ biến nào có tương quan với các yếu tố dự đoán. Giả định là thuật ngữ lỗi độc lập với các yếu tố dự đoán. Nếu một số biến tương quan bị bỏ qua, bạn sẽ nhận được các hệ số sai lệch (đây được gọi là biến thiên bị bỏ qua ).


Tôi không hiểu câu trả lời này. nó xuất hiện để nhận ra sự khác biệt giữa lỗi do thiếu sự phù hợp và lỗi ngẫu nhiên, nhưng câu hỏi tu từ cuối cùng có vẻ khó hiểu. Từ quan điểm hoàn toàn chính thức, về cơ bản, bất kỳ suy luận nào được thực hiện liên quan đến mô hình hồi quy đều xoay quanh các giả định rất rõ ràng về cấu trúc nhiễu.
Đức hồng y

1
Quan điểm của tôi là trong nhiều trường hợp, mục đích của mô hình hồi quy là tìm hiểu điều gì đang xảy ra ngay cả khi chúng ta không biết tất cả các nguyên nhân dẫn đến một kết quả cụ thể. Nhưng vì có vẻ không rõ ràng, tôi sẽ loại bỏ câu hỏi đó.
Anne Z.

Cảm ơn. Điểm trong nhận xét của bạn là tốt. Câu hỏi trước đây bạn đã nêu có thể được đọc là đặt câu hỏi cho toàn bộ cơ sở dựa trên lý thuyết hồi quy. :)
Đức hồng y

Tôi đồng ý với bạn về sự không đồng ý của bạn (do đó là câu hỏi của tôi!) Và sai lệch biến bị bỏ qua có liên quan đến vấn đề này. Cảm ơn.
Đaminh Comtois
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.