Nếu là một trong một số biến có tổng bằng , thì giữa và là giá trị hữu ích không?


8

Một giả định cho phân tích hồi quy là và không đan xen. Tuy nhiên khi tôi nghĩ về nó Dường như với tôi rằng nó có ý nghĩa.XY

Đây là một ví dụ. Nếu chúng ta có một bài kiểm tra với 3 phần (AB và C). Điểm kiểm tra tổng thể bằng tổng điểm của từng cá nhân trong 3 phần. Bây giờ có ý nghĩa để nói rằng có thể được điểm trong phần A và điểm tổng kiểm tra. Sau đó, hồi quy tuyến tính có thể trả lời câu hỏi này: sự thay đổi trong điểm kiểm tra tổng thể có liên quan đến phần A là gì? Ở đây, một số tình huống có thể xảy ra:XY

  1. Phần A là phần khó nhất trong 3 phần và học sinh luôn đạt điểm thấp nhất trong đó. Trong trường hợp như vậy, trực giác sẽ thấp. Bởi vì hầu hết các điểm kiểm tra tổng thể sẽ được xác định bởi B và C.R2
  2. Phần A rất dễ dàng cho sinh viên. Trong trường hợp này cũng tương quan sẽ không cao. Bởi vì học sinh luôn đạt 100% phần này và do đó phần này không cho chúng ta biết gì về điểm kiểm tra tổng thể.
  3. Phần A có độ khó xen kẽ. Trong trường hợp này, mối tương quan sẽ mạnh hơn (nhưng điều này cũng phụ thuộc vào các điểm số khác (B và C).

Một ví dụ khác là: chúng tôi phân tích tổng hàm lượng của một nguyên tố vi lượng trong nước tiểu. Và chúng tôi phân tích độc lập các loài riêng lẻ (dạng hóa học) của nguyên tố vi lượng đó trong nước tiểu. Có thể có nhiều dạng hóa học. Và nếu các phân tích của chúng tôi là chính xác, tổng các dạng hóa học sẽ cung cấp cho chúng tôi giống như tổng hàm lượng của một nguyên tố (được phân tích bằng một kỹ thuật khác). Tuy nhiên, thật hợp lý khi hỏi liệu một dạng hóa học có tương quan với tổng hàm lượng nguyên tố trong nước tiểu hay không, vì tổng hàm lượng này là một chỉ số về tổng lượng ăn vào từ thực phẩm của nguyên tố đó. Sau đó, nếu chúng ta nói rằng là tổng số nguyên tố trong nước tiểu vàYXY là dạng hóa học A trong nước tiểu sau đó bằng cách nghiên cứu mối tương quan, chúng ta có thể khám phá xem dạng hóa học này có phải là dạng chính đóng góp vào sự biến đổi tổng thể hay không.

đối với tôi, đôi khi nó có ý nghĩa ngay cả khi và không độc lập và trong một số trường hợp, điều này có thể giúp trả lời các câu hỏi khoa học.YXY

Bạn có nghĩ rằng có thể hữu ích hoặc có ý nghĩa trong các ví dụ trên không? Nếu chúng ta xem xét ví dụ về điểm kiểm tra ở trên, tôi đã nói rằng sẽ có khoảng 33% đóng góp của mỗi phần có độ khó hoàn toàn giống nhau đối với học sinh. Nhưng trong thực tế điều này không nhất thiết đúng. Vì vậy, tôi đã nghĩ rằng có thể sử dụng phân tích hồi quy có thể giúp chúng tôi biết được sự biến thiên thực sự được quy cho mỗi phần của một bài kiểm tra. Vì vậy, dường như với tôi rằng sẽ có ý nghĩa mặc dù chúng ta đã biết giả thuyết null là không đúng.R 2R2R2

Có phương pháp hồi quy sửa đổi thay thế nào để giải thích cho các tình huống như vậy và cung cấp cho chúng tôi các tham số có ý nghĩa không?


Tôi không đồng ý với tuyên bố này: "1- phần A là phần khó nhất trong 3 phần và học sinh luôn đạt điểm thấp nhất trong phần đó. Trong trường hợp như vậy, trực giác R bình phương sẽ thấp." Nếu phần A là khó nhất thì sẽ có nhiều câu trả lời không nhất quán dẫn đến tăng độ biến thiên do đó, R bình phương, đo tỷ lệ biến thiên được giải thích bởi phần A sẽ lớn hơn.
StatsStudent 10/03/2015

Cám ơn bạn đã góp ý. Tôi nghĩ rằng phần A khó đến mức tất cả học sinh đều đạt điểm rất thấp (và gần bằng 0 trên thang điểm 0-100) trong phần này. Sau đó, sự thay đổi trong điểm số của phần này không đóng góp đáng kể vào điểm kiểm tra tổng thể (ví dụ: không thành vấn đề nếu nó là 15 hoặc 20 hoặc 10%). Điểm kiểm tra tổng thể (và tính biến thiên của nó) sẽ được xác định bởi các điểm kiểm tra khác có thể thay đổi hơn, đóng vai trò lớn hơn trong tổng điểm.
Bassam

Tại sao bạn mong đợi và độc lập trong phân tích hồi quy? Một là giá trị trung bình của cái kia (ít nhất là nếu chúng ta bỏ qua các yếu tố dự đoán khác). Ngoài ra, tôi không hiểu câu đầu tiên của bạn, giả định đó là gì? Hồi quy nên liên quan đến một số loại đan xen. XYX
swmo 13/03/2015

Câu trả lời:


5

Bạn có thể muốn xem xét một cách tiếp cận bên ngoài phương pháp hồi quy truyền thống. Điều này có thể so sánh với các loại vấn đề mà tâm lý học được thiết kế để giải quyết (thực ra, ví dụ đầu tiên của bạn chính xác là như vậy, vì nó là một bài kiểm tra).

Trong Lý thuyết kiểm tra cổ điển , một trong những số liệu phổ biến nhất là tương quan điểm tổng số vật phẩm, về cơ bản là mối tương quan giữa điểm số vật phẩm và tổng điểm. Nó cho bạn biết sự phân biệt đối xử của mặt hàng - đó là khả năng phân biệt giữa người trả lời điểm cao và điểm thấp. Điều này có thể so sánh với việc giải thích phương sai, giống như những gì bạn đang hỏi ở trên với . Có hai cách để tính điểm này, bằng cách sử dụng tổng số điểm kiểm tra bao gồm cả mục quan tâm hoặc loại trừ nó. Khi bạn có nhiều vật phẩm, hai phương pháp này gần như giống nhau, nhưng khi bạn có ít vật phẩm, thì chúng có thể tạo ra sự khác biệt lớn.R2

Một cách tiếp cận khác từ Lý thuyết phản hồi vật phẩm (IRT) là ước tính, thông qua mô hình phản hồi vật phẩm 2 tham số hoặc thông qua phân tích nhân tố xác nhận (theo thống kê là giống nhau, nhưng thông dịch giải thích thì khác). Mô hình 2 tham số bao gồm một tham số cho độ khó của vật phẩm (độ khó tương đối của vật phẩm) và một tham số đối với sự phân biệt vật phẩm, được hiểu rất giống với tương quan điểm tổng của vật phẩm. Phân biệt cao = vật phẩm phân biệt tốt giữa người ghi điểm cao và thấp. Nếu bạn sử dụng phân tích nhân tố xác nhận (CFA), bạn có tải mục, về cơ bản là các tham số phân biệt đối xử của bạn. Chúng cho bạn biết bao nhiêu trong tổng số điểm được điều khiển bởi một mục cụ thể.

Sử dụng IRT hoặc CFA giả định rằng bạn có điểm tiềm ẩn chứ không phải điểm số quan sát được mà bạn đang cố gắng ước tính. Trong các ví dụ bạn đưa ra ở trên, bạn quan tâm đến điểm số được quan sát, điều đó không tiềm ẩn. Vì vậy, các mô hình này sẽ không phải là những gì bạn đang theo đuổi, vì chúng có xác suất và bạn có mối quan hệ tautological (tổng số của bạn là theo định nghĩa được tạo thành từ các bộ phận, không có lỗi). Nhưng tôi chỉ ra chúng như những ví dụ về cách thống kê có được câu trả lời tương tự.

Điều cuối cùng tôi muốn chỉ ra, và đây có lẽ là điều mà người khác sẽ tranh luận, nhưng trong khi một giả định là các biến hồi quy là độc lập, khi chúng ta có một biến phân loại và chúng ta nhập các biến giả vào mô hình, theo định nghĩa các biến giả đó , tương quan. Vì vậy, điều này dường như vi phạm các giả định về sự độc lập và mang lại tính đa hình. Nếu bạn nghĩ về nó theo cách này, sẽ rất hợp lý khi thực hiện hồi quy của bạn về việc nói các yếu tố trong nước tiểu và loại trừ một yếu tố, các hệ số sẽ có giá trị như thể đó là một biến phân loại duy nhất. Theo nghĩa đó, bạn đang nhận được một con số tương đương với tương quan tổng số vật phẩm từ Lý thuyết kiểm tra cổ điển tôi đã chỉ ra ở trên.


4

Z=X+Y+W

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

X

Về việc nó có hữu ích hay không, loại đó phụ thuộc vào những gì bạn đang theo đuổi. Có lẽ tốt nhất nên nghĩ về nó như là "tỷ lệ phần trăm của tổng biến thể" hoặc đại loại như thế, mặc dù tương tự đối với Y và W có thể không hoàn toàn bằng 1 (hoặc có thể nó không ... không chắc chắn).


2

R2R2R2


Cảm ơn bình luận của bạn. Đó chính xác là cảm giác của tôi. Giá trị R2 đó và so sánh giữa chúng có thể cung cấp cho chúng tôi thông tin hữu ích.
Bassam

0

XY

Điều này là không chính xác. Một giả định cho phân tích hồi quy là LRI không tương quan. Xem mục wikipedia cho định lý Gauss-Markov.

XYR2XY

R2XY

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.