Trong Phân tích hồi quy, tại sao chúng ta gọi các biến độc lập là độc lập với nhau?


30

Tôi có nghĩa là một số trong những biến đó có mối tương quan mạnh mẽ với nhau. Làm thế nào / tại sao / trong bối cảnh nào chúng ta định nghĩa chúng là các biến độc lập ?


1
Đó là lịch sử và xuất phát từ các công trình khoa học của Pháp. Tôi đang cố gắng để tìm các tài liệu tham khảo.
Alecos Papadopoulos

1
Tôi sẽ gọi một tập hợp các biến "có khả năng đồng phụ thuộc" để tránh suy ra quan hệ nhân quả.
qed

1
Một câu hỏi hay!
Rafael Marazuela

Câu trả lời:


29

Nếu chúng ta rút lại từ sự nhấn mạnh ngày nay vào học máy và nhớ lại bao nhiêu phân tích thống kê đã được phát triển cho các nghiên cứu thực nghiệm có kiểm soát, cụm từ "các biến độc lập" có ý nghĩa tốt.

Trong các nghiên cứu thực nghiệm có kiểm soát, các lựa chọn về một loại thuốc và nồng độ của nó, hoặc các lựa chọn về phân bón và số lượng trên mỗi mẫu Anh, được thực hiện độc lập bởi nhà nghiên cứu. Sự quan tâm là làm thế nào một biến phản ứng quan tâm (ví dụ: huyết áp, năng suất cây trồng) phụ thuộc vào các thao tác thử nghiệm này. Lý tưởng nhất là các đặc tính của các biến độc lập được chỉ định chặt chẽ, về cơ bản không có lỗi khi biết giá trị của chúng. Sau đó, hồi quy tuyến tính tiêu chuẩn, ví dụ, mô hình sự khác biệt giữa các giá trị của các biến phụ thuộc về giá trị của các biến độc lập cộng với các lỗi dư.

Cũng có thể áp dụng cùng một hình thức toán học tương tự được sử dụng cho hồi quy trong bối cảnh các nghiên cứu thực nghiệm có kiểm soát để phân tích các tập dữ liệu quan sát mà không cần thao tác thử nghiệm, vì vậy có lẽ không có gì đáng ngạc nhiên khi cụm từ "biến độc lập" đã chuyển sang các loại như vậy học. Nhưng, như những người khác trên trang này lưu ý, đó có lẽ là một lựa chọn không may, với "dự đoán" hoặc "tính năng" phù hợp hơn trong bối cảnh như vậy.


2
Nhưng sự lựa chọn mức độ của thuốc phụ thuộc vào điều tra viên làm gì, đó là lý do tại sao tôi không bao giờ có thể nhớ đó là thuốc gì.
mdewey

Trong học máy, "các tính năng" thường là các biến tiềm ẩn, không quan sát được. Các tính năng quan sát của người dùng là phổ biến hơn
Neil G

18

YXY


Vì vậy, tất cả các bạn đang nói rằng gọi các biến đầu vào là "độc lập" là thực hành sai? @Frank
Amarpreet Singh

11
Họ chắc chắn không được coi là độc lập với BẤT CỨ NÀO vì vậy đó là thực hành sai, chỉ được sử dụng vì thói quen.
Frank Harrell

1
E(Y|X)

11

Tôi đồng ý với các câu trả lời khác ở đây rằng "độc lập" và "phụ thuộc" là thuật ngữ kém. Như EdM giải thích, thuật ngữ này phát sinh trong bối cảnh các thí nghiệm được kiểm soát trong đó nhà nghiên cứu có thể thiết lập các biến hồi quy độc lập với nhau. Có nhiều thuật ngữ thích hợp hơn không có ý nghĩa nhân quả được tải này, và theo kinh nghiệm của tôi, các nhà thống kê có xu hướng thích các thuật ngữ trung lập hơn. Có nhiều thuật ngữ khác được sử dụng ở đây, bao gồm:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Cá nhân, tôi sử dụng các thuật ngữ biến giải thích và biến trả lời, vì các thuật ngữ đó không có ý nghĩa về sự độc lập hoặc kiểm soát thống kê, v.v. (Người ta có thể lập luận rằng 'phản hồi' có ý nghĩa nguyên nhân, nhưng đây là một ý nghĩa khá yếu, vì vậy tôi đã không tìm thấy nó có vấn đề.)


1
(+1) Tôi cho rằng hồi quy / hồi quy là các thuật ngữ trung lập nhất, nhưng tôi cũng thích giải thích bằng cách sử dụng giải thích / phản hồi.
Frans Rodenburg

2
Tôi đồng ý với xu hướng thích các thuật ngữ trung lập, nhưng "giải thích" nghe có vẻ khá nhân quả đối với tôi như trong: "Các biến X giải thích tại sao biến Y hoạt động theo cách nó hoạt động".
timwiz

1
Tôi hiểu nó có nghĩa là giải thích theo nghĩa xác suất - nghĩa là, nó giải thích những thay đổi trong phân phối biến trả lời. Bạn có thể đúng, nhưng trong tất cả các trường hợp, ý nghĩa đối với bất kỳ quan hệ nhân quả nào đều yếu.
Phục hồi Monica

2
Giải thích ngụ ý nhân quả là không phù hợp.
Frank Harrell

1
@Frank: Tôi không nhất thiết phải đồng ý với quan điểm đó. Giải thích có nguồn gốc từ từ "giải thích" vì vậy tôi chỉ nói đến việc các biến giải thích biến phản ứng bằng cách nào đó. Lời giải thích đó có thể là nguyên nhân, hoặc nó chỉ có thể là thống kê, và tôi coi đó là điều sau. Tuy nhiên, có vẻ như mọi người đang diễn giải ý nghĩa của những từ này một cách khác nhau, vì vậy tôi sẽ thừa nhận rằng một số người sẽ đọc nó là có ý nghĩa nhân quả.
Phục hồi Monica

9

Để thêm vào câu trả lời của Frank Harrell và Peter Flom:

Tôi đồng ý rằng việc gọi một biến "độc lập" hoặc "phụ thuộc" thường gây hiểu nhầm. Nhưng một số người vẫn làm điều đó. Tôi đã từng nghe một câu trả lời tại sao:

YXXYY X

Y


Bạn đang nói rằng Y phụ thuộc vào X, (vì vậy Y được gọi là biến phụ thuộc) và điều đó có nghĩa là X không phụ thuộc vào Y. Nhưng có thể có trường hợp X có thể phụ thuộc vào Y hoặc tương quan với Y (vì vậy nó có thể 'T được gọi là "độc lập" nữa). Bất kỳ quan điểm về điều này?
Amarpreet Singh

Không, tôi không có nghĩa là X không phụ thuộc vào Y. Tôi chỉ có nghĩa là lời giải thích cơ bản nhất về phân tích hồi quy thực hiện là nó mô tả cách Y phụ thuộc vào X. Vì vậy, tên cơ bản nhất cho Y sẽ là "phụ thuộc "
ukasz Deryło

6
Tôi không cố gắng trả lời câu hỏi "chúng ta có nên gọi X độc lập không?" mà là "tại sao chúng ta gọi nó là độc lập?", giống như trong tiêu đề của bài đăng của bạn
ukasz Deryło

5

"Phụ thuộc" và "độc lập" có thể là các thuật ngữ khó hiểu. Một ý nghĩa là giả nhân quả hoặc thậm chí là nhân quả và đây là ý nghĩa khi nói "biến độc lập" và "biến phụ thuộc". Chúng tôi muốn nói rằng DV, theo một cách nào đó, phụ thuộc vào IV. Vì vậy, ví dụ, khi mô hình hóa mối quan hệ giữa chiều cao và cân nặng ở người trưởng thành, chúng ta nói cân nặng là DV và chiều cao là IV.

Điều này không nắm bắt được một cái gì đó mà "người dự đoán" không - cụ thể là hướng của mối quan hệ. Chiều cao dự đoán cân nặng, nhưng cân nặng cũng dự đoán chiều cao. Đó là, nếu bạn được yêu cầu đoán chiều cao của mọi người và được cho biết trọng lượng của họ, điều đó sẽ hữu ích.

Nhưng chúng tôi sẽ không nói rằng chiều cao phụ thuộc vào cân nặng.


Bạn đang cụ thể về mô hình SEM?
Amarpreet Singh

Không. Tôi đã nghĩ đến hồi quy.
Peter Flom - Tái lập Monica

Ok, vậy đó chỉ là vấn đề tên. Tôi đã nhầm lẫn rằng gọi các biến đầu vào là "độc lập" có nghĩa là một cái gì đó.
Amarpreet Singh

12
DV và IV là những từ viết tắt phổ biến (mà cá nhân tôi không thích), nhưng coi chừng nhiều nhà kinh tế và một số nhà khoa học xã hội khác mà IV chỉ có thể có nghĩa là biến công cụ. Nó ít phổ biến hơn để gặp những người mà DV chỉ có thể có nghĩa là Deo volente (Thiên Chúa sẵn sàng).
Nick Cox

0

Dựa trên các câu trả lời trên, vâng, tôi đồng ý rằng biến phụ thuộc và độc lập này là thuật ngữ yếu. Nhưng tôi có thể giải thích bối cảnh mà nó đang được sử dụng bởi nhiều người trong chúng ta. Bạn nói rằng đối với bài toán hồi quy tổng quát, chúng ta có biến Đầu ra, giả sử Y, có giá trị phụ thuộc vào các biến đầu vào khác, giả sử x1, x2, x3. Đó là lý do tại sao nó được gọi là "Biến phụ thuộc". Và tương tự tùy thuộc vào này bối cảnh chỉ , và chỉ để phân biệt giữa đầu ra và đầu vào biến, x1, x2, x3 được gọi là biến độc lập. Bởi vì không giống như Y, nó không phụ thuộc vào bất kỳ biến nào khác (Nhưng vâng, ở đây chúng tôi không nói về sự phụ thuộc với chính họ.)


Bạn đã trả lời tương tự như của @Ramya R.
Amarpreet Singh

-2

Các biến độc lập được gọi là độc lập vì chúng không phụ thuộc vào các biến khác. Ví dụ, xem xét vấn đề dự đoán giá nhà. Giả sử chúng tôi có dữ liệu về house_size, vị trí và house_price. Ở đây, house_price được xác định dựa trên house_size và vị trí nhưng vị trí và house_size có thể khác nhau đối với các ngôi nhà khác nhau.


4
Đôi khi các biến được gọi là "độc lập" trong hồi quy có tương quan. Vì vậy, họ không nhất thiết phải độc lập thống kê. Sẽ tốt hơn nếu gọi chúng là các biến dự đoán.
Michael R. Chernick

Micheal, Cảm ơn đã chỉ ra điều đó. Tôi có một câu hỏi tiếp theo. Trong trường hợp chúng ta có hai biến dự đoán là cộng tuyến, chúng ta không loại bỏ một trong số chúng để loại bỏ vấn đề đa cộng tuyến sao cho các biến dự đoán của chúng ta độc lập với nhau?
Ramya R

1
Không cần thiết. Nó phụ thuộc vào việc nó có ảnh hưởng đến sự ổn định của các ước tính hay không và mức độ dự đoán sẽ mạnh hơn bao nhiêu khi bao gồm cả hai biến. Nếu hai biến có tương quan 0,1 thì chúng không độc lập nhưng mối quan hệ giữa chúng yếu.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.