Tôi có nghĩa là một số trong những biến đó có mối tương quan mạnh mẽ với nhau. Làm thế nào / tại sao / trong bối cảnh nào chúng ta định nghĩa chúng là các biến độc lập ?
Tôi có nghĩa là một số trong những biến đó có mối tương quan mạnh mẽ với nhau. Làm thế nào / tại sao / trong bối cảnh nào chúng ta định nghĩa chúng là các biến độc lập ?
Câu trả lời:
Nếu chúng ta rút lại từ sự nhấn mạnh ngày nay vào học máy và nhớ lại bao nhiêu phân tích thống kê đã được phát triển cho các nghiên cứu thực nghiệm có kiểm soát, cụm từ "các biến độc lập" có ý nghĩa tốt.
Trong các nghiên cứu thực nghiệm có kiểm soát, các lựa chọn về một loại thuốc và nồng độ của nó, hoặc các lựa chọn về phân bón và số lượng trên mỗi mẫu Anh, được thực hiện độc lập bởi nhà nghiên cứu. Sự quan tâm là làm thế nào một biến phản ứng quan tâm (ví dụ: huyết áp, năng suất cây trồng) phụ thuộc vào các thao tác thử nghiệm này. Lý tưởng nhất là các đặc tính của các biến độc lập được chỉ định chặt chẽ, về cơ bản không có lỗi khi biết giá trị của chúng. Sau đó, hồi quy tuyến tính tiêu chuẩn, ví dụ, mô hình sự khác biệt giữa các giá trị của các biến phụ thuộc về giá trị của các biến độc lập cộng với các lỗi dư.
Cũng có thể áp dụng cùng một hình thức toán học tương tự được sử dụng cho hồi quy trong bối cảnh các nghiên cứu thực nghiệm có kiểm soát để phân tích các tập dữ liệu quan sát mà không cần thao tác thử nghiệm, vì vậy có lẽ không có gì đáng ngạc nhiên khi cụm từ "biến độc lập" đã chuyển sang các loại như vậy học. Nhưng, như những người khác trên trang này lưu ý, đó có lẽ là một lựa chọn không may, với "dự đoán" hoặc "tính năng" phù hợp hơn trong bối cảnh như vậy.
Tôi đồng ý với các câu trả lời khác ở đây rằng "độc lập" và "phụ thuộc" là thuật ngữ kém. Như EdM giải thích, thuật ngữ này phát sinh trong bối cảnh các thí nghiệm được kiểm soát trong đó nhà nghiên cứu có thể thiết lập các biến hồi quy độc lập với nhau. Có nhiều thuật ngữ thích hợp hơn không có ý nghĩa nhân quả được tải này, và theo kinh nghiệm của tôi, các nhà thống kê có xu hướng thích các thuật ngữ trung lập hơn. Có nhiều thuật ngữ khác được sử dụng ở đây, bao gồm:
Cá nhân, tôi sử dụng các thuật ngữ biến giải thích và biến trả lời, vì các thuật ngữ đó không có ý nghĩa về sự độc lập hoặc kiểm soát thống kê, v.v. (Người ta có thể lập luận rằng 'phản hồi' có ý nghĩa nguyên nhân, nhưng đây là một ý nghĩa khá yếu, vì vậy tôi đã không tìm thấy nó có vấn đề.)
Để thêm vào câu trả lời của Frank Harrell và Peter Flom:
Tôi đồng ý rằng việc gọi một biến "độc lập" hoặc "phụ thuộc" thường gây hiểu nhầm. Nhưng một số người vẫn làm điều đó. Tôi đã từng nghe một câu trả lời tại sao:
"Phụ thuộc" và "độc lập" có thể là các thuật ngữ khó hiểu. Một ý nghĩa là giả nhân quả hoặc thậm chí là nhân quả và đây là ý nghĩa khi nói "biến độc lập" và "biến phụ thuộc". Chúng tôi muốn nói rằng DV, theo một cách nào đó, phụ thuộc vào IV. Vì vậy, ví dụ, khi mô hình hóa mối quan hệ giữa chiều cao và cân nặng ở người trưởng thành, chúng ta nói cân nặng là DV và chiều cao là IV.
Điều này không nắm bắt được một cái gì đó mà "người dự đoán" không - cụ thể là hướng của mối quan hệ. Chiều cao dự đoán cân nặng, nhưng cân nặng cũng dự đoán chiều cao. Đó là, nếu bạn được yêu cầu đoán chiều cao của mọi người và được cho biết trọng lượng của họ, điều đó sẽ hữu ích.
Nhưng chúng tôi sẽ không nói rằng chiều cao phụ thuộc vào cân nặng.
Dựa trên các câu trả lời trên, vâng, tôi đồng ý rằng biến phụ thuộc và độc lập này là thuật ngữ yếu. Nhưng tôi có thể giải thích bối cảnh mà nó đang được sử dụng bởi nhiều người trong chúng ta. Bạn nói rằng đối với bài toán hồi quy tổng quát, chúng ta có biến Đầu ra, giả sử Y, có giá trị phụ thuộc vào các biến đầu vào khác, giả sử x1, x2, x3. Đó là lý do tại sao nó được gọi là "Biến phụ thuộc". Và tương tự tùy thuộc vào này bối cảnh chỉ , và chỉ để phân biệt giữa đầu ra và đầu vào biến, x1, x2, x3 được gọi là biến độc lập. Bởi vì không giống như Y, nó không phụ thuộc vào bất kỳ biến nào khác (Nhưng vâng, ở đây chúng tôi không nói về sự phụ thuộc với chính họ.)
Các biến độc lập được gọi là độc lập vì chúng không phụ thuộc vào các biến khác. Ví dụ, xem xét vấn đề dự đoán giá nhà. Giả sử chúng tôi có dữ liệu về house_size, vị trí và house_price. Ở đây, house_price được xác định dựa trên house_size và vị trí nhưng vị trí và house_size có thể khác nhau đối với các ngôi nhà khác nhau.