Chúng ta có thể sử dụng biến độc lập phân loại trong phân tích phân biệt không?

15

Trong phân tích phân biệt, biến phụ thuộc là phân loại, nhưng tôi có thể sử dụng biến phân loại (ví dụ: tình trạng dân cư: nông thôn, thành thị) cùng với một số biến liên tục khác là biến độc lập trong phân tích phân biệt tuyến tính không?

— kuwoli
nguồn

Câu hỏi tương tự

— ttnphns

14

Phân tích phân biệt giả định phân phối bình thường nhiều biến số bởi vì những gì chúng ta thường coi là yếu tố dự báo thực sự là biến phụ thuộc đa biến và biến nhóm được coi là biến dự báo. Điều này có nghĩa là các biến phân loại sẽ được coi là yếu tố dự đoán theo nghĩa bạn muốn không được xử lý tốt. Đây là một lý do mà nhiều người, bao gồm cả bản thân tôi, coi phân tích phân biệt đối xử đã bị lỗi thời bởi hồi quy logistic. Hồi quy logistic làm cho không có giả định phân phối dưới bất kỳ hình thức nào, ở bên trái hoặc bên phải của mô hình. Hồi quy logistic là một mô hình xác suất trực tiếp và không yêu cầu người ta sử dụng quy tắc của Bayes để chuyển đổi kết quả thành xác suất như phân tích phân biệt.

— Frank Mitchell
nguồn

Cảm ơn ông Frank Mitchell đã trả lời của bạn. Trên thực tế tôi muốn so sánh kết quả phân tích phân biệt và hồi quy logistic (mô hình logit) bằng cách sử dụng cùng một bộ biến. Vì vậy, với mục đích đó nếu tôi phải sử dụng các biến phân loại trong phân tích phân biệt là biến độc lập thì có cách nào không?

— kuwoli

6

Câu trả lời ngắn gọn là không có.

Một lưu ý sơ bộ. Thật khó để nói liệu các biến tạo ra các hàm phân biệt đối xử nên được gọi là "độc lập" hay "phụ thuộc". LDA về cơ bản là một trường hợp cụ thể của phân tích tương quan Canonical, và do đó nó là hai hướng. Nó có thể được xem là MANOVA (với biến lớp là yếu tố độc lập) hoặc, khi lớp là nhị phân, như một hồi quy tuyến tính của lớp là biến phụ thuộc. Do đó, nó không hoàn toàn hợp pháp khi luôn phản đối LDA với các hồi quy một chiều như logistic.

LDA giả định rằng các biến (những cái mà bạn gọi là "độc lập") đến từ phân phối chuẩn nhiều biến số, do đó - tất cả chúng đều liên tục. Giả định này rất quan trọng đối với (1) giai đoạn phân loại LDA và (2) ý nghĩa thử nghiệm của các chất phân biệt được tạo ra ở giai đoạn chiết xuất. Việc trích xuất các phân biệt đối xử tự nó không cần giả định.

Tuy nhiên, LDA khá mạnh mẽ đối với việc vi phạm giả định đôi khi được coi là bảo hành để thực hiện điều đó trên dữ liệu nhị phân . Trong thực tế, một số người làm điều đó. Tương quan Canonical (trong đó LDA là trường hợp cụ thể) có thể được thực hiện trong đó cả hai bộ bao gồm các biến nhị phân nhị phân hoặc thậm chí giả. Một lần nữa, không có vấn đề gì với việc trích xuất các hàm tiềm ẩn; các vấn đề với ứng dụng đó có khả năng phát sinh khi giá trị p hoặc các đối tượng phân loại được gọi.

Từ các biến nhị phân / thứ tự, người ta có thể tính toán các mối tương quan tetrachoric / polychoric và gửi nó cho LDA (nếu chương trình cho phép nhập ma trận tương quan thay cho dữ liệu); nhưng sau đó tính toán điểm số phân biệt đối xử ở cấp độ trường hợp sẽ có vấn đề.

Một cách tiếp cận linh hoạt hơn sẽ là biến các biến phân loại (thứ tự, danh nghĩa) thành liên tục bằng cách chia tỷ lệ / định lượng tối ưu . Phân tích tương quan chính tắc phi tuyến (TỔNG QUAN). Nó sẽ thực hiện nó theo nhiệm vụ để tối đa hóa mối tương quan chính tắc giữa hai bên (biến lớp và "dự đoán" phân loại). Sau đó, bạn có thể thử LDA với các biến được chuyển đổi.

Hồi quy logistic (đa cực hoặc nhị phân) có thể là một lựa chọn khác cho LDA.

— ttnphns
nguồn

Điều này liên quan nhiều hơn là chỉ sử dụng một mô hình được dành cho tình huống (hồi quy logistic). Phân tích phân biệt đối xử không mạnh mẽ như một số người nghĩ. Thật dễ dàng để hiển thị với một công cụ dự đoán phân loại duy nhất là nhị phân mà xác suất sau hình thành da không chính xác lắm (ví dụ: dự đoán xác suất của một sự kiện được đưa ra cho giới tính của đối tượng).

— Frank Harrell