Tại sao chúng ta cần loại bỏ một biến giả?


16

Tôi đã học được rằng, để tạo ra một mô hình hồi quy, chúng ta phải quan tâm đến các biến phân loại bằng cách chuyển đổi chúng thành các biến giả. Ví dụ: nếu, trong tập dữ liệu của chúng tôi, có một biến như vị trí:

Location 
----------
Californian
NY
Florida

Chúng tôi phải chuyển đổi chúng như:

1  0  0
0  1  0
0  0  1

Tuy nhiên, có ý kiến ​​cho rằng chúng ta phải loại bỏ một biến giả, bất kể có bao nhiêu biến giả ở đó.

Tại sao chúng ta cần loại bỏ một biến giả?


3
Bởi vì hình nộm thứ ba có thể được giải thích là sự kết hợp tuyến tính của hai hình đầu tiên: FL = 1 - (CA + NY).
chuỗiD

@chainD nhưng giải thích cho hơn ba biến giả là gì?
Mithun Sarker Shuvro

2
Dù tổng số, nó sẽ chỉ là 1 ít hơn tổng số danh mục mà bạn có. Mở rộng ví dụ của bạn, nói rằng tất cả 50 tiểu bang đã được trình bày trong bộ dữ liệu. Đối với một cá nhân cụ thể, giả sử bạn nhìn vào 49 hình nộm đầu tiên có thể là số không, thì bạn biết rằng hình nộm cuối cùng là số 1 ngay cả khi không nhìn (giả sử mọi người trong bộ dữ liệu là từ một trong 50 tiểu bang). Nói cách khác, thông tin của hình nộm cuối cùng đã được chứa trong kết quả của 49 đầu tiên, có thể nói như vậy.
chuỗiD

@chainD cảm ơn bạn
Mithun Sarker Shuvro

1
Nếu không phải là mùa xuân, không phải mùa hè và không phải mùa thu thì đó là mùa đông!
Stev

Câu trả lời:


10

Đơn giản chỉ cần đặt vì một cấp tính năng phân loại của bạn (ở đây là vị trí) trở thành nhóm tham chiếu trong quá trình mã hóa giả để hồi quy và là dự phòng. Tôi đang trích dẫn mẫu ở đây "Một biến phân loại của K loại hoặc cấp độ, thường đi vào hồi quy dưới dạng một chuỗi các biến giả K-1. Điều này có nghĩa là một giả thuyết tuyến tính về cấp độ có nghĩa."

Điều này đã được thảo luận tại câu trả lời thống kê rất hay này.stackexchange .

Tôi được cho biết có một khóa học nâng cao của Yandex ở Coursera bao gồm chủ đề này chi tiết hơn nếu bạn vẫn còn nghi ngờ, xem tại đây . Lưu ý bạn luôn có thể kiểm toán nội dung khóa học miễn phí. ;-)

Một bài viết hay khác nếu bạn muốn một lời giải thích kỹ lưỡng với nhiều ví dụ với quan điểm thống kê và không bị giới hạn chỉ mã hóa giả, hãy xem bài này từ UCLA (bằng R)

Lưu ý rằng nếu bạn sử dụng pandas.get_dummies, có một tham số tức là drop_firstcó nên lấy các hình nộm k-1 ra khỏi các cấp phân loại k bằng cách loại bỏ cấp đầu tiên. Xin lưu ý default = False, có nghĩa là tài liệu tham khảo không bị bỏ và k dummies được tạo ra từ k cấp độ phân loại!


4
Lưu ý rằng điều này chỉ đúng nếu mô hình của bạn có một phần chặn (nghĩa là một thuật ngữ không đổi). Mặt khác, bằng cách sử dụng mã hóa một nóng và không loại bỏ một biến giả, bạn đang ngầm thêm một chặn.
Elias Stroundle

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.