Các hệ số của hồi quy logistic có một ý nghĩa?


14

Tôi có một vấn đề phân loại nhị phân từ một số tính năng. Các hệ số của một hồi quy logistic (chính quy) có một ý nghĩa có thể giải thích?

Tôi nghĩ rằng họ có thể chỉ ra kích thước ảnh hưởng, với các tính năng được chuẩn hóa trước. Tuy nhiên, trong vấn đề của tôi, các hệ số dường như phụ thuộc một cách nhạy cảm vào các tính năng tôi chọn. Ngay cả dấu hiệu của các hệ số cũng thay đổi với các bộ tính năng khác nhau được chọn làm đầu vào.

Liệu nó có ý nghĩa để kiểm tra giá trị của các hệ số và cách chính xác để tìm các hệ số có ý nghĩa nhất và nêu ý nghĩa của chúng trong các từ là gì? Có phải một số mô hình được trang bị và dấu hiệu của các hệ số sai - ngay cả khi chúng sắp xếp phù hợp với dữ liệu?

(Tương quan cao nhất mà tôi có giữa các tính năng chỉ là 0,25, nhưng điều đó chắc chắn có vai trò?)


Bạn có thể làm rõ những gì bạn có nghĩa là thường xuyên? Bạn có thời hạn phạt L2 không, và nếu vậy bạn đã tìm kiếm yếu tố tối ưu, ví dụ như bằng xác nhận chéo?
seanv507

Có, tôi cho phép các điều khoản phạt L2 trên các hệ số. Tôi đã tìm kiếm hệ số chính quy tối ưu, nhưng tôi chưa sử dụng lựa chọn tính năng (như lựa chọn chuyển tiếp). Tuy nhiên, nó làm tôi cảm thấy không chắc chắn về nó, vì các hệ số phụ thuộc rất nhạy cảm vào sự lựa chọn các tính năng mà tôi đưa vào. Giả sử rằng mỗi tính năng có tác động tích cực hoặc tiêu cực của lớp tích cực, làm thế nào tôi có thể xác định sức mạnh và hướng của chúng?
Gerenuk

Câu trả lời:


14

Các hệ số từ đầu ra thực sự có ý nghĩa, mặc dù nó không trực quan với hầu hết mọi người và chắc chắn không phải với tôi. Đó là lý do tại sao mọi người thay đổi chúng theo tỷ lệ cược. Tuy nhiên, nhật ký của tỷ lệ cược là hệ số; tương tự, các hệ số lũy thừa là tỷ lệ cược.

Các hệ số là hữu ích nhất để cắm vào các công thức đưa ra xác suất dự đoán là ở mỗi cấp của biến phụ thuộc.

ví dụ như trong R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

Ước tính tham số cho tuổi là 1,64. Điều đó có nghĩa là gì? Chà, nếu bạn kết hợp nó với ước tính tham số cho phần chặn (-21,24), bạn có thể nhận được một công thức dự đoán khả năng của kinh nguyệt:

P(M)= =11+e21,24-1,64*mộtge

e1,64= =5.16


4

Giải thích trực tiếp các hệ số là khó khăn và có thể gây hiểu nhầm. Bạn không có gì đảm bảo về việc trọng số được chỉ định giữa các biến.

Ví dụ nhanh, tương tự như tình huống bạn mô tả: Tôi đã làm việc trên một mô hình tương tác của người dùng với một trang web. Mô hình đó bao gồm hai biến đại diện cho số lần "nhấp chuột" trong giờ đầu tiên và trong giờ thứ hai của phiên người dùng. Các biến này có mối tương quan cao với nhau. Nếu cả hai hệ số cho các biến đó đều dương thì chúng ta có thể dễ dàng đánh lừa chính mình và tin rằng có thể hệ số cao hơn cho thấy tầm quan trọng "cao hơn". Tuy nhiên, bằng cách thêm / xóa kháccác biến chúng ta có thể dễ dàng kết thúc với một mô hình trong đó biến đầu tiên có dấu dương và biến âm khác. Lý do chúng tôi kết thúc là vì có một số mối tương quan đáng kể (mặc dù thấp) giữa hầu hết các cặp biến có sẵn, chúng tôi không thể có kết luận an toàn nào về tầm quan trọng của các biến sử dụng các hệ số (vui lòng học hỏi từ cộng đồng nếu giải thích này là chính xác).

Nếu bạn muốn có được một mô hình trong đó việc giải thích một ý tưởng dễ dàng hơn là sử dụng Lasso (tối thiểu hóa định mức L1). Điều đó dẫn đến các giải pháp thưa thớt là các biến ít tương quan với nhau. Tuy nhiên, cách tiếp cận đó sẽ không dễ dàng chọn cả hai biến của ví dụ trước - một biến sẽ không bị ảnh hưởng.

Nếu bạn chỉ muốn đánh giá tầm quan trọng của các biến cụ thể hoặc bộ biến, tôi khuyên bạn nên sử dụng trực tiếp một số phương pháp lựa chọn tính năng. Cách tiếp cận như vậy dẫn đến những hiểu biết có ý nghĩa hơn nhiều và thậm chí xếp hạng toàn cầu về tầm quan trọng của các biến dựa trên một số tiêu chí.


0

Các hệ số chắc chắn có một ý nghĩa. Trong một số gói phần mềm, mô hình có thể được định hướng theo một trong hai cách để tạo ra một trong hai loại hệ số. Ví dụ, trong Stata, người ta có thể sử dụng lệnh Logistic hoặc lệnh logit; khi sử dụng một, mô hình đưa ra các hệ số truyền thống, trong khi sử dụng mô hình kia, mô hình đưa ra tỷ lệ cược.

Bạn có thể thấy rằng cái này có ý nghĩa với bạn hơn cái kia.

Về câu hỏi của bạn rằng "... hệ số dường như phụ thuộc vào độ nhạy ...".

Bạn đang nói rằng kết quả phụ thuộc vào biến bạn đặt trong mô hình?

Nếu vậy, vâng, đây là một thực tế của cuộc sống khi thực hiện phân tích hồi quy. Lý do cho điều này là phân tích hồi quy đang xem xét một loạt các con số và nghiền nát chúng theo cách tự động.

Các kết quả phụ thuộc vào cách các biến có liên quan với nhau và vào các biến không được đo. Đó là một nghệ thuật cũng như một khoa học.

Hơn nữa, nếu mô hình có quá nhiều yếu tố dự đoán so với kích thước mẫu, các dấu hiệu có thể đảo ngược một cách điên rồ - tôi nghĩ rằng điều này nói rằng mô hình đang sử dụng các biến có ảnh hưởng nhỏ để "điều chỉnh" ước tính của chúng có tác dụng lớn (như núm điều chỉnh âm lượng nhỏ để hiệu chỉnh nhỏ). Khi điều này xảy ra, tôi có xu hướng không tin tưởng các biến với các hiệu ứng nhỏ.

Mặt khác, có thể các dấu hiệu ban đầu thay đổi, khi bạn thêm các dự đoán mới, bởi vì bạn đang tiến gần hơn đến sự thật nhân quả.

Ví dụ: hãy tưởng tượng rằng Greenland Brandy có thể không tốt cho sức khỏe của một người nhưng thu nhập lại tốt cho sức khỏe của một người. Nếu thu nhập bị bỏ qua và những người giàu hơn uống Brandy, thì người mẫu có thể "thu nhận" ảnh hưởng thu nhập bị bỏ qua và "nói" rằng rượu tốt cho sức khỏe của bạn.

Không có nghi ngờ gì về nó, đó là một thực tế của cuộc sống mà các hệ số phụ thuộc vào các biến khác được bao gồm. Để tìm hiểu thêm, hãy xem xét "thiên vị biến bị bỏ qua" và "mối quan hệ giả". Nếu bạn chưa gặp phải những ý tưởng này trước đây, hãy thử tìm giới thiệu về các khóa học thống kê đáp ứng nhu cầu của bạn - điều này có thể tạo ra sự khác biệt lớn trong việc thực hiện các mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.