".. vấn đề phân loại thông qua hồi quy .." bằng "hồi quy" Tôi sẽ giả sử bạn có nghĩa là hồi quy tuyến tính và tôi sẽ so sánh phương pháp này với phương pháp "phân loại" để phù hợp với mô hình hồi quy logistic.
Trước khi chúng ta làm điều này, điều quan trọng là phải làm rõ sự khác biệt giữa mô hình hồi quy và phân loại. Các mô hình hồi quy dự đoán một biến liên tục, chẳng hạn như lượng mưa hoặc cường độ ánh sáng mặt trời. Họ cũng có thể dự đoán xác suất, chẳng hạn như xác suất hình ảnh có chứa một con mèo. Mô hình hồi quy dự đoán xác suất có thể được sử dụng như một phần của phân loại bằng cách áp đặt quy tắc quyết định - ví dụ: nếu xác suất là 50% trở lên, hãy quyết định đó là con mèo.
Hồi quy logistic dự đoán xác suất, và do đó là một thuật toán hồi quy. Tuy nhiên, nó thường được mô tả như một phương pháp phân loại trong tài liệu học máy, bởi vì nó có thể (và thường được sử dụng) để tạo ra các phân loại. Ngoài ra còn có các thuật toán phân loại "đúng", chẳng hạn như SVM, chỉ dự đoán một kết quả và không cung cấp xác suất. Chúng tôi sẽ không thảo luận về loại thuật toán ở đây.
Hồi quy tuyến tính và logistic về các vấn đề phân loại
Như Andrew Ng giải thích , với hồi quy tuyến tính, bạn khớp một đa thức thông qua dữ liệu - giả sử, như trong ví dụ dưới đây, chúng ta khớp một đường thẳng qua {kích thước khối u, loại khối u} :
Ở trên, các khối u ác tính có và các khối u không ác tính có và đường màu xanh lá cây là giả thuyết của chúng tôi . Để đưa ra dự đoán chúng ta có thể nói rằng đối với bất kỳ khối u kích thước nhất định , nếu được lớn hơn chúng tôi dự đoán khối u ác tính, nếu không chúng tôi dự đoán lành tính.10h(x)xh(x)0.5
Có vẻ như chúng ta có thể dự đoán chính xác từng mẫu tập huấn luyện đơn lẻ, nhưng bây giờ chúng ta hãy thay đổi nhiệm vụ một chút.
Theo trực giác rõ ràng rằng tất cả các khối u lớn hơn ngưỡng nhất định là ác tính. Vì vậy, hãy thêm một mẫu khác với kích thước khối u lớn và chạy lại hồi quy tuyến tính:
Bây giờ phải của chúng tôi không còn hoạt động nữa. Để tiếp tục đưa ra dự đoán chính xác, chúng ta cần thay đổi nó thành hoặc một cái gì đó - nhưng đó không phải là cách thuật toán nên hoạt động.h(x)>0.5→malignanth(x)>0.2
Chúng ta không thể thay đổi giả thuyết mỗi khi có mẫu mới. Thay vào đó, chúng ta nên tìm hiểu nó từ dữ liệu tập huấn luyện, và sau đó (sử dụng giả thuyết chúng ta đã học) đưa ra dự đoán chính xác cho dữ liệu mà chúng ta chưa từng thấy trước đây.
Hy vọng điều này giải thích tại sao hồi quy tuyến tính không phù hợp nhất cho các vấn đề phân loại! Ngoài ra, bạn có thể muốn xem VI. Hồi quy logistic. Video phân loại trên ml- class.org giải thích ý tưởng chi tiết hơn.
BIÊN TẬP
xác suất đã hỏi những gì một phân loại tốt sẽ làm gì. Trong ví dụ cụ thể này, bạn có thể sẽ sử dụng hồi quy logistic có thể học được một giả thuyết như thế này (tôi chỉ đang thực hiện điều này):
Lưu ý rằng cả hồi quy tuyến tính và hồi quy logistic cung cấp cho bạn một đường thẳng (hoặc đa thức bậc cao hơn) nhưng các dòng đó có ý nghĩa khác nhau:
- h(x) cho nội suy hồi quy tuyến tính hoặc ngoại suy, đầu ra và dự đoán giá trị cho mà chúng ta chưa thấy. Nó đơn giản giống như cắm một mới và lấy số nguyên, và phù hợp hơn cho các nhiệm vụ như dự đoán, giả sử giá xe dựa trên {kích thước xe, tuổi xe}, v.v.xx
- h(x) cho hồi quy logistic cho bạn biết khả năng rằng thuộc lớp "tích cực". Đây là lý do tại sao nó được gọi là thuật toán hồi quy - nó ước tính một đại lượng liên tục, xác suất. Tuy nhiên, nếu bạn đặt ngưỡng cho xác suất, chẳng hạn như , bạn có được một bộ phân loại và trong nhiều trường hợp, đây là những gì được thực hiện với đầu ra từ mô hình hồi quy logistic. Điều này tương đương với việc đặt một dòng trên cốt truyện: tất cả các điểm nằm phía trên dòng phân loại thuộc về một lớp trong khi các điểm bên dưới thuộc về lớp khác.x h ( x ) > 0,5xh(x)>0.5
Vì vậy, điểm mấu chốt là trong kịch bản phân loại, chúng tôi sử dụng một lý do hoàn toàn khác và một thuật toán hoàn toàn khác so với trong kịch bản hồi quy.