Trắc nghiệm: Nói với bộ phân loại theo ranh giới quyết định của nó


17

Đưa ra là 6 ranh giới quyết định dưới đây. Ranh giới quyết định là dòng violett. Dấu chấm và dấu chéo là hai bộ dữ liệu khác nhau. Chúng ta phải quyết định cái nào là:

  • SVM tuyến tính
  • Hạt nhân SVM (Hạt nhân đa thức bậc 2)
  • Perceptionron
  • Hồi quy logistic
  • Mạng thần kinh (1 lớp ẩn với 10 đơn vị tuyến tính được chỉnh lưu)
  • Mạng nơ-ron (1 lớp ẩn với 10 đơn vị tanh)

Tôi muốn có các giải pháp. Nhưng quan trọng hơn, hiểu sự khác biệt. Ví dụ, tôi sẽ nói c) là một SVM tuyến tính. Ranh giới quyết định là tuyến tính. Nhưng chúng ta cũng có thể đồng nhất hóa tọa độ của ranh giới quyết định SVM tuyến tính. d) SVM Kernelized, vì nó là thứ tự đa thức 2. f) Mạng nơ ron được chỉnh lưu do các cạnh "thô". Có thể a) hồi quy logistic: Nó cũng là phân loại tuyến tính, nhưng dựa trên xác suất.

Ranh giới quyết định


1
Vui lòng thêm [self-study]thẻ và đọc wiki của nó . Chúng tôi sẽ cung cấp gợi ý để giúp bạn có được unstuck.
gung - Phục hồi Monica

Nhưng không phải là tập thể dục tôi phải nộp. Tôi đọc bài tự học, nhưng tôi nghĩ bài của tôi ổn chứ? Tôi bao gồm suy nghĩ của riêng tôi và tôi cũng nghĩ về nó. Tôi nghĩ có lẽ ví dụ này cũng thú vị cho những người khác.
Miau Piau

1
Cảm ơn bạn đã thêm thẻ. Đây không phải là một bài tập cho chính sách của chúng tôi để áp dụng. Đây là một câu hỏi hay; Tôi ủng hộ nó và không bỏ phiếu để đóng.
gung - Phục hồi Monica

1
Nó có thể giúp giải thích những gì các lô thể hiện. Tôi nghĩ rằng các điểm là hai bộ dữ liệu được sử dụng cho đào tạo và đường là ranh giới giữa các khu vực nơi một điểm mới sẽ được phân loại thành một hoặc nhóm khác. Có đúng không?
Andy Clifton

1
Đây có lẽ là câu hỏi hay nhất tôi từng thấy trên bất kỳ bảng Stackoverflow / Stackexchange nào trong 5 năm qua. Thật đáng ngạc nhiên, sẽ có những trò đùa mã Javascript trên Stackoverflow, người sẽ đóng câu hỏi này vì "quá rộng".
stackoverflowuser2010

Câu trả lời:


9

Thực sự thích câu hỏi này!

Điều đầu tiên xuất hiện trong tâm trí là sự phân chia giữa các phân loại tuyến tính và phi tuyến tính. Ba phân loại là tuyến tính (svm tuyến tính, perceptron và hồi quy logistic) và ba lô hiển thị ranh giới quyết định tuyến tính ( A , B , C ). Vì vậy, hãy bắt đầu với những người.

Tuyến tính

Biểu đồ tuyến tính ổn định nhất là biểu đồ B vì nó có đường thẳng có độ dốc. Điều này là kỳ quặc đối với hồi quy logistic và svm bởi vì chúng có thể cải thiện các hàm mất mát của chúng nhiều hơn bằng cách là một đường thẳng (nghĩa là cách xa (tất cả) các điểm). Do đó, âm mưu B là tri giác. Vì tham số perceptron là 0 hoặc 1, nên tất cả các giải pháp tách biệt một lớp với nhau đều tốt như nhau. Đó là lý do tại sao nó không cải thiện thêm nữa.

Sự khác biệt giữa cốt truyện _A) và C tinh tế hơn. Ranh giới quyết định là hơi thấp hơn trong cốt truyện Một . Một SVM như một số vectơ hỗ trợ cố định trong khi hàm mất của hồi quy logistic được xác định tất cả các điểm. Vì có nhiều dấu chéo màu đỏ hơn hồi quy logistic chấm màu xanh tránh các dấu chéo màu đỏ nhiều hơn dấu chấm màu xanh. SVM tuyến tính chỉ cố gắng ở cách xa các vectơ hỗ trợ màu đỏ như từ các vectơ hỗ trợ màu xanh. Đó là lý do tại sao âm mưu A là ranh giới quyết định của hồi quy logistic và âm mưu C được tạo bằng cách sử dụng một SVM tuyến tính.

Phi tuyến tính

Hãy tiếp tục với các sơ đồ và phân loại phi tuyến tính. Tôi đồng ý với quan sát của bạn rằng cốt truyện F có lẽ là ReLu NN vì nó có ranh giới sắc nét nhất. Đơn vị ReLu vì được kích hoạt cùng một lúc nếu kích hoạt vượt quá 0 và điều này khiến đơn vị đầu ra đi theo một đường tuyến tính khác. Nếu bạn trông thực sự, thực sự tốt, bạn có thể phát hiện ra khoảng 8 thay đổi hướng trong dòng để có thể 2 đơn vị có ít tác động đến kết quả cuối cùng. Vậy lô F là ReLu NN.

Về hai cái cuối tôi không chắc lắm. Cả một tanh NN và SVM nhân đa thức có thể có nhiều ranh giới. Lô D rõ ràng là được phân loại tồi tệ hơn. Một tanh NN có thể cải thiện tình huống này bằng cách uốn cong các đường cong khác nhau và đặt nhiều điểm màu xanh hoặc đỏ hơn ở khu vực bên ngoài. Tuy nhiên, cốt truyện này là loại lạ. Tôi đoán phần trên bên trái được phân loại là màu đỏ và phần dưới bên phải là màu xanh. Nhưng làm thế nào là phần giữa được phân loại? Nó nên có màu đỏ hoặc màu xanh, nhưng sau đó một trong những ranh giới quyết định không nên được rút ra. Do đó, lựa chọn duy nhất có thể là các phần bên ngoài được phân loại thành một màu và phần bên trong là màu khác. Điều đó thật lạ và thật tệ. Vì vậy, tôi không chắc chắn về điều này.

Hãy nhìn vào cốt truyện E . Nó có cả đường cong và đường thẳng. Đối với một SVM nhân 2 độ, rất khó (gần như không thể) có ranh giới quyết định đường thẳng vì khoảng cách bình phương dần dần ủng hộ 1 trong 2 lớp. Các chức năng kích hoạt tanh di chuột có thể được bão hòa sao cho trạng thái ẩn bao gồm 0 và 1. Trong trường hợp sau đó chỉ có 1 đơn vị sau đó thay đổi trạng thái của nó thành 0,5. Bạn có thể nhận được một ranh giới quyết định tuyến tính. Vì vậy, tôi sẽ nói rằng âm mưu E là một tanh NN và do đó, âm mưu D là một SVM được nhân. Để xấu cho SVM cũ nghèo mặc dù.

Kết luận

Một - Logistic Regression
B - Perceptron
C - Tuyến tính SVM
D - Kernelized SVM (kernel Đa thức về trật tự 2)
E - Neural Network (1 ẩn lớp với 10 đơn vị tanh)
F - Neural Network (1 lớp ẩn với 10 sửa chữa tuyến tính đơn vị)


Cảm ơn bạn đã trả lời rất tốt đẹp. Tôi cũng thích câu hỏi. Nó đưa ra quan điểm mới về các phân loại. SVM có lề tối đa và do đó, có nghĩa là dòng nằm ở giữa dữ liệu. Nhưng tại sao điều này cũng đúng với hồi quy logistic?
Miau Piau

Ý bạn là tại sao nó thẳng? Hay tại sao nó ở giữa?
Pieter

Bạn nói rằng "họ có thể cải thiện chức năng mất mát của mình nhiều hơn bằng cách là một đường thẳng" - tại sao điều này là cho hồi quy logistic?
Miau Piau

1
Về lý thuyết, đây là giải pháp tốt nhất vì một đường dốc sẽ làm giảm xác suất chính xác của lớp gần hơn nhanh hơn làm tăng xác suất của lớp ở xa hơn.
Pieter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.