Tại sao thuật ngữ sai lệch trong SVM được ước tính riêng, thay vì một thứ nguyên phụ trong vectơ đặc trưng?


11

Siêu phẳng tối ưu trong SVM được định nghĩa là:

wx+b=0,

trong đó đại diện cho ngưỡng. Nếu chúng ta có một số ánh xạ \ mathbf \ phi ánh xạ không gian đầu vào sang một số không gian Z , chúng ta có thể định nghĩa SVM trong không gian Z , trong đó máy bay phản lực tối ưu sẽ là:bϕZZ

wϕ(x)+b=0.

Tuy nhiên, chúng ta luôn có thể xác định ánh xạ ϕ sao cho ϕ0(x)=1 , x , và sau đó hiperplane tối ưu sẽ được xác định là

wϕ(x)=0.

Câu hỏi:

  1. Tại sao nhiều bài viết sử dụng wϕ(x)+b=0 khi họ đã có ánh xạ ϕ và ước tính các tham số w và ngưỡng b tách rời?

  2. Có một số vấn đề khi định nghĩa SVM là

    minw||w||2
    s.t. ynwϕ(xn)1,n
    và chỉ ước tính vectơ tham số w , giả sử rằng chúng ta xác định ϕ0(x)=1,x ?
  3. Nếu định nghĩa về SVM từ câu hỏi 2. có thể, chúng ta sẽ có w=nynαnϕ(xn) và ngưỡng sẽ chỉ đơn giản là b=w0 , mà chúng ta sẽ không xử lý riêng. Vì vậy, chúng tôi sẽ không bao giờ sử dụng công thức như b=tnwϕ(xn) để ước tính b từ một số vectơ hỗ trợ xn . Đúng?


Câu trả lời:


12

Tại sao thiên vị là quan trọng?

Thuật ngữ thiên vị thực sự là một tham số đặc biệt trong SVM. Không có nó, bộ phân loại sẽ luôn đi qua nguồn gốc. Vì vậy, SVM không cung cấp cho bạn siêu phẳng tách biệt với lề tối đa nếu nó không xảy ra để đi qua gốc, trừ khi bạn có một thuật ngữ sai lệch.b

Dưới đây là một hình dung của vấn đề thiên vị. Một SVM được đào tạo với (không có) một thuật ngữ thiên vị được hiển thị bên trái (bên phải). Mặc dù cả hai SVM đều được đào tạo trên cùng một dữ liệu , tuy nhiên, chúng trông rất khác nhau.

nhập mô tả hình ảnh ở đây

Tại sao sự thiên vị nên được điều trị riêng?

Như Ben DAI đã chỉ ra, thuật ngữ thiên vị nên được xử lý riêng vì chính quy. SVM tối đa hóa kích thước lề, đó là (hoặc tùy thuộc vào cách bạn xác định nó).b1||w||22||w||2

Tối đa hóa lề cũng giống như tối thiểu hóa . Đây cũng được gọi là thuật ngữ chính quy và có thể được hiểu là thước đo độ phức tạp của phân loại. Tuy nhiên, bạn không muốn thường xuyên hóa thuật ngữ thiên vị bởi vì, độ lệch làm thay đổi điểm số phân loại lên hoặc xuống cùng một lượng cho tất cả các điểm dữ liệu . Cụ thể, độ lệch không thay đổi hình dạng của phân loại hoặc kích thước lề của nó. Vì thế, ...||w||2

thuật ngữ thiên vị trong SVM KHÔNG nên được thường xuyên.

Tuy nhiên, trên thực tế, việc đẩy sự thiên vị vào vectơ đặc trưng sẽ dễ dàng hơn thay vì phải xử lý như một trường hợp đặc biệt.

Lưu ý: khi đẩy độ lệch cho hàm tính năng, tốt nhất là sửa kích thước đó của vectơ đặc trưng thành một số lớn, ví dụ , để giảm thiểu tác dụng phụ của việc chuẩn hóa độ lệch.ϕ0(x)=10


Chương trình nào bạn đã sử dụng để tạo ra các âm mưu, vì tò mò?
d0rmLife

1
@ d0rmLife: đây chỉ là phim hoạt hình mà tôi đã tạo bằng MS PowerPoint!
Sobi


1

Đôi khi, mọi người sẽ bỏ qua phần chặn trong SVM, nhưng tôi nghĩ lý do có thể chúng ta có thể xử phạt chặn để bỏ qua nó. I E,

chúng ta có thể sửa đổi dữ liệu và để bỏ qua phần chặn Như bạn cho biết, kỹ thuật tương tự có thể được sử dụng trong phiên bản kernel.x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Tuy nhiên, nếu chúng ta đặt chặn ở các trọng số, hàm mục tiêu sẽ hơi khác với trọng số ban đầu. Đó là lý do tại sao chúng tôi gọi là "phạt".


Tôi đồng ý rằng chúng ta sẽ có các chức năng khách quan khác nhau. Trường hợp khi chúng tôi không bao gồm chặn trong các tham số dẫn đến vấn đề tối ưu hóa chủ đề bị ràng buộc, trong khi nếu không, chúng tôi có vấn đề . Nhưng, tôi không hiểu tại sao việc can thiệp nhiều hay ít lại quan trọng đối với mô hình. bminw,b||w||2minw,b||w||2+b2
Dejan

Điều tôi nghĩ đến, đó là lý do chính khiến chúng ta giao nhau có lẽ là do trong vấn đề kép, việc chặn cho phép chúng ta có ràng buộc , điều quan trọng là áp dụng thuật toán SMO và nếu chúng ta không chặn chúng ta sẽ chỉ có các hằng và việc tối ưu hóa kép sẽ khó hơn trong trường hợp đó. αntn=0αn0
Dejan

@Petar Một điều tôi biết là nó trở nên mạnh mẽ khi chúng ta xem xét về hình thức Dual của mô hình này. Kỹ thuật này sẽ loại bỏ các ràng buộc tuyến tính.
Bến Đại

@Petar Tôi không nghĩ việc tối ưu hóa kép sẽ khó hơn vì chúng ta có miền dễ dàng hơn.
Bến Đại

@Petar Đối với thuật toán cụ thể, nó có thể khó hơn. Tuy nhiên, về mặt toán học, tôi nghĩ tên miền hộp có thể tốt hơn :)
Ben Dai

0

Ngoài các lý do đã đề cập ở trên, khoảng cách của một điểm đến một siêu phẳng được xác định bởi độ dốc và chặn là Đây là cách khái niệm ký quỹ trong SVM được dịch chuyển. Nếu bạn thay đổi để bao gồm thuật ngữ chặn , định mức của sẽ bị ảnh hưởng bởi kích thước của phần chặn, điều này sẽ khiến SVM tối ưu hóa theo hướng chặn nhỏ, điều này không có ý nghĩa trong nhiều trường hợp.xθb

|θTx+b|||θ||
θbθ


Thậm chí nghĩ rằng khoảng cách của một điểm đến một siêu phẳng là chính xác và lời giải thích có vẻ thú vị, tôi không thấy mối tương quan giữa công thức này và đào tạo các SVM. Bạn có thể giải thích rõ hơn về cách sử dụng công thức này trong quá trình đào tạo hoặc cung cấp một số liên kết bổ sung.
Dejan

@Dejan Ý tưởng đằng sau một SVM là tìm siêu phẳng tối đa hóa lề tối thiểu của một tập dữ liệu. Lề là "khoảng cách" ( , không lấy giá trị tuyệt đối, điều này cho thấy độ tin cậy của bộ phân loại đối với giả thuyết của nó) nhân nhãn của nó, trong . Sản phẩm là , là số dương nếu đầu ra phân loại khớp với nhãn và ngược lại. Trong thực tế, chúng tôi chỉ đơn giản chia tỷ lệ mô hình của mình sao cho lề tối thiểu của tập dữ liệu là . θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||
charlieh_7

@Dejan bạn có thể tìm thêm chi tiết trong Ghi chú của Andrew Ng: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.