Tại sao thường xuyên hóa tất cả các tham số theo cùng một cách?


7

Câu hỏi của tôi liên quan đến chính quy trong hồi quy tuyến tính và hồi quy logistic. Tôi hiện đang làm tuần thứ 3 của khóa học Machine Learning của Andrew Ng trên Coursera. Tôi hiểu làm thế nào quá mức có thể là một vấn đề phổ biến và tôi có một số trực giác về cách thường xuyên có thể làm giảm quá mức. Câu hỏi của tôi là chúng ta có thể cải thiện các mô hình của mình bằng cách thường xuyên các tham số khác nhau theo những cách khác nhau không?


Thí dụ:

Giả sử chúng tôi đang cố gắng phù hợp với . Câu hỏi này là về lý do tại sao chúng tôi xử phạt các giá trị cao theo cùng cách xử phạt các giá trị cao .w0+w1x1+w2x2+w3x3+w4x4w1w2

Nếu chúng tôi không biết gì về cách các tính năng của chúng tôi được xây dựng, sẽ rất hợp lý khi xử lý tất cả chúng theo cùng một cách khi chúng tôi thực hiện chính quy: giá trị cao sẽ mang lại nhiều "hình phạt" cao giá trị .(x1,x2,x3,x4)w1w3

Nhưng hãy nói rằng chúng tôi có thêm thông tin: giả sử chúng tôi chỉ có 2 tính năng ban đầu: và . Một dòng nằm dưới tập huấn luyện của chúng tôi và chúng tôi muốn có một ranh giới quyết định có hình dạng nguệch ngoạc hơn, vì vậy chúng tôi đã xây dựng và . Bây giờ chúng ta có thể có các mô hình phức tạp hơn, nhưng chúng càng phức tạp, chúng ta càng có nguy cơ vượt quá mô hình của chúng ta vào dữ liệu đào tạo. Vì vậy, chúng tôi muốn đạt được sự cân bằng giữa giảm thiểu chức năng chi phí và giảm thiểu độ phức tạp của mô hình. Chà, các tham số thể hiện số mũ cao hơn ( , ) đang làm tăng đáng kể độ phức tạp của mô hình của chúng tôi. Vì vậy, chúng ta không nên phạt nhiều hơn cho ,x1x2x3= =x12x4= =x23x3x4w3w4giá trị nào hơn chúng ta phạt cho các giá trị ?w1,w2


1
Điều này là do chúng ta không biết nhiều hơn về một tính năng chuyển sang tính năng khác. Nhưng vâng, có các thuật toán như AROW (chính quy hóa trọng lượng thích ứng) mà tôi tin rằng thực hiện các trọng số khác nhau của các tính năng.
Vladislavs Dovgalecs

Câu trả lời:


4

Chà, các tham số thể hiện số mũ cao hơn (x3, x4) đang làm tăng đáng kể độ phức tạp của mô hình của chúng tôi. Vì vậy, chúng ta không nên phạt nhiều hơn đối với các giá trị w3, w4 cao hơn là chúng ta phạt đối với các giá trị w1, w2 cao?

Lý do chúng tôi nói rằng việc thêm các thuật ngữ bậc hai hoặc bậc ba làm tăng độ phức tạp của mô hình là vì nó dẫn đến một mô hình có nhiều tham số hơn. Chúng tôi không mong đợi một thuật ngữ bậc hai sẽ phức tạp hơn thuật ngữ tuyến tính. Một điều rõ ràng là, tất cả những thứ khác đều bằng nhau, một mô hình có nhiều đồng biến hơn thì phức tạp hơn.

Đối với các mục đích của chính quy hóa, người ta thường hủy bỏ tất cả các hiệp phương sai có giá trị trung bình và phương sai bằng nhau, do đó, một tiên nghiệm, chúng được coi là quan trọng như nhau. Trong thực tế, nếu một số đồng biến thực sự có mối quan hệ mạnh hơn với biến phụ thuộc so với các biến phụ thuộc khác, thì dĩ nhiên, quy trình chính quy sẽ không xử phạt các đồng biến đó một cách mạnh mẽ, bởi vì chúng sẽ có đóng góp lớn hơn cho phù hợp với mô hình.

Nhưng điều gì sẽ xảy ra nếu bạn thực sự nghĩ rằng một tiên nghiệm mà một đồng biến quan trọng hơn một đồng biến khác và bạn có thể định lượng niềm tin này, và bạn muốn mô hình phản ánh nó? Sau đó, những gì bạn có thể muốn làm là sử dụng một mô hình Bayes và điều chỉnh các mục sư cho các hệ số để phù hợp với niềm tin từ trước của bạn. Không phải ngẫu nhiên, một số quy trình chính quy hóa quen thuộc có thể được hiểu là trường hợp đặc biệt của các mô hình Bayes. Cụ thể, hồi quy sườn tương đương với một hệ số bình thường trước các hệ số và hồi quy lasso tương đương với hồi quy Laplacian trước.


"Chúng tôi không mong đợi một thuật ngữ bậc hai sẽ phức tạp hơn thuật ngữ tuyến tính." Điều này đi ngược lại với trực giác của tôi. Bạn có thể giải thích về nó?
Atte Juvonen

1
Tôi có thể trả lời, hơi gilbly, "Tại sao sẽ nó phức tạp hơn?" Nhưng để cung cấp một số trực giác, hãy tưởng tượng rằng hai nhà sinh vật học, Alice và Bob, đang nghiên cứu một số địa y xảy ra trong các ô vuông. Alice đại diện cho kích thước của mỗi miếng vá địa y với chiều dài bên, và Bob đại diện cho nó với diện tích. Vậy số của Bob là hình vuông của Alice. Nếu mỗi nhà sinh vật học xây dựng mô hình hồi quy với kích thước miếng vá địa y như một công cụ dự đoán, chắc chắn bạn sẽ không nói rằng mô hình của Bob phức tạp hơn Alice. Bạn cũng có thể lập luận rằng mô hình của A phức tạp hơn, bởi vì số của cô ấy là căn bậc hai.
Kodiologist

0

Những quan sát tuyệt vời. Để trả lời câu hỏi của bạn "Chúng ta có nên phạt 'thêm' không?" Chà, chúng ta có đạt được gì từ việc áp dụng hình phạt tiên nghiệm đối với một số biến không?

Chúng tôi thực hiện ngược lại trong thực tế, hãy nhớ nhân rộng các biến đầu vào thành cùng độ lớn. Các cường độ khác nhau mang lại cho một "tầm quan trọng" khác nhau đối với một số biến số. Chúng tôi không biết cái nào quan trọng và cái nào không. Có toàn bộ dòng nghiên cứu về việc tìm đúng 'tính năng' hoặc lựa chọn tính năng / học tập đại diện.

Vì vậy, đây là hai cách để nghĩ về nó.

Người ta có thể bắt đầu với một giả thuyết cơ sở tuyến tính đơn giản và không cần chính quy. Sau đó, có một giả thuyết khác về mô hình, lấy phương trình bậc hai và các tương tác khác của không gian đầu vào. Chắc chắn rồi. Sau đó thêm chính quy và như vậy. Vì vậy, 'tìm kiếm' này là đơn giản đến phức tạp. Thêm một cách tham số để làm điều đó vì bạn đưa ra các giả thuyết về cơ sở.

Hoặc, một cách khác 'không tham số' sẽ bắt đầu bằng một giả thuyết thực sự phức tạp và để cho việc chính quy hóa thực hiện công việc (ví dụ: xử phạt sự phức tạp và đi đến một cái gì đó đơn giản hơn) thông qua xác nhận chéo.

Quan điểm của chính quy hóa và phi khoa học là làm mọi thứ tự động. Hãy để máy làm việc.

Đây là một nguồn tốt về các chức năng cơ bản.

Và cuối cùng, không gian và chuẩn mực của sẽ làm mọi thứ rõ ràng hơn nữa.Lp

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.