Tại sao giải pháp bình phương nhỏ nhất cho kết quả kém trong trường hợp này?


21

Có một hình ảnh trong trang 204, chương 4 của "nhận dạng mẫu và học máy" của Giám mục nơi tôi không hiểu tại sao giải pháp Least vuông cho kết quả kém ở đây:

nhập mô tả hình ảnh ở đây

Đoạn trước nói về thực tế là các giải pháp bình phương nhỏ nhất thiếu sự mạnh mẽ đối với các ngoại lệ như bạn thấy trong hình ảnh sau, nhưng tôi không hiểu những gì đang diễn ra trong hình ảnh khác và tại sao LS cũng cho kết quả kém ở đó.

nhập mô tả hình ảnh ở đây


Có vẻ như đây là một phần của chương về phân biệt đối xử giữa các bộ. Trong cặp biểu đồ đầu tiên của bạn, biểu đồ bên trái rõ ràng không phân biệt rõ giữa ba bộ điểm. Điều đó có trả lời câu hỏi của bạn không? Nếu không, bạn có thể làm rõ nó?
Peter Flom - Tái lập Monica

@PeterFlom: Giải pháp LS cho kết quả kém cho lần đầu tiên, tôi muốn biết lý do. Và vâng, đó là đoạn cuối cùng của phần về phân loại LS trong đó toàn bộ chương nói về các hàm phân biệt tuyến tính.
Gigili

Câu trả lời:


6

3

Trong ESL , Hình 4.2 trên trang 105, hiện tượng này được gọi là mặt nạ . Xem thêm ESL Hình 4.3. Giải pháp bình phương tối thiểu dẫn đến một công cụ dự đoán cho lớp trung gian chủ yếu bị chi phối bởi các yếu tố dự đoán cho hai lớp khác. LDA hoặc hồi quy logistic không gặp phải vấn đề này. Người ta có thể nói rằng chính cấu trúc cứng nhắc của mô hình tuyến tính của xác suất lớp (về cơ bản là những gì bạn nhận được từ mức bình phương nhỏ nhất phù hợp) gây ra mặt nạ.

-

Chỉnh sửa: Masking có lẽ dễ hình dung nhất cho một vấn đề hai chiều, nhưng nó cũng là một vấn đề trong trường hợp một chiều, và ở đây toán học đặc biệt dễ hiểu. Giả sử rằng các biến đầu vào một chiều được sắp xếp là

x1<Giáo dục<xk<y1<Giáo dụcym<z1<Giáo dục<zn

xyz

1Giáo dục10Giáo dục00Giáo dục0TT0Giáo dục01Giáo dục10Giáo dục00Giáo dục00Giáo dục01Giáo dục1xTx1Giáo dụcxky1Giáo dụcymz1Giáo dụczn

Txxzy-Lớp, hồi quy tuyến tính sẽ phải cân bằng các số 0 cho hai lớp bên ngoài với các lớp trong lớp trung lưu dẫn đến một đường hồi quy khá phẳng và phù hợp đặc biệt với xác suất của lớp có điều kiện cho lớp này. Hóa ra, tối đa của các đường hồi quy cho hai lớp bên ngoài chi phối đường hồi quy cho lớp trung lưu đối với hầu hết các giá trị của biến đầu vào và lớp giữa được che bởi các lớp bên ngoài.

nhập mô tả hình ảnh ở đây

k= =m= =n(x¯,1/3)

x¯= =13k(x1+Giáo dục+xk+y1+Giáo dục+ym+z1+Giáo dục+zn).

2

Dựa trên liên kết được cung cấp dưới đây, lý do tại sao LS phân biệt đối xử không hoạt động tốt trong biểu đồ phía trên bên trái như sau: -
Thiếu sự mạnh mẽ đối với các ngoại lệ.
- Một số bộ dữ liệu không phù hợp để phân loại bình phương tối thiểu.
- Ranh giới quyết định tương ứng với giải pháp ML theo phân phối có điều kiện Gaussian. Nhưng các giá trị đích nhị phân có phân phối xa Gaussian.

Nhìn vào trang 13 trong Nhược điểm của Least Squares.


1

Tôi tin rằng vấn đề trong biểu đồ đầu tiên của bạn được gọi là "che giấu" và nó được đề cập trong "Các yếu tố của học thống kê: Khai thác dữ liệu, suy luận và dự đoán" (Hastie, Tibshirani, Friedman. Springer 2001), trang 83-84.

Theo trực giác (đó là điều tốt nhất tôi có thể làm) Tôi tin rằng điều này là do các dự đoán về hồi quy OLS không bị giới hạn ở [0,1], do đó bạn có thể kết thúc với dự đoán -0,33 khi bạn thực sự muốn nhiều hơn 0 .. 1, mà bạn có thể phạt tiền trong trường hợp có hai lớp nhưng bạn càng có nhiều lớp thì khả năng không khớp này sẽ gây ra vấn đề. Tôi nghĩ.


1

Bình phương nhỏ nhất nhạy cảm với tỷ lệ (vì dữ liệu mới có tỷ lệ khác nhau, nó sẽ làm lệch ranh giới quyết định), người ta thường cần áp dụng trọng số (có nghĩa là dữ liệu để nhập vào thuật toán tối ưu hóa có cùng tỷ lệ) hoặc thực hiện chuyển đổi phù hợp (trung tâm trung bình, nhật ký (1 + dữ liệu) ... vv) trên dữ liệu trong các trường hợp đó. Có vẻ như Least Square sẽ hoạt động hoàn hảo nếu bạn yêu cầu nó thực hiện thao tác phân loại 3 trong trường hợp đó và hợp nhất hai lớp đầu ra cuối cùng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.