Tại sao k-nghĩa là không được tối ưu hóa bằng cách sử dụng độ dốc?

Tôi biết phương tiện k thường được tối ưu hóa bằng cách sử dụng Tối đa hóa kỳ vọng . Tuy nhiên, chúng tôi có thể tối ưu hóa chức năng mất của nó giống như cách chúng tôi tối ưu hóa bất kỳ chức năng nào khác!

Tôi đã tìm thấy một số bài báo thực sự sử dụng gốc dốc ngẫu nhiên cho phương tiện k quy mô lớn, nhưng tôi không thể trả lời câu hỏi của mình.

Vì vậy, có ai biết tại sao lại như vậy không? Có phải vì Tối đa hóa kỳ vọng hội tụ nhanh hơn ? Nó có bất kỳ đảm bảo cụ thể? Hay đó là một lý do lịch sử ?

— elsonidoq
nguồn

Bước tối đa hóa đã leo lên độ dốc khả năng (có điều kiện dựa trên các giá trị được chọn bởi bước kỳ vọng), phải không?

— David J. Harris

@ DavidJ.Harris Tôi không nghĩ rằng OP đang tranh cãi rằng EM hành xử như vậy, nhưng hỏi tại sao một phương pháp dường như được sử dụng rộng rãi và một phương pháp khác không được sử dụng nhiều. Nhận xét của bạn dường như không trực tiếp giải quyết lý do tại sao EM có thể được ưa thích.

— Glen_b -Reinstate Monica

Xin chào @ DavidJ.Harris, nó giống như Glen_b, tôi hiểu rằng cả hai thuật toán đều tối ưu hóa khả năng (EM) hoặc khả năng đăng nhập (độ dốc gốc). Sau khi đào sâu vào google và bạn bè, tôi đã nhận được liên kết giấy này cho dù câu hỏi này được giải quyết. Nếu tôi không hiểu, EM sẽ tìm ra giải pháp tốt hơn là giảm độ dốc.

— elsonidoq

Hàm mục tiêu cho phương tiện k để tối ưu hóa là gì? Có khác biệt không?

— Vladislavs Dovgalecs

Nó có thể được phân biệt rõ ràng trong các tham số (phương tiện cụm) nhưng chắc chắn không phải trong các bài tập cụm (đó là các biến chỉ báo đa phương thức)?

— Ruben van Bergen

Câu trả lời:

Như OP đề cập, có thể giải quyết phương tiện k bằng cách sử dụng độ dốc và điều này có thể hữu ích trong trường hợp có vấn đề ở quy mô lớn.

Chắc chắn có những lý do lịch sử cho sự phổ biến của các thuật toán kiểu EM để giải các phương tiện k (tức là thuật toán của Lloyd). Thuật toán của Lloyd phổ biến đến mức đôi khi mọi người gọi nó là "thuật toán k-mean" và thậm chí có thể không biết rằng các phương pháp khác tồn tại. Nhưng, sự phổ biến này không được đánh giá cao.

Bottou và Bengio (1995) đã chỉ ra rằng thuật toán của Lloyd tương đương với việc tối ưu hóa hàm chi phí k-mean bằng phương pháp của Newton. Trong các vấn đề tối ưu hóa chung, các phương thức bậc hai như phương pháp của Newton có thể hội tụ nhanh hơn các phương thức bậc nhất như giảm độ dốc vì chúng khai thác thông tin về độ cong của hàm mục tiêu (và các phương thức bậc nhất không). Trong một thử nghiệm trên bộ dữ liệu Iris nổi tiếng, họ đã chỉ ra rằng thuật toán của Lloyd thực sự hội tụ nhanh hơn so với độ dốc. Sẽ rất thú vị khi xem so sánh này trên nhiều bộ dữ liệu khác nhau.

Người giới thiệu:

Bottou và Bengio (1995) . Tính chất hội tụ của các thuật toán k-mean.

— người dùng20160
nguồn

Phân cụm K-nghĩa là không được giám sát và kỹ thuật không giám sát gần nhất sử dụng EM là phân cụm dựa trên mô hình (mô hình hỗn hợp Gaussian, GMM). Một vấn đề khó chịu với phân cụm dựa trên mô hình GMM xảy ra khi nhiều tính năng tương quan với nhau, điều này gây ra sự gần giống nhau trong ma trận hiệp phương sai (tương quan) dựa trên tính năng. Trong tình huống này, chức năng khả năng trở nên không ổn định, với các chỉ số điều kiện đạt đến vô hạn, khiến GMM bị phá vỡ hoàn toàn.

Do đó, bỏ ý tưởng về EM và kNN - vì nó dựa trên ma trận hiệp phương sai (tương quan) để phân tích không giám sát. Yêu cầu của bạn về tối ưu hóa gần giống với ánh xạ Sammon, và tỷ lệ đa chiều cổ điển và phi tỷ lệ (MDS). Ánh xạ Sammon dựa trên đạo hàm dựa trên đạo hàm, trong khi các dạng MDS khác nhau thường là lặp đi lặp lại hoặc một bước eigendecro, tuy nhiên có thể tối ưu hóa trong hoạt động ma trận một bước.

Nhìn lại yêu cầu của bạn: câu trả lời là: nó đã được thực hiện trong ánh xạ Sammon.

— JoleT
nguồn