Một phân tích lý thuyết tốt về có và không có các lược đồ thay thế trong bối cảnh các thuật toán lặp dựa trên các lần rút ngẫu nhiên (có bao nhiêu mạng lưới thần kinh sâu phân biệt (DNN) được đào tạo chống lại) có thể được tìm thấy ở đây
Nói tóm lại, hóa ra việc lấy mẫu mà không thay thế, dẫn đến sự hội tụ nhanh hơn so với lấy mẫu bằng thay thế.
Tôi sẽ đưa ra một phân tích ngắn ở đây dựa trên ví dụ về đồ chơi mà họ cung cấp: Hãy nói rằng chúng tôi muốn tối ưu hóa chức năng mục tiêu sau:
xopt=argminx12∑i=1N(x−yi)2
trong đó mục tiêu . Trong ví dụ này, chúng tôi đang cố gắng giải quyết nhãn tối ưu , chox N y iyi∼N(μ,σ2)xNyi .
Ok, vì vậy nếu chúng ta trực tiếp giải quyết tối ưu ở trên, thì chúng ta sẽ lấy đạo hàm của hàm mất ở đây, đặt nó thành 0 và giải choxxx . Vì vậy, ví dụ của chúng tôi ở trên, mất mát là
L=12∑i=1N(x−yi)2
và nó là phái sinh đầu tiên sẽ là:
δLδx=∑i=1N(x−yi)
Đặt thành 0 và giải quyết cho xδLδxx , mang lại:
xopt=1N∑i=1Nyi
Nói cách khác, giải pháp tối ưu không gì khác ngoài giá trị trung bình mẫu của tất cả các mẫu củayNy .
Bây giờ, nếu chúng ta không thể thực hiện tất cả các tính toán trên cùng một lúc, chúng ta sẽ phải thực hiện đệ quy, thông qua phương trình cập nhật gốc dốc bên dưới:
xi=xi−1−λi∇(f(xi−1))
và chỉ cần chèn các điều khoản của chúng tôi ở đây mang lại:
xi=xi−1−λi(xi−1−yi)
Nếu chúng tôi chạy ở trên cho tất cả , thì chúng tôi đang thực hiện hiệu quả bản cập nhật này mà không cần thay thế. Sau đó, câu hỏi trở thành, chúng ta có thể nhận được giá trị tối ưu của theo cách này không? (Hãy nhớ rằng giá trị tối ưu của không là gì ngoài giá trị trung bình mẫu của ). Câu trả lời là có, nếu bạn để . Để xem, điều này chúng tôi mở rộng: x x y λ i = 1 / ii∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
Tuy nhiên, phương trình cuối cùng không có gì ngoài công thức tính trung bình! Do đó, khi chúng tôi lặp lại tập hợp từ , , v.v., tất cả các cách để , chúng tôi sẽ thực hiện các cập nhật của mình mà không cần thay thế và công thức cập nhật của chúng tôi cung cấp cho chúng tôi giải pháp tối ưu là , đó là ý nghĩa mẫu!i = 2 i = N xi=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
Tuy nhiên, ngược lại, nếu chúng ta thực sự vẽ bằng thay thế, thì trong khi các lần rút của chúng ta sẽ thực sự độc lập, giá trị tối ưu sẽ khác với trung bình (tối ưu) và lỗi vuông sẽ được đưa ra bởi:xNμ
E{(xN−μ)2}
đó sẽ là một giá trị tích cực và ví dụ đồ chơi đơn giản này có thể được mở rộng đến các kích thước cao hơn. Điều này có hậu quả là chúng tôi muốn thực hiện lấy mẫu mà không cần thay thế như một giải pháp tối ưu hơn.
Hy vọng điều này làm rõ nó thêm một số!