Tôi nghĩ rằng về cơ bản bạn đã đánh vào đầu đinh trong câu hỏi, nhưng tôi sẽ xem liệu tôi có thể thêm cái gì không. Tôi sẽ trả lời điều này theo cách vòng vo ...
Lĩnh vực Thống kê Robust kiểm tra câu hỏi phải làm gì khi giả định Gaussian thất bại (theo nghĩa là có các ngoại lệ):
người ta thường cho rằng các lỗi dữ liệu thường được phân phối, ít nhất là xấp xỉ hoặc định lý giới hạn trung tâm có thể dựa vào để tạo ra các ước tính phân phối thông thường. Thật không may, khi có các ngoại lệ trong dữ liệu, các phương thức cổ điển thường có hiệu suất rất kém
Những điều này cũng đã được áp dụng trong ML, ví dụ như trong Mika el al. (2001) Phương pháp tiếp cận lập trình toán học đối với thuật toán hạt nhân Fisher , họ mô tả cách thức mất mạnh mẽ của Huber có thể được sử dụng với KDFA (cùng với các hàm mất mát khác). Tất nhiên đây là một sự mất mát phân loại, nhưng KFDA có liên quan chặt chẽ với Máy vectơ liên quan (xem phần 4 của bài báo Mika).
Như được ngụ ý trong câu hỏi, có một mối liên hệ chặt chẽ giữa các hàm mất và các mô hình lỗi Bayes (xem tại đây để thảo luận).
Tuy nhiên, có xu hướng là ngay khi bạn bắt đầu kết hợp các chức năng mất "vui nhộn", việc tối ưu hóa trở nên khó khăn (lưu ý rằng điều này cũng xảy ra trong thế giới Bayes). Vì vậy, trong nhiều trường hợp, mọi người sử dụng các hàm mất tiêu chuẩn dễ tối ưu hóa, và thay vào đó thực hiện thêm tiền xử lý để đảm bảo dữ liệu phù hợp với mô hình.
Điểm khác mà bạn đề cập là CLT chỉ áp dụng cho các mẫu là IID. Điều này là đúng, nhưng sau đó các giả định (và phân tích đi kèm) của hầu hết các thuật toán là như nhau. Khi bạn bắt đầu nhìn vào dữ liệu không phải IID, mọi thứ trở nên khó khăn hơn rất nhiều. Một ví dụ là nếu có sự phụ thuộc theo thời gian, trong trường hợp đó, cách tiếp cận thông thường là giả định rằng sự phụ thuộc chỉ kéo dài một cửa sổ nhất định và do đó các mẫu có thể được xem xét xấp xỉ IID bên ngoài cửa sổ này (ví dụ như bài báo Chromatic PAC tuyệt vời nhưng khó khăn này -Các giới hạn cho dữ liệu không phải IID: Các ứng dụng để xếp hạng và các quy trình trộn-Văn phòng phẩm ), sau đó có thể áp dụng phân tích bình thường.
Vì vậy, vâng, nó đi xuống một phần để thuận tiện, và một phần bởi vì trong thế giới thực, hầu hết các lỗi đều nhìn (đại khái) Gaussian. Tất nhiên mọi người nên luôn luôn cẩn thận khi xem xét một vấn đề mới để đảm bảo rằng các giả định không bị vi phạm.