Tại sao chúng ta cho rằng lỗi được phân phối bình thường?

Tôi tự hỏi tại sao chúng ta sử dụng giả định Gaussian khi mô hình hóa lỗi. Trong khóa học ML của Stanford , Giáo sư Ng mô tả về cơ bản theo hai cách:

Đó là thuận tiện về mặt toán học. (Nó liên quan đến Least Squares phù hợp và dễ giải quyết bằng giả)
Do Định lý giới hạn trung tâm, chúng tôi có thể giả định rằng có rất nhiều sự thật tiềm ẩn ảnh hưởng đến quá trình và tổng các lỗi riêng lẻ này sẽ có xu hướng hành xử giống như trong phân phối bình thường có nghĩa là không. Trong thực tế, nó có vẻ là như vậy.

Tôi thực sự quan tâm đến phần thứ hai. Định lý giới hạn trung tâm hoạt động đối với các mẫu iid theo như tôi biết, nhưng chúng tôi không thể đảm bảo các mẫu cơ bản là iid.

Bạn có ý tưởng nào về giả định Gaussian về lỗi không?

regression normality-assumption pac-learning

— người nuôi dưỡng
nguồn

Bạn đang nói về thiết lập nào? Phân loại, hồi quy, hoặc một cái gì đó tổng quát hơn?

— tdc

Tôi đặt câu hỏi cho trường hợp chung. Hầu hết các câu chuyện bắt đầu với giả định lỗi Gaussian. Nhưng, cá nhân tôi, mối quan tâm của riêng tôi là các yếu tố ma trận và các giải pháp mô hình tuyến tính (có thể nói là hồi quy).

— petrichor

Có liên quan: stats.stackexchange.com/questions/120776/ từ

— kjetil b halvorsen

Tôi nghĩ rằng về cơ bản bạn đã đánh vào đầu đinh trong câu hỏi, nhưng tôi sẽ xem liệu tôi có thể thêm cái gì không. Tôi sẽ trả lời điều này theo cách vòng vo ...

Lĩnh vực Thống kê Robust kiểm tra câu hỏi phải làm gì khi giả định Gaussian thất bại (theo nghĩa là có các ngoại lệ):

người ta thường cho rằng các lỗi dữ liệu thường được phân phối, ít nhất là xấp xỉ hoặc định lý giới hạn trung tâm có thể dựa vào để tạo ra các ước tính phân phối thông thường. Thật không may, khi có các ngoại lệ trong dữ liệu, các phương thức cổ điển thường có hiệu suất rất kém

Những điều này cũng đã được áp dụng trong ML, ví dụ như trong Mika el al. (2001) Phương pháp tiếp cận lập trình toán học đối với thuật toán hạt nhân Fisher , họ mô tả cách thức mất mạnh mẽ của Huber có thể được sử dụng với KDFA (cùng với các hàm mất mát khác). Tất nhiên đây là một sự mất mát phân loại, nhưng KFDA có liên quan chặt chẽ với Máy vectơ liên quan (xem phần 4 của bài báo Mika).

Như được ngụ ý trong câu hỏi, có một mối liên hệ chặt chẽ giữa các hàm mất và các mô hình lỗi Bayes (xem tại đây để thảo luận).

Tuy nhiên, có xu hướng là ngay khi bạn bắt đầu kết hợp các chức năng mất "vui nhộn", việc tối ưu hóa trở nên khó khăn (lưu ý rằng điều này cũng xảy ra trong thế giới Bayes). Vì vậy, trong nhiều trường hợp, mọi người sử dụng các hàm mất tiêu chuẩn dễ tối ưu hóa, và thay vào đó thực hiện thêm tiền xử lý để đảm bảo dữ liệu phù hợp với mô hình.

Điểm khác mà bạn đề cập là CLT chỉ áp dụng cho các mẫu là IID. Điều này là đúng, nhưng sau đó các giả định (và phân tích đi kèm) của hầu hết các thuật toán là như nhau. Khi bạn bắt đầu nhìn vào dữ liệu không phải IID, mọi thứ trở nên khó khăn hơn rất nhiều. Một ví dụ là nếu có sự phụ thuộc theo thời gian, trong trường hợp đó, cách tiếp cận thông thường là giả định rằng sự phụ thuộc chỉ kéo dài một cửa sổ nhất định và do đó các mẫu có thể được xem xét xấp xỉ IID bên ngoài cửa sổ này (ví dụ như bài báo Chromatic PAC tuyệt vời nhưng khó khăn này -Các giới hạn cho dữ liệu không phải IID: Các ứng dụng để xếp hạng và các quy trình trộn-Văn phòng phẩm ), sau đó có thể áp dụng phân tích bình thường.

Vì vậy, vâng, nó đi xuống một phần để thuận tiện, và một phần bởi vì trong thế giới thực, hầu hết các lỗi đều nhìn (đại khái) Gaussian. Tất nhiên mọi người nên luôn luôn cẩn thận khi xem xét một vấn đề mới để đảm bảo rằng các giả định không bị vi phạm.

— tdc
nguồn

+1 Cảm ơn bạn rất nhiều đặc biệt là đã đề cập về số liệu thống kê mạnh mẽ và không mạnh mẽ. Tôi thực sự quan sát rằng các công cụ trung bình và cắt tỉa alpha thường tốt hơn so với thực tế nhưng tôi không biết lý thuyết đằng sau chúng.

— petrichor

Một mục tiện lợi khác liên quan đến dữ liệu phân phối thông thường là 0 tương quan hàm ý tính độc lập.

— AdamO

Nhận xét về IID-ness không hoàn toàn đúng. Có (một số) Định lý giới hạn trung tâm rất chung áp dụng khi kết quả độc lập nhưng không được phân phối giống hệt nhau; xem ví dụ: Lindeberg CLT. Cũng có những kết quả CLT thậm chí không cần sự độc lập; họ có thể phát sinh từ các quan sát trao đổi, ví dụ.

— khách