Tại sao nhiều người muốn chuyển đổi dữ liệu sai lệch thành dữ liệu phân tán bình thường cho các ứng dụng học máy?


8

Đối với dữ liệu hình ảnh và dữ liệu dạng bảng, rất nhiều người chuyển đổi dữ liệu bị lệch thành dữ liệu được phân phối bình thường trong quá trình tiền xử lý.

Phân phối bình thường có nghĩa là gì trong học máy? Nó có phải là một giả định thiết yếu của các thuật toán học máy?

Ngay cả dữ liệu hình ảnh, tôi đã thấy biến đổi lượng tử, biến đổi toàn bộ pixel của hình ảnh để tuân theo phân phối bình thường hoặc thống nhất.

Tôi có thể nghĩ về một lý do: để tránh ảnh hưởng của các ngoại lệ. Nhưng những chuyển đổi này làm biến dạng phân phối dữ liệu ban đầu.

Tại sao phân phối bình thường rất quan trọng đối với máy học mà nhiều quá trình tiền xử lý bao gồm bước này?


2
Không phải, điều này xuất phát từ một niềm tin sai lầm rằng các mô hình sẽ hoạt động tốt hơn trên dữ liệu thông thường, nhưng điều này chỉ đơn giản là không đúng (ngoại trừ các mô hình thực sự đòi hỏi sự bình thường). Dữ liệu thống nhất trên đôi khi có ích, đặc biệt là với NN, vì cách chúng hoạt động. [0,1]
dùng2974951

4
Sự mê tín này có thể được tóm tắt là "Tính quy phạm không phải là một yêu cầu đối với bất kỳ mô hình nào, trừ khi có." Người mới thường lầm tưởng rằng tính bình thường luôn là một yêu cầu, mặc dù các trường hợp đó là đúng và rất ít.
Sycorax nói Phục hồi lại

4
Có những giả định khác, thường quan trọng hơn. Nhưng những giả định khác khó hiểu hơn .
kjetil b halvorsen

Vì vậy, đối với các mạng thần kinh, đôi khi dữ liệu phân phối bình thường giúp cải thiện hiệu suất, nhưng trong các mô hình khác, nó có thể phụ thuộc vào dữ liệu? Và để kiểm tra nó tôi có thể phải thử bằng tay hoặc khám phá toán học đằng sau các thuật toán?
林彥良

Câu trả lời:


11

Như @ user2974951 nói trong một bình luận, có thể mê tín rằng phân phối Bình thường bằng cách nào đó tốt hơn. Có lẽ họ có ý tưởng sai lầm rằng dữ liệu Bình thường là kết quả của nhiều lỗi phụ gia, nếu họ buộc dữ liệu của họ là Bình thường, thì họ có thể coi các số kết quả là có lỗi phụ gia. Hoặc kỹ thuật thống kê đầu tiên họ học được là hồi quy OLS và một cái gì đó về Bình thường là một giả định ...

Bình thường nói chung không phải là một yêu cầu. Nhưng việc nó có hữu ích hay không phụ thuộc vào mô hình làm gì với dữ liệu.

Ví dụ: dữ liệu tài chính thường không thường xuyên - tức là có lỗi nhân (phần trăm). Bộ biến đổi tự động biến đổi sử dụng phân phối Bình thường tại nút cổ chai để tăng độ mượt mà và đơn giản. Các hàm Sigmoid hoạt động tự nhiên nhất với dữ liệu Bình thường. Các mô hình hỗn hợp thường sử dụng hỗn hợp Normals. (Nếu bạn có thể cho rằng đó là Bình thường, bạn chỉ cần hai tham số để xác định hoàn toàn và các tham số đó khá trực quan theo nghĩa của chúng.)

Nó cũng có thể là chúng tôi muốn một phân phối đối xứng, không đối xứng cho mô hình của chúng tôi và Bình thường là vậy. (Và các phép biến đổi thành Triệu Bình thường thường không hoàn toàn Bình thường, chỉ là đối xứng hơn.)

Tính quy phạm có thể đơn giản hóa một số phép toán cho bạn và nó có thể phù hợp với quan niệm của bạn về quá trình tạo dữ liệu của bạn: hầu hết dữ liệu của bạn nằm ở giữa với các giá trị thấp hoặc cao tương đối hiếm, đáng quan tâm.

Nhưng ấn tượng của tôi là đó là Cargo Cult trong tự nhiên


4

Câu trả lời ở trên thực sự đinh nó. Tôi chỉ muốn nói thêm rằng đáng để phân tách ý tưởng muốn "tính bình thường" so với việc muốn mở rộng tất cả các tính năng trong phạm vi tương tự (ngay cả khi chúng có các bản phân phối khác nhau). Cả hai phép biến đổi này đều có ưu và nhược điểm của chúng, và đôi khi là cần thiết để tránh các quirks số trong bước tối ưu hóa hoặc tránh các sai lệch hệ thống trong các thuật toán này.

Ngoài ra, nó phụ thuộc vào loại "máy học" mà bạn đang đề cập (ví dụ: SVM, mô hình dựa trên cây, mạng lưới thần kinh, v.v.), vì tất cả đều hoạt động khác nhau và có thể có các vấn đề về số khác nhau. Như đã đề cập ở trên, có những lợi ích trong một số tình huống nhất định, nhưng ý tưởng rằng bình thường hóa dữ liệu sai lệch sẽ dẫn đến hiệu suất tốt hơn không phải là một chiến lược chống đạn. Nói chung, việc chứng minh bất kỳ bước "tiền xử lý" hoặc "thao tác / chuyển đổi dữ liệu" nào có xu hướng là một sự thay thế mạnh mẽ hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.