Làm trắng da luôn tốt?


27

Một bước tiền xử lý phổ biến cho các thuật toán học máy là làm trắng dữ liệu.

Có vẻ như nó luôn luôn tốt để làm trắng vì nó không tương quan dữ liệu, làm cho nó đơn giản hơn để mô hình hóa.

Khi nào nên tẩy trắng răng?

Lưu ý: Tôi đang đề cập đến việc không tương quan dữ liệu.


1
bạn có thể cho tham khảo để làm trắng?
Atilla Ozgur

2
Tôi nghĩ chủ đề này là còn sơ khai. Nó thực sự cần được mở rộng. - - Câu trả lời hiện được chấp nhận có rất ít thông tin. - - Tôi sẽ không chấp nhận nó và mở một tiền thưởng ở đây.
Léo Léopold Hertz

Câu hỏi của bạn cũng thiên vị, bởi vì "luôn luôn" ở đó. Tất nhiên, làm trắng không phải lúc nào cũng tốt. Ngoài ra, xác định các loại làm trắng. Tôi nghĩ rằng nó dẫn đến câu trả lời không mang tính xây dựng ở đây. - - Xác định loại dữ liệu sẽ được sử dụng. - - Tôi nghĩ một câu hỏi tốt hơn có thể là Làm thế nào bạn có thể cải thiện ứng dụng làm trắng này trên dữ liệu đủ đẹp này? . - - @AtillaOzgur Một nguồn en.wikipedia.org/wiki/Whitening_transifying nếu xem xét chuyển đổi cơ bản của làm trắng.
Léo Léopold Hertz

Câu trả lời:


13

Làm trắng trước là một khái quát của chuẩn hóa tính năng, làm cho đầu vào độc lập bằng cách chuyển đổi nó theo ma trận hiệp phương sai đầu vào được chuyển đổi. Tôi không thể thấy tại sao điều này có thể là một điều xấu.

Tuy nhiên, một tìm kiếm nhanh đã tiết lộ "Tính khả thi của việc làm trắng dữ liệu để cải thiện hiệu suất của Radar thời tiết" ( pdf ) có nội dung:

Đặc biệt, làm trắng hoạt động tốt trong trường hợp ACF theo cấp số nhân (phù hợp với kết quả của Monakov) nhưng kém hơn trong trường hợp của Gaussian. Sau khi thử nghiệm bằng số, chúng tôi thấy rằng trường hợp Gaussian bị bệnh số theo nghĩa là số điều kiện (tỷ lệ giữa giá trị riêng tối đa và tối thiểu) là cực kỳ lớn đối với ma trận hiệp phương sai Gauss.

Tôi không được giáo dục đủ để bình luận về điều này. Có thể câu trả lời cho câu hỏi của bạn là làm trắng luôn tốt nhưng có một số vấn đề nhất định (ví dụ, với dữ liệu ngẫu nhiên, nó sẽ không hoạt động tốt nếu được thực hiện thông qua chức năng tự tương quan Gaussian).


2
theo tôi hiểu, nó hoạt động tốt nếu ma trận hiệp phương sai được ước tính tốt. Ai đó có thể nhận xét về điều này? cảm ơn.
Ran

3
Trích dẫn ở trên không đề cập đến một ma trận hiệp phương sai ước tính kém (mặc dù điều đó cũng sẽ có vấn đề). Người ta nói rằng đối với một ma trận hiệp phương sai được chỉ định hoàn hảo, vẫn có thể khó thực hiện chính xác hệ số được yêu cầu (và các phép biến đổi dữ liệu liên quan). Điều này là do số bệnh điều hòa, có nghĩa là hữu hạn chính xác roundoff lỗi gây ô nhiễm tính toán.
GeoMatt22

2
Đây là câu trả lời không đầy đủ. Nó đã sao chép hầu hết các tài liệu không liên quan. - - Câu trả lời này thực sự nên được mở rộng. Nó còn sơ khai.
Léo Léopold Hertz

20

Thứ nhất, tôi nghĩ rằng khử tương quan và làm trắng là hai thủ tục riêng biệt.

Để khử tương quan dữ liệu, chúng ta cần chuyển đổi nó để dữ liệu được chuyển đổi sẽ có ma trận hiệp phương sai chéo. Biến đổi này có thể được tìm thấy bằng cách giải quyết vấn đề eigenvalue. Chúng tôi tìm ra vector riêng và giá trị riêng liên quan của hiệp phương sai ma trận bởi giải quyếtΣ=XX

ΣΦ=ΦΛ

nơi là một ma trận đường chéo có giá trị riêng như các yếu tố đường chéo của nó.Λ

Ma trận do đó diagonalizes ma trận hiệp phương sai của X . Các cột của Φ là vector riêng của ma trận hiệp phương sai.ΦXΦ

Chúng ta cũng có thể viết hiệp phương sai chéo là:

(1)ΦΣΦ=Λ

xi

(2)xi=Φxi

Λ

Λ1/2ΛΛ1/2=I

(1)

Λ1/2ΦΣΦΛ1/2=I

xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

xixiE(xixi)=I

Σ

Và cuối cùng, có một "gotcha" chung mà mọi người nên cẩn thận. Bạn phải cẩn thận khi tính toán các hệ số tỷ lệ trên dữ liệu huấn luyện và sau đó bạn sử dụng các phương trình (2) và (3) để áp dụng các hệ số tỷ lệ tương tự cho dữ liệu thử nghiệm, nếu không bạn có nguy cơ bị quá mức (bạn sẽ sử dụng thông tin từ bộ kiểm tra trong quá trình đào tạo).

Nguồn: http://cifts.media.mit.edu/2010fall/mas622j/whiten.pdf


2
Cảm ơn đã làm rõ, bạn đã đúng. Tôi đã đề cập đến không tương quan. btw: cuối cùng bạn viết rằng làm trắng chỉ được thực hiện cho dữ liệu đào tạo. theo như tôi biết, bạn tính toán ma trận từ dữ liệu huấn luyện, nhưng bạn thực hiện nó trên cả dữ liệu huấn luyện & kiểm tra.
Ran

@Ran vâng đó là điều tôi muốn nói ... Tôi sẽ cập nhật câu trả lời
tdc

Sẽ thật tuyệt nếu bạn cũng có thể đưa ra các phần trong câu trả lời của mình. Có một giới thiệu, một bản tóm tắt và những điều toán học. - - Tôi nghĩ bạn không đi sâu vào câu trả lời của mình. - - Câu trả lời của bạn bao gồm hầu hết các đề xuất tầm thường nhưng không đi sâu vào chủ đề. Bạn chỉ có tài liệu dán sao chép cơ bản từ ghi chú bài giảng nhưng rất ít công việc riêng cho chủ đề.
Léo Léopold Hertz

vì vậy, trong điều kiện đơn giản, làm pca để có được các tính năng không tương quan, và sau đó tìm hiểu tính năng mới, chia cho phương sai để có được các tính năng trắng.

1

Từ http://cs231n.github.io/neural-networks-2/

Một điểm yếu của phép biến đổi này là nó có thể phóng đại nhiễu rất lớn trong dữ liệu, vì nó kéo dài tất cả các kích thước (bao gồm cả các kích thước không liên quan của phương sai nhỏ mà chủ yếu là nhiễu) có kích thước bằng nhau trong đầu vào. Điều này trong thực tế có thể được giảm thiểu bằng cách làm mịn mạnh hơn ...

Thật không may, tôi không được giáo dục đủ để bình luận thêm về điều này.


Xin vui lòng, nói rõ những hình thức của tiếng ồn được phóng đại. Tài liệu tham khảo của bạn là nghiêm ngặt. Nó chỉ là khoa học máy tính cơ bản về chủ đề tức là tiếng ồn trắng với cách tiếp cận mạng thần kinh cổ đại. - - Công việc phóng đại cũng cần được xác định.
Léo Léopold Hertz

Dường như với tôi rằng điều này chỉ liên quan đến việc chia tỷ lệ của tất cả các tính năng để có cùng phương sai, phải không? Vì vậy, nếu có một tính năng mà phương sai trong tập huấn luyện là nhiễu, chúng ta có thể hy vọng phương sai tổng thể của tính năng này nhỏ hơn nhiều so với tính năng khác; sự chuyển đổi này sẽ làm cho cả tính năng "nhiễu" và tính năng khác có cùng phương sai và có thể được coi là "nhiễu khuếch đại".
ijoseph
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.