Ý tưởng làm cho dữ liệu có ý nghĩa bằng không


12

Tôi thường thấy những người tạo ra thứ nguyên / tính năng của bộ dữ liệu có giá trị trung bình bằng cách loại bỏ giá trị trung bình khỏi tất cả các yếu tố. Nhưng tôi không bao giờ hiểu tại sao phải làm như vậy? Hiệu quả của việc làm đó là một bước tiền xử lý là gì? Liệu nó cải thiện hiệu suất phân loại? Nó có giúp trả lời một cái gì đó về bộ dữ liệu? Nó có giúp ích gì khi thực hiện trực quan để hiểu dữ liệu không?


9
Cách tiếp cận này được gọi là định tâm . Một trong những ứng dụng của nó là biến mô hình hồi quy của mô hình hồi quy thành "dự đoán y khi x ở mức trung bình", làm cho việc đánh chặn trở nên dễ hiểu hơn một chút.
Penguin_Knight

Một tính năng / bộ dữ liệu tập trung cũng có thể được cho là có điều kiện . Xem ở đây để khám phá trực quan. Hoạt động của chuẩn hóa đầu vào làm cho việc giảm độ dốc dễ dàng hơn nhiều.
điều chỉnh

Câu trả lời:


12

Một số trường hợp "tập trung dữ liệu vào ý nghĩa của nó" (sau đây chỉ là "không có nghĩa") là hữu ích:

N(10,4)N(100,4)

2) Đơn giản hóa các tính toán của các khoảnh khắc cao hơn: mặc dù việc thêm một hằng số vào một biến ngẫu nhiên không làm thay đổi phương sai của nó hoặc hiệp phương sai của nó với một biến ngẫu nhiên khác, tuy nhiên, nếu bạn có ý nghĩa khác không, và bạn phải viết ra các tính toán chi tiết, bạn phải viết tất cả các điều khoản và chứng minh rằng họ hủy bỏ. Nếu các biến không có nghĩa, bạn lưu rất nhiều phép tính vô dụng.

3) Các biến ngẫu nhiên tập trung vào giá trị trung bình của chúng là đối tượng của Định lý giới hạn trung tâm

4) Độ lệch so với "giá trị trung bình" trong nhiều trường hợp là vấn đề được quan tâm và liệu chúng có xu hướng "trên hoặc dưới trung bình", thay vì giá trị thực của các biến ngẫu nhiên. "Dịch" (trực quan và / hoặc tính toán) độ lệch dưới giá trị trung bình là giá trị âm và độ lệch trên giá trị trung bình là giá trị dương, làm cho thông điệp rõ ràng và mạnh mẽ hơn.

Để thảo luận sâu hơn, xem thêm

Khi tiến hành hồi quy bội, khi nào bạn nên tập trung vào các biến dự đoán của mình & khi nào bạn nên chuẩn hóa chúng?

Định tâm dữ liệu trong hồi quy bội

Nếu bạn tìm kiếm "dữ liệu trung tâm" trên CV, bạn cũng sẽ tìm thấy các bài viết thú vị khác.


@OP: Tôi nghĩ câu trả lời này nên được chấp nhận.
rottweiler

4

Ngoài ra, vì lý do thực tế, thuận lợi là tập trung dữ liệu, ví dụ, khi đào tạo mạng lưới thần kinh.

Ý tưởng là để đào tạo một mạng lưới thần kinh, người ta cần giải quyết vấn đề tối ưu hóa không lồi bằng cách sử dụng một số phương pháp dựa trên độ dốc. Độ dốc được tính toán bằng phương pháp backpropagation. Bây giờ, các độ dốc này phụ thuộc vào các đầu vào và việc căn giữa dữ liệu sẽ loại bỏ sai lệch có thể có trong các gradient.

Cụ thể, một giá trị trung bình khác không được phản ánh trong một giá trị riêng lớn, điều đó có nghĩa là độ dốc có xu hướng lớn hơn theo một hướng so với các hướng khác (do đó) làm chậm quá trình hội tụ, cuối cùng dẫn đến các giải pháp tồi tệ hơn.


1

Để thêm vào những gì Alecos đã nói, điều này rất tốt, việc tập trung dữ liệu của bạn ở mức 0 là cực kỳ quan trọng khi sử dụng số liệu thống kê hoặc chính quy Bayes, vì nếu không thì dữ liệu có thể tương quan với việc chặn, điều này khiến cho việc chính quy hóa không làm những gì bạn thường muốn.

Làm cho dữ liệu bằng 0 có nghĩa là có thể làm giảm nhiều thuật ngữ ngoài đường chéo của ma trận hiệp phương sai, do đó nó làm cho dữ liệu dễ hiểu hơn và các hệ số có ý nghĩa trực tiếp hơn, vì mỗi hệ số được áp dụng chủ yếu hơn cho yếu tố đó và hoạt động ít hơn thông qua tương quan với các yếu tố khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.