Tại sao mọi người thích dữ liệu trơn tru?


10

Tôi đang sử dụng hạt nhân bình phương bình phương (SE) cho hồi quy quy trình Gaussian. Ưu điểm của hạt nhân này là: 1) đơn giản: chỉ có 3 siêu đường kính; 2) mịn: hạt nhân này là Gaussian.

Tại sao mọi người thích "độ mịn" rất nhiều? Tôi biết rằng hạt nhân Gaussian là vô cùng khác biệt, nhưng điều đó rất quan trọng? (Xin vui lòng cho tôi biết nếu có lý do khác tại sao hạt nhân SE rất phổ biến.)

PS: Tôi đã nói rằng hầu hết các tín hiệu trong thế giới thực (không có nhiễu) đều trơn tru , vì vậy thật hợp lý khi sử dụng hạt mịn để mô hình hóa chúng. Bất cứ ai có thể xin vui lòng giúp tôi hiểu khái niệm này?


4
Bạn đang đặt câu hỏi tâm lý về lý do tại sao mọi người thích sự trơn tru hoặc câu hỏi thống kê về lý do tại sao các chức năng trơn tru lại tốt hơn về mặt thống kê?
Giăng

@ John Cảm ơn bạn đã bình luận của bạn. Tôi đã đề cập đến câu hỏi thứ hai trong bài viết của bạn và ngoài ra, tôi muốn xác nhận tại sao hầu hết các tín hiệu trong thế giới thực đều trơn tru
kakanana

Câu trả lời:


15

" Natura non facit saltus " là một nguyên tắc cũ trong triết học. Ngoài ra, vẻ đẹp và sự hài hòa là những nguyên tắc như vậy. Một nguyên tắc triết học khác có tác động đến thống kê là tư duy định tính: Theo truyền thống chúng ta không nghĩ về kích thước hiệu ứng nhưng liệu có hiệu ứng hay không. Điều này cho phép thử nghiệm giả thuyết. Ước tính là quá chính xác cho nhận thức của bạn về tự nhiên. Hãy làm như nó là.

Thống kê phải phục vụ nhận thức của con người. Vì vậy, điểm gián đoạn là không thích. Người ta sẽ hỏi ngay: Tại sao chính xác là tại đây không liên tục? Đặc biệt là trong ước tính mật độ, những điểm không liên tục này chủ yếu là do bản chất không có triệu chứng của dữ liệu thực. Nhưng bạn không muốn tìm hiểu về mẫu hữu hạn nhất định của mình mà về thực tế tự nhiên tiềm ẩn. Nếu bạn tin rằng bản chất này không nhảy, thì bạn cần những người ước tính trơn tru.

Từ quan điểm toán học nghiêm ngặt, hầu như không có lý do cho nó. Ngoài ra, kể từ khi hiện tượng tự nhiên Leibniz và Newton được biết đến là không suôn sẻ. Nói chuyện với nhà khoa học tự nhiên bạn đang làm việc. Thách thức quan điểm của anh ấy về sự trơn tru / không liên tục và sau đó làm những gì cả hai bạn quyết định là hữu ích nhất cho sự hiểu biết của anh ấy.


2

Có hai lý do nữa của vấn đề thực tế. Đầu tiên là các hàm phân tích dễ dàng hơn nhiều khi làm việc với toán học, và do đó chứng minh các định lý về thuật toán của bạn và cung cấp cho chúng một nền tảng vững chắc hơn.

Thứ hai là sự nhạy cảm. Giả sử bạn có một người học máy có đầu ra không liên tục tại . Sau đó, bạn sẽ nhận được kết quả rất khác nhau cho và , nhưng điều đó không sao vì chúng tôi đã làm cho nó không liên tục. Bây giờ, nếu bạn huấn luyện mô hình của mình với dữ liệu hơi khác ( ), trong đó nhiễu ngẫu nhiên chỉ khác nhau một chút, thì hiện tượng gián đoạn sẽ ở , có thể rất gần với , nhưng không hoàn toàn, và bây giờ , đối với một số giá trị của , có giá trị rất khác nhau đối với và đối vớiMx=x0x0ϵx0+ϵM~x~0x0ϵx0+ϵMM~.


1

Có nhiều động lực, tùy thuộc vào vấn đề. Nhưng ý tưởng là như nhau: thêm một kiến ​​thức tiên nghiệm về một số vấn đề để đạt được một giải pháp tốt hơn và đối phó với sự phức tạp. Một cách khác để đặt nó là: lựa chọn mô hình. Đây là một ví dụ tốt về lựa chọn mô hình .

Một ý tưởng khác, liên quan sâu sắc đến nó là tìm một thước đo tương tự của các mẫu dữ liệu (có các thuật ngữ khác nhau liên quan đến ý tưởng đó: ánh xạ địa hình, thước đo khoảng cách, học tập đa dạng, ...).

Bây giờ, chúng ta hãy xem xét một ví dụ thực tế: nhận dạng ký tự quang học. Nếu bạn lấy hình ảnh của một nhân vật, bạn sẽ mong muốn bộ phân loại xử lý các bất biến: nếu bạn xoay, thay thế hoặc chia tỷ lệ hình ảnh, nó sẽ có thể phát hiện ra nó. Ngoài ra, nếu bạn áp dụng một số sửa đổi một chút cho đầu vào, bạn sẽ mong đợi câu trả lời / hành vi của trình phân loại của mình cũng thay đổi một chút, bởi vì cả hai mẫu (bản gốc và bản sửa đổi đều rất giống nhau). Đây là nơi thực thi của sự trơn tru đi vào.

Có rất nhiều bài báo liên quan đến ý tưởng này, nhưng bài này (biến đổi bất biến trong nhận dạng mẫu, khoảng cách tiếp tuyến và lan truyền tiếp tuyến, Simard và cộng sự) minh họa những ý tưởng này rất chi tiết

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.