Làm mịn - khi nào nên sử dụng và khi nào không?


18

Có một bài viết cũ trên blog của William Briggs , xem xét những cạm bẫy của việc làm mịn dữ liệu và mang dữ liệu được làm mịn đó để phân tích. Đối số chính là:

Nếu trong một khoảnh khắc điên rồ, bạn thực hiện dữ liệu chuỗi thời gian trơn tru và bạn sử dụng nó làm đầu vào cho các phân tích khác, bạn sẽ tăng đáng kể khả năng đánh lừa chính mình! Điều này là do việc làm mịn tạo ra các tín hiệu giả Các tín hiệu có vẻ giống với các phương pháp phân tích khác. Không có vấn đề gì bạn sẽ quá chắc chắn về kết quả cuối cùng của bạn!

Tuy nhiên, tôi đang vật lộn để tìm các cuộc thảo luận toàn diện về việc khi nào nên thông suốt và khi nào không.

Có phải nó chỉ nhíu mày khi được làm mịn khi sử dụng dữ liệu được làm mịn đó làm đầu vào cho phân tích khác hoặc có những tình huống khác khi không làm mịn không? Ngược lại, có những tình huống mà làm mịn được khuyên?


1
Hầu hết các ứng dụng phân tích chuỗi thời gian là một số loại làm mịn, ngay cả khi không được mô tả như vậy. Làm mịn có thể được sử dụng như một thiết bị thăm dò hoặc tóm tắt - trong một số lĩnh vực, đó thậm chí là phương pháp chính hoặc duy nhất được sử dụng - hoặc để loại bỏ các tính năng hơn được coi là phiền toái hoặc lợi ích phụ cho mục đích nào đó.
Nick Cox

4
Tuyên bố miễn trừ trách nhiệm: Tôi chưa đọc toàn bộ bài đăng trên blog được trích dẫn. Tôi không thể vượt qua các lỗi chính tả cơ bản ("chuỗi thời gian", "Monte Carol") và giọng điệu và phong cách của nó không hấp dẫn. Nhưng tôi không khuyên bạn nên cố gắng học các nguyên tắc phân tích chuỗi thời gian, hay nói chung là thông qua blog của bất kỳ ai.
Nick Cox

@NickCox Đồng ý, và đặc biệt không phải từ một blog dường như có một cái rìu để mài.
Hồng Ooi

@HongOoi Vâng! Tôi đã xóa một số cụm từ lựa chọn từ một bản nháp bình luận của tôi mà dường như không ít ý kiến ​​hơn chính blog.
Nick Cox

1
Tôi sẽ lấy mọi thứ mà Briggs viết bằng một hạt muối.
Momo

Câu trả lời:


16

Làm mịn theo cấp số nhân là một kỹ thuật cổ điển được sử dụng trong dự báo chuỗi thời gian không chính thức. Miễn là bạn chỉ sử dụng nó trong dự báo đơn giản và không sử dụng phù hợp làm mịn trong mẫu đầu vào cho thuật toán khai thác dữ liệu hoặc thống kê khác, phê bình của Briggs không áp dụng. (Theo đó, tôi nghi ngờ về việc sử dụng nó "để tạo ra dữ liệu được làm mịn để trình bày", như Wikipedia nói - điều này có thể gây hiểu nhầm, bằng cách che giấu sự biến đổi được làm mịn.)

Dưới đây là phần giới thiệu sách giáo khoa về Làm mịn theo cấp số nhân.

Và đây là một bài viết đánh giá (10 tuổi, nhưng vẫn có liên quan).


EDIT: dường như có một số nghi ngờ về tính hợp lệ của phê bình của Briggs, có thể phần nào bị ảnh hưởng bởi bao bì của nó . Tôi hoàn toàn đồng ý rằng giọng điệu của Briggs có thể bị mài mòn. Tuy nhiên, tôi muốn minh họa tại sao tôi nghĩ rằng anh ta có một điểm.

Dưới đây, tôi đang mô phỏng 10.000 cặp chuỗi thời gian, mỗi 100 quan sát. Tất cả các loạt là tiếng ồn trắng, không có tương quan gì. Vì vậy, chạy thử nghiệm tương quan tiêu chuẩn sẽ mang lại giá trị p được phân phối đồng đều trên [0,1]. Như nó làm (biểu đồ bên trái dưới đây).

Tuy nhiên, giả sử trước tiên chúng ta làm mịn từng chuỗi và áp dụng thử nghiệm tương quan cho dữ liệu được làm mịn . Một điều đáng ngạc nhiên xuất hiện: vì chúng tôi đã loại bỏ rất nhiều biến đổi khỏi dữ liệu, chúng tôi nhận được các giá trị p quá nhỏ . Kiểm tra tương quan của chúng tôi là rất thiên vị. Vì vậy, chúng tôi sẽ quá chắc chắn về bất kỳ mối liên hệ nào giữa loạt phim gốc, đó là những gì Briggs đang nói.

Câu hỏi thực sự đặt ra là liệu chúng ta có sử dụng dữ liệu được làm mịn để dự báo hay không, trong trường hợp nào việc làm mịn là hợp lệ hay liệu chúng ta đưa nó làm đầu vào trong một số thuật toán phân tích, trong trường hợp loại bỏ tính biến đổi sẽ mô phỏng độ chắc chắn cao hơn trong dữ liệu của chúng ta. Sự chắc chắn không chính đáng này trong dữ liệu đầu vào mang đến kết quả cuối cùng và cần được tính toán, nếu không mọi suy luận sẽ quá chắc chắn. (Và tất nhiên chúng ta cũng sẽ nhận được các khoảng dự đoán quá nhỏ nếu chúng ta sử dụng một mô hình dựa trên "sự chắc chắn tăng cao" để dự báo.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

giá trị p


1
Tôi sẽ coi nó là tiên đề cho phân tích chuỗi thời gian tốt rằng không có thông tin nào được hiển thị mà không có dữ liệu thô được hiển thị.
Nick Cox

1

Khẳng định rằng làm mịn là không phù hợp cho phân tích mô hình lên án nó có lỗi bình phương trung bình cao hơn so với cách khác. Lỗi bình phương trung bình hoặc MSE có thể được phân tách thành ba thuật ngữ, bình phương của một giá trị được gọi là '`bias' ', phương sai và một số lỗi không thể khắc phục. (Điều này được thể hiện trong các trích dẫn bên dưới.) Các mô hình được làm mịn quá mức có độ lệch cao, ngay cả khi chúng có phương sai thấp và các mô hình quá thô có phương sai cao và độ lệch thấp.

Không có gì triết lý về điều này cả. Nó là một đặc tính toán học. Nó không phụ thuộc vào đặc tính của tiếng ồn hoặc đặc tính của hệ thống.

Xem:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/cifts/mlsc/Notes/Lecture4/BiasVariance.pdf (Điều này có nguồn gốc của sự phân tách.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/THERized-regression.pdf (Blei làm điều tương tự theo một cách khác và đưa vào những gì xảy ra khi một người cố gắng dự đoán.)

Thống kê cổ điển hầu như luôn nhấn mạnh vào các ước tính không thiên vị. Năm 1955, nhà thống kê Charles Stein của Stanford đã chỉ ra rằng có sự kết hợp của các công cụ ước tính không thiên vị, có MSE thấp hơn cho các trường hợp đặc biệt quan trọng, đáng chú ý là cái được gọi là ESTIMATORS JAME-STEIN. Bradley Efron đã viết một văn bản rất dễ tiếp cận về cuộc cách mạng này trong cái nhìn sâu sắc: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.