Các biện minh thống kê của nội suy là gì?


16

Giả sử rằng chúng ta có hai điểm (hình sau: vòng tròn đen) và chúng ta muốn tìm giá trị cho điểm thứ ba giữa chúng (chéo). Thật vậy, chúng tôi sẽ ước tính nó dựa trên kết quả thử nghiệm của chúng tôi, các điểm đen. Trường hợp đơn giản nhất là vẽ một đường và sau đó tìm giá trị (nghĩa là nội suy tuyến tính). Nếu chúng ta có các điểm hỗ trợ, ví dụ, như các điểm màu nâu ở cả hai bên, chúng ta muốn nhận được lợi ích từ chúng và phù hợp với một đường cong phi tuyến tính (đường cong màu xanh lá cây).

Câu hỏi đặt ra là lý do thống kê để đánh dấu chữ thập đỏ là giải pháp là gì? Tại sao các thánh giá khác (ví dụ: những cái màu vàng) không trả lời chúng có thể ở đâu? Những loại suy luận hoặc (?) Đẩy chúng ta chấp nhận màu đỏ?

Tôi sẽ phát triển câu hỏi ban đầu của mình dựa trên các câu trả lời cho câu hỏi rất đơn giản này.

nhập mô tả hình ảnh ở đây


7
Đây là một câu hỏi rất hay và thú vị. Bạn có thể muốn phân biệt giữa nội suy chuỗi thời gian và các hình thức nội suy khác (chẳng hạn như nội suy tách hoặc nội suy không gian), do tính định hướng vốn có của chuỗi thời gian.
whuber

1
Đánh giá cao của tôi đi đến nhận xét rất động lực này.
Nhà phát triển

Câu trả lời:


14

Bất kỳ hình thức phù hợp chức năng nào, ngay cả những hình thức không định lượng (thường đưa ra các giả định về độ trơn của đường cong liên quan), đều liên quan đến các giả định và do đó là một bước nhảy vọt của đức tin.

Giải pháp cổ xưa của phép nội suy tuyến tính là một giải pháp 'chỉ hoạt động' khi dữ liệu bạn có đủ mịn 'đủ' (nếu bạn nhìn vào một vòng tròn đủ gần, nó trông cũng phẳng - chỉ cần hỏi Columbus), và thậm chí còn khả thi trước thời đại máy tính (đó không phải là trường hợp của nhiều giải pháp splines hiện đại). Thật hợp lý khi cho rằng niềm tin rằng hàm sẽ 'tiếp tục trong cùng một vấn đề (tức là tuyến tính)' giữa hai điểm, nhưng không có lý do tiên quyết nào cho việc này (loại bỏ kiến ​​thức về các khái niệm trong tay).

Nó trở nên rõ ràng nhanh chóng khi bạn có ba (hoặc nhiều) điểm không màu (như khi bạn thêm các điểm màu nâu ở trên), phép nội suy tuyến tính giữa mỗi điểm sẽ sớm liên quan đến các góc nhọn trong mỗi điểm, điều này thường không mong muốn. Đó là nơi các tùy chọn khác nhảy vào.

Tuy nhiên, không có kiến ​​thức về miền, không có cách nào để khẳng định chắc chắn rằng một giải pháp tốt hơn giải pháp kia (đối với điều này, bạn sẽ phải biết giá trị của các điểm khác là gì, đánh bại mục đích phù hợp với chức năng trong địa điểm đầu tiên).

Về mặt sáng sủa, và có thể phù hợp hơn với câu hỏi của bạn, trong 'điều kiện thông thường' (đọc: giả định : nếu chúng ta biết rằng hàm này trơn tru), cả nội suy tuyến tính và các giải pháp phổ biến khác đều có thể được chứng minh là 'hợp lý' xấp xỉ. Tuy nhiên: nó yêu cầu các giả định và đối với những điều này, chúng tôi thường không có số liệu thống kê.


Đây là một câu trả lời tốt và là ứng cử viên của tôi được đánh dấu là câu trả lời. Tôi hiểu rằng không có sự biện minh thống kê cho một lựa chọn chung như vậy, phải không?
Nhà phát triển

Quả thực tôi tin rằng không có ai, không.
Nick Sabbe

2
Một số tài liệu (liên quan đến các cuộc thi để nội suy các mẫu của bộ dữ liệu nổi tiếng) xác nhận một phần xác nhận này, nhưng không hoàn toàn. Người ta có thể tìm hiểu nhiều về mối tương quan không gian của dữ liệu thông qua phân tích thống kê dữ liệu mà không có bất kỳ "điều kiện thông thường" nào. Điều cần thiết là một mô hình dữ liệu như một mẫu của một quá trình ngẫu nhiên cùng với (1) một giả thuyết ergodic và (trong hầu hết các trường hợp) (2) một số giả định cố định. Trong phép nội suy khung này trở thành dự đoán của một kỳ vọng, nhưng thậm chí các đường cong không thể phân biệt được cho phép.
whuber

1
@whuber: Tôi thoát khỏi vùng thoải mái của mình ở đây, nhưng mọi thứ sau "điều kiện đều đặn" trong bình luận của bạn đều đọc giống như một lượng giả định khá chắc chắn (sự ổn định có thể sẽ xảy ra với điều kiện đều đặn, phải không?). Trên thực tế, tôi nghĩ rằng nó sẽ phụ thuộc vào việc kích thước mẫu của bạn có lớn đối với sự bất thường trong hình thức chức năng không ... Bạn có thể đưa ra một tài liệu tham khảo về một bài báo hay những điều tương tự trong trường hợp này không?
Nick Sabbe

2
Bạn không thể làm bất cứ điều gì mà không có giả định, Nick! Nhưng tính đều đặn (chẳng hạn như độ mịn của hàm) là không cần thiết: nó có thể được suy ra từ dữ liệu, ít nhất là trên thang đo mà hàm được lấy mẫu. (Stationarity là một giả định nhẹ hơn nhiều so với độ mịn.) Bạn đúng rằng cần có các mẫu lớn, nhưng có thể học được nhiều thứ trong 2D ngay cả với 30-50 vị trí mẫu được chọn tốt. Văn học lớn; ví dụ, hầu hết các vấn đề của Địa chất toán học được dành cho việc này. Để có phần giới thiệu nghiêm ngặt, hãy xem Thống kê không gian
whuber

0

Bạn có thể tìm ra phương trình tuyến tính cho dòng phù hợp nhất (ví dụ: y = 0,4554x + 0,7525) tuy nhiên điều này sẽ chỉ hoạt động nếu có trục có nhãn. Tuy nhiên, điều này sẽ không cung cấp cho bạn câu trả lời chính xác chỉ có câu trả lời phù hợp nhất liên quan đến các điểm khác.


Nhưng hồi quy không phải là nội suy .
Scortchi - Tái lập Monica

1
@Scortchi Tôi tin rằng hồi quy có thể được hiểu là nội suy. Tuy nhiên, đề xuất hồi quy như một giải pháp không trả lời câu hỏi, yêu cầu chúng tôi giải thích tại sao bất kỳ loại nội suy nào là hợp lý (và ngầm mời chúng tôi mô tả các giả định cần thiết để biện minh cho nó).
whuber

@whuber: Cảm ơn. Tôi đã suy nghĩ về phép nội suy, ít nhất là theo nguyên mẫu, như tham gia các dấu chấm - stats.stackexchange.com/a/33662/17230 .
Scortchi - Tái lập Monica

@Scortchi Chủ đề đó chủ yếu đề cập đến khái niệm toán học của phép nội suy trong một bảng. Trong một bình luận cho câu hỏi của nó, tôi đã chỉ ra cách hiểu thống kê thông thường về phép nội suy, khác biệt một cách tinh tế. Hồi quy hoạt động ở cả hai thế giới: hàm hồi quy có thể đóng vai trò là bộ nội suy toán học (đối với hàm được xác định rõ được lấy mẫu trong bảng) cũng như bộ nội suy thống kê (bằng phương pháp dự đoán thống kê các giá trị của quá trình ngẫu nhiên có điều kiện trên một số lượng hữu hạn của các giá trị xuất phát từ quá trình đó).
whuber

1
nn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.