Phép ngoại suy v. Nội suy


28

Sự khác biệt giữa ngoại suy và nội suy là gì, và cách chính xác nhất để sử dụng các thuật ngữ này là gì?

Ví dụ, tôi đã thấy một tuyên bố trong một bài báo sử dụng phép nội suy như:

"Quy trình nội suy hình dạng của hàm ước tính giữa các điểm bin"

Một câu sử dụng cả phép ngoại suy và phép nội suy là, ví dụ:

Bước trước đó, chúng tôi ngoại suy hàm nội suy bằng phương thức Kernel ở đuôi nhiệt độ bên trái và bên phải.

Ai đó có thể cung cấp một cách rõ ràng và dễ dàng để phân biệt chúng và hướng dẫn cách sử dụng các thuật ngữ này một cách chính xác với một ví dụ không?




@ usεr11852 Tôi nghĩ rằng hai câu hỏi bao gồm mặt bằng tương tự nhưng khác nhau bởi vì câu hỏi này yêu cầu sự tương phản với nội suy.
mkt - Phục hồi

Sự khác biệt giữa phép nội suy và phép ngoại suy này đã được chính thức hóa một cách chặt chẽ theo cách đã được thống nhất chung, (ví dụ, thông qua vỏ tàu lồi) hay những thuật ngữ này vẫn phải chịu sự phán xét và giải thích của con người?
Nick Alger

Câu trả lời:


51

Để thêm một lời giải thích trực quan cho điều này: hãy xem xét một vài điểm mà bạn dự định làm mô hình.

nhập mô tả hình ảnh ở đây

Chúng trông giống như chúng có thể được mô tả tốt với một đường thẳng, vì vậy bạn phù hợp với hồi quy tuyến tính với chúng:

nhập mô tả hình ảnh ở đây

Đường hồi quy này cho phép bạn cả nội suy (tạo các giá trị dự kiến ​​ở giữa các điểm dữ liệu của bạn) và ngoại suy (tạo các giá trị dự kiến ​​nằm ngoài phạm vi của các điểm dữ liệu của bạn). Tôi đã nhấn mạnh phép ngoại suy màu đỏ và vùng nội suy lớn nhất màu xanh lam. Để rõ ràng, ngay cả các vùng nhỏ giữa các điểm cũng được nội suy, nhưng tôi chỉ làm nổi bật vùng lớn ở đây.

nhập mô tả hình ảnh ở đây

Tại sao ngoại suy nói chung là một mối quan tâm nhiều hơn? Bởi vì bạn thường ít chắc chắn hơn về hình dạng của mối quan hệ ngoài phạm vi dữ liệu của bạn. Xem xét những gì có thể xảy ra khi bạn thu thập thêm một vài điểm dữ liệu (vòng tròn rỗng):

nhập mô tả hình ảnh ở đây

Nó chỉ ra rằng mối quan hệ đã không được nắm bắt tốt với mối quan hệ giả định của bạn sau khi tất cả. Các dự đoán trong khu vực ngoại suy đang tắt. Ngay cả khi bạn đã đoán đúng chức năng mô tả chính xác mối quan hệ phi tuyến tính này, dữ liệu của bạn không mở rộng đủ phạm vi để bạn nắm bắt tốt tính phi tuyến, do đó bạn vẫn có thể ở khá xa. Lưu ý rằng đây là một vấn đề không chỉ đối với hồi quy tuyến tính, mà đối với bất kỳ mối quan hệ nào - đây là lý do tại sao phép ngoại suy được coi là nguy hiểm.

Dự đoán trong khu vực nội suy cũng không chính xác vì thiếu tính phi tuyến trong sự phù hợp, nhưng lỗi dự đoán của chúng thấp hơn nhiều. Không có gì đảm bảo rằng bạn sẽ không có mối quan hệ bất ngờ ở giữa các điểm của bạn (tức là khu vực nội suy), nhưng nói chung là ít có khả năng hơn.


Tôi sẽ nói thêm rằng phép ngoại suy không phải lúc nào cũng là một ý tưởng tồi tệ - nếu bạn ngoại suy một chút nhỏ ngoài phạm vi dữ liệu của mình, có lẽ bạn sẽ không sai lắm (mặc dù điều đó là có thể!). Người cổ đại không có mô hình khoa học tốt về thế giới sẽ không sai lầm nếu họ dự đoán rằng mặt trời sẽ mọc lại vào ngày hôm sau và ngày hôm sau (mặc dù một ngày nữa trong tương lai, thậm chí điều này sẽ thất bại).

2

Chỉnh sửa dựa trên các nhận xét: cho dù nội suy hay ngoại suy, tốt nhất là luôn có một số lý thuyết để kỳ vọng nền tảng. Nếu mô hình hóa lý thuyết phải được thực hiện, rủi ro từ phép nội suy thường ít hơn so với phép ngoại suy. Điều đó nói rằng, khi khoảng cách giữa các điểm dữ liệu tăng cường độ, phép nội suy cũng ngày càng trở nên nguy hiểm hơn.


5
Tôi thích câu trả lời của bạn, và coi nó như là bổ sung cho tôi và không có ý nghĩa cạnh tranh. Nhưng một điểm nhỏ, quan trọng đối với một số độc giả, đó là màu đỏ và màu xanh lá cây rất khó để nhiều người phân biệt trực quan.
Nick Cox

1
@NickCox Điểm hay, cảm ơn bạn đã nêu ra điều đó - Bây giờ tôi đã thay đổi bảng màu.
mkt - Phục hồi

1
@leftaroundabout Quan điểm của tôi là mô hình đường cong Keeling mạnh đến mức các phép ngoại suy bỏ qua kinh tế & vật lý vẫn chính xác một cách hợp lý trên quy mô từ vài năm đến vài thập kỷ. Tôi đã lưu ý 'vài thập kỷ qua chính xác bởi vì đó là thang thời gian mà chúng tôi đã có các phép đo độ phân giải cao. Đây là một ví dụ trong đó phép ngoại suy sẽ không khiến bạn sai lầm nghiêm trọng và tôi nghĩ đó là điều đáng chú ý. Tôi nghĩ rằng sẽ cố tình đọc sai để tuyên bố rằng câu trả lời này là ủng hộ ngoại suy lý thuyết.
mkt - Phục hồi

1
Liên quan, tôi đã đưa ra "ví dụ gà tây" của Taleb trong câu trả lời này như một lời cảnh báo cho những người sử dụng phép ngoại suy.
JM không phải là một nhà thống kê

1
Phép ngoại suy đặc biệt có vấn đề khi bạn có quá nhiều; ví dụ, với một mô hình đa thức, đi đáng kể bên ngoài tập dữ liệu sẽ dẫn đến thời hạn thứ tự cao nhất nổ tung.
Tích lũy

21

Về bản chất, nội suy là một hoạt động trong hỗ trợ dữ liệu hoặc giữa các điểm dữ liệu đã biết; ngoại suyngoài hỗ trợ dữ liệu . Mặt khác, tiêu chí là: các giá trị còn thiếu ở đâu?

Một lý do cho sự khác biệt là ngoại suy thường khó thực hiện tốt hơn, và thậm chí nguy hiểm, theo thống kê nếu không thực tế. Điều đó không phải lúc nào cũng đúng: ví dụ, lũ sông có thể áp đảo các phương tiện đo lưu lượng hoặc thậm chí giai đoạn (cấp độ thẳng đứng), xé một lỗ trong hồ sơ đo. Trong những trường hợp đó, nội suy phóng điện hoặc giai đoạn cũng khó khăn và nằm trong hỗ trợ dữ liệu không giúp được gì nhiều.

Về lâu dài, thay đổi về chất thường thay thế cho sự thay đổi về số lượng. Khoảng năm 1900, có nhiều lo ngại rằng sự tăng trưởng trong giao thông do ngựa kéo sẽ tràn ngập các thành phố với sự bài tiết không mong muốn. Số mũ trong phân được thay thế bởi động cơ đốt trong và các số mũ khác nhau của nó.

Một xu hướng là một xu hướng là một xu hướng,
nhưng câu hỏi là, nó sẽ uốn cong?
Nó sẽ thay đổi quá trình của nó
Thông qua một số lực lượng không lường trước
và đi đến kết thúc sớm?

- Alexander Cairncross

Cairncross, A. 1969. Dự báo kinh tế. Tạp chí kinh tế , 79: 797-812. doi: 10.2307 / 2229792 (trích dẫn trên p.797)


1
Câu trả lời tốt. Giải thích là có ngay trong tên - nội suy = để làm mịn bên trong, ngoại suy = để làm mịn hơn.
Hạt nhân Wang

1
IMO đây là câu trả lời đúng. Hỗ trợ dữ liệu của Nhật Bản là bit rất quan trọng; ngay cả khi điểm bạn muốn đi là giữa hai điểm được đo thì nó vẫn có thể nằm ngoài hỗ trợ dữ liệu. Ví dụ, nếu bạn có dữ liệu thịnh vượng cho những người ở thời cổ đại La Mã và từ thời hiện đại, nhưng không ở giữa, thì việc nội suy vào thời trung cổ sẽ rất có vấn đề. Tôi sẽ gọi phép ngoại suy này. OTOH, nếu bạn có dữ liệu rải rác rải rác nhưng thống nhất trong toàn bộ khoảng thời gian, thì việc nội suy đến một năm cụ thể sẽ hợp lý hơn nhiều.
rời khỏi

1
@leftaroundabout Chỉ vì phép nội suy có thể được thực hiện trên một khoảng cách lớn trong dữ liệu không làm cho nó ngoại suy. Bạn đang nhầm lẫn về sự tư vấn của thủ tục cho chính thủ tục đó. Đôi khi nội suy cũng là một ý tưởng tồi.
mkt - Phục hồi

1
@mkt: Tôi sẽ đứng về phía bên trái rằng ví dụ đầu tiên của anh ta có thể được coi là ngoại suy, vì phép nội suy so với phép ngoại suy không thực sự được xác định rõ như chúng ta muốn nghĩ. Một phép biến đổi đơn giản của các biến có thể biến phép nội suy thành phép ngoại suy. Trong ví dụ của anh ấy, sử dụng một cái gì đó như các hàm khoảng cách thay vì thời gian thô có nghĩa là trong khi chúng ta đang nội suy, trong khoảng cách chúng ta ngoại suy ... và sử dụng thời gian thô có lẽ là một ý tưởng tồi.
Vách đá AB

1
Đây là câu trả lời của tôi. Tôi không cảm thấy cần phải đủ điều kiện. Một sự khác biệt lớn giữa phép nội suy và phép ngoại suy không loại trừ được một chút khó khăn để quyết định cái nào đang được thực hiện. Nếu bạn có một lỗ hổng lớn ở giữa không gian dữ liệu, việc ghi nhãn có thể đi theo bất kỳ cách nào. Như một số wag đã chỉ ra, thực tế là cuối ngày và đầu đêm mờ vào nhau không làm cho sự khác biệt giữa ngày và đêm trở nên vô nghĩa hoặc vô dụng.
Nick Cox

12

Phiên bản TL; DR:

  • Chính sách liên diễn ra giữa các điểm dữ liệu hiện có.
  • Chính sách thêm diễn ra ngoài họ.

Mnemonic: in terpolation => in side.

FWIW: Tiền tố xen giữa có nghĩa là giữangoài nghĩa là ngoài . Cũng nghĩ về các đường cao tốc liên bang giữa các tiểu bang hoặc các vùng đất ngoài hành tinh ngoài hành tinh của chúng ta.


1

Thí dụ:

Nghiên cứu: Muốn phù hợp với hồi quy tuyến tính đơn giản về chiều cao theo độ tuổi cho các bé gái từ 6-15 tuổi. Cỡ mẫu là 100, tuổi được tính theo (ngày đo - ngày sinh) /365,25.

Sau khi thu thập dữ liệu, mô hình phù hợp và lấy ước tính chặn b0 và độ dốc b1. nó có nghĩa là chúng ta có E (chiều cao | tuổi) = b0 + b1 * tuổi.

Khi bạn muốn chiều cao trung bình cho tuổi 13, bạn thấy rằng không có cô gái 13 tuổi nào trong mẫu 100 cô gái của bạn, một trong số họ là 12,83 tuổi và một là 13,24.

Bây giờ bạn cắm tuổi = 13 vào công thức E (chiều cao | tuổi) = b0 + b1 * tuổi. Nó được gọi là nội suy vì 13 tuổi được bao phủ bởi phạm vi dữ liệu của bạn được sử dụng để phù hợp với mô hình.

Nếu bạn muốn có được chiều cao trung bình cho tuổi 30 và sử dụng công thức đó, đó được gọi là ngoại suy, bởi vì tuổi 30 nằm ngoài phạm vi độ tuổi được bao phủ bởi dữ liệu của bạn.

Nếu mô hình có một số đồng biến, bạn cần cẩn thận vì khó có thể vẽ đường viền mà dữ liệu được bao phủ.

Trong thống kê, chúng tôi không ủng hộ ngoại suy.


"Trong thống kê, chúng tôi không ủng hộ ngoại suy." Một phần lớn của phân tích chuỗi thời gian thực hiện chính xác điều đó ....
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.