Ý nghĩa của tất cả các mô hình là gì, nhưng một số là hữu ích


76

"Về cơ bản, tất cả các mô hình đều sai, nhưng một số là hữu ích."

--- Hộp, George EP; Norman R. Draper (1987). Xây dựng mô hình thực nghiệm và các bề mặt đáp ứng, tr. 424, Wiley. SỐ 0471810339.

Chính xác ý nghĩa của cụm từ trên là gì?


13
Trên cùng một cuốn sách đã được đề cập trước đó: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Có lẽ điều này hữu ích hơn.
usεr11852

Câu trả lời:


101

Tôi nghĩ rằng ý nghĩa của nó được phân tích tốt nhất bằng cách xem xét nó trong hai phần:

"Tất cả các mô hình đều sai", nghĩa là mọi mô hình đều sai vì đó là sự đơn giản hóa của thực tế. Một số mô hình, đặc biệt là trong khoa học "cứng", chỉ sai một chút. Họ bỏ qua những thứ như ma sát hoặc hiệu ứng hấp dẫn của các cơ thể nhỏ bé. Các mô hình khác là rất nhiều sai - họ bỏ qua những điều lớn hơn. Trong khoa học xã hội, chúng ta bỏ qua rất nhiều.

"Nhưng một số là hữu ích" - đơn giản hóa thực tế có thể khá hữu ích. Họ có thể giúp chúng tôi giải thích, dự đoán và hiểu vũ trụ và tất cả các thành phần khác nhau của nó.

Điều này không đúng trong thống kê! Bản đồ là một loại mô hình; họ sai. Nhưng bản đồ tốt là rất hữu ích. Ví dụ về các mô hình hữu ích nhưng sai khác rất nhiều.


20
+1 Vì tôi thích sự tương tự của các bản đồ. Tôi sẽ sử dụng nó trong tương lai!
usεr11852

4
Nhiều mô hình trong khoa học "cứng" cũng khá xa (hôm qua tôi đã tham dự một hội thảo trong đó các phép đo trong đó mô hình nằm trong thanh lỗi, nhưng thanh lỗi là hai bậc độ lớn).
gerrit

7
+1. Tôi nghĩ câu quan trọng của bạn là "mọi mô hình đều sai vì đó là sự đơn giản hóa thực tế". Mọi người thường quên điều này - ví dụ như trong những lời chỉ trích ngây thơ về kinh tế (tôi có những lời chỉ trích của riêng tôi, nhưng họ cần phải tinh vi hơn chỉ là "thực tế phức tạp hơn mô hình của bạn"). Nếu chúng tôi không đơn giản hóa nó, bạn có thực tế thô, quá phức tạp để chúng tôi hiểu. Vì vậy, chúng tôi phải đơn giản hóa nó để có được bất kỳ cái nhìn sâu sắc.
Peter Ellis

13
Sự tưởng tượng về một bản đồ hoàn hảo trên tỷ lệ 1: 1 đã được sử dụng bởi nhiều tác giả, bao gồm Lewis Carroll, Jorge Luis Borges và Umberto Eco. Nó thực sự sẽ không có ích gì vì nó nhất thiết chỉ phức tạp như khu vực mà nó lập bản đồ và không dễ hiểu hơn (chưa kể đến sự lúng túng khi mở ra và đặt nó ra để đọc).
Nick Cox

2
Có lẽ bạn cũng có thể thêm rằng một mô hình phải có một chút sai, bởi vì nếu không nó sẽ không khái quát và do đó sẽ không được áp dụng ở nơi khác. Có một số câu trả lời nói điều này xuống hơn nữa. Nhưng hiện tại có quá nhiều câu trả lời để đọc tất cả.
ziggystar

9

Nó có nghĩa là những hiểu biết hữu ích có thể được cung cấp từ các mô hình không phải là đại diện hoàn hảo cho các hiện tượng mà chúng mô hình.

Một mô hình thống kê là một mô tả của một hệ thống sử dụng các khái niệm toán học. Như vậy, trong nhiều trường hợp, bạn thêm một lớp trừu tượng nhất định để tạo điều kiện thuận lợi cho thủ tục suy luận của bạn (ví dụ: tính chuẩn của sai số đo, đối xứng hợp chất trong các cấu trúc tương quan, v.v.). Đó là hầu như không thể cho một mô hình duy nhất để mô tả một cách hoàn hảo một hiện tượng thế giới thực cho mình có một cái nhìn chủ quan của thế giới (hệ thống giác quan của chúng ta không hoàn hảo); tuy nhiên suy luận thống kê thành công xảy ra khi thế giới của chúng ta có một mức độ nhất quán nhất định mà chúng ta khai thác. Vì vậy, các mô hình gần như luôn luôn sai của chúng tôi chứng minh hữu ích .

(Tôi chắc chắn bạn sẽ sớm nhận được câu trả lời táo bạo lớn nhưng tôi đã cố gắng súc tích về câu hỏi này!)


Chúng ta có thể nói rằng các mô hình hữu ích này đang cung cấp các giải pháp gần đúng không?
gpuguy

2
@gpuguy: Chắc chắn bạn có thể. Để trích dẫn John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(Tôi thực sự cho rằng trích dẫn của JT là sâu sắc đáng kinh ngạc.)
usεr11852

6
"Tốt hơn nhiều một câu trả lời gần đúng cho câu hỏi đúng, thường mơ hồ, hơn là một câu trả lời chính xác cho câu hỏi sai, luôn luôn có thể được thực hiện chính xác." John W. Tukey 1962 Tương lai của phân tích dữ liệu. Biên niên sử về thống kê toán học 33: 1-67 (xem trang.13-14) Không còn nghi ngờ gì nữa, ông đã nói những điều tương tự vào những thời điểm khác, nhưng đó là nguồn thông thường.
Nick Cox

Tôi đã trích dẫn trích dẫn trực tiếp từ chuỗi trích dẫn của CV có liên quan.
usεr11852

6
Tôi đã sao chép của tôi từ các ấn phẩm gốc.
Nick Cox

6

Tôi đã tìm thấy bài nói chuyện về JSA năm 2009 này của Thad Tarpey để cung cấp một lời giải thích và bình luận hữu ích về đoạn văn Box. Ông lập luận rằng nếu chúng ta coi các mô hình là gần đúng với sự thật, chúng ta có thể dễ dàng gọi tất cả các mô hình là đúng.

Đây là bản tóm tắt:

Sinh viên thống kê thường được giới thiệu với câu nói nổi tiếng của George Box: tất cả các mô hình đều sai, một số là hữu ích. Trong cuộc nói chuyện này, tôi cho rằng trích dẫn này, mặc dù hữu ích, là sai. Một quan điểm khác biệt và tích cực hơn là thừa nhận rằng một mô hình chỉ đơn giản là một phương tiện trích xuất thông tin quan tâm từ dữ liệu. Sự thật vô cùng phức tạp và một mô hình chỉ đơn thuần là một sự gần đúng với sự thật. Nếu xấp xỉ là kém hoặc sai lệch, thì mô hình là vô dụng. Trong bài nói chuyện này, tôi đưa ra ví dụ về các mô hình chính xác không phải là mô hình thực sự. Tôi minh họa làm thế nào khái niệm về một mô hình sai lầm của người Viking có thể dẫn đến kết luận sai.


3

Đối với tôi cái nhìn sâu sắc thực tế nằm ở khía cạnh sau:

Một mô hình không phải là chính xác để có ích.

Thật không may trong nhiều ngành khoa học, người ta thường quên rằng các mô hình không nhất thiết phải là đại diện chính xác của thực tế để cho phép những khám phá và dự đoán mới!

Vì vậy, đừng lãng phí thời gian của bạn để xây dựng một mô hình phức tạp cần các phép đo chính xác của một biến số. Thiên tài thực sự phát minh ra một mô hình đơn giản thực hiện công việc.


3

Một mô hình không thể cung cấp dự đoán chính xác 100% nếu có bất kỳ sự ngẫu nhiên nào trong kết quả. Nếu không có sự không chắc chắn, không có sự ngẫu nhiên và không có lỗi, thì nó sẽ được coi là một thực tế chứ không phải là một mô hình. Đầu tiên là rất quan trọng, bởi vì các mô hình thường được sử dụng để mô hình hóa các kỳ vọng về các sự kiện chưa xảy ra. Điều này gần như đảm bảo rằng có một số sự không chắc chắn về các sự kiện thực tế.

Với thông tin hoàn hảo, về mặt lý thuyết, có thể tạo ra một mô hình đưa ra dự đoán hoàn hảo cho các sự kiện được biết chính xác như vậy. Tuy nhiên, ngay cả trong những trường hợp không mong muốn này, một mô hình như vậy có thể phức tạp đến mức không thể tính toán được khi sử dụng và chỉ có thể chính xác tại một thời điểm cụ thể khi các yếu tố khác thay đổi cách giá trị thay đổi theo sự kiện.

Vì sự không chắc chắn và ngẫu nhiên có mặt trong hầu hết các dữ liệu trong thế giới thực, những nỗ lực để có được một mô hình hoàn hảo là một bài tập vô ích. Thay vào đó, sẽ có giá trị hơn khi xem xét để có được một mô hình đủ chính xác, đủ đơn giản để có thể sử dụng về cả dữ liệu và tính toán cần thiết cho việc sử dụng nó. Trong khi các mô hình này được biết là không hoàn hảo, một số sai sót này đã được biết đến và có thể được xem xét để ra quyết định dựa trên các mô hình.

Các mô hình đơn giản hơn có thể không hoàn hảo, nhưng chúng cũng dễ dàng hơn để so sánh với nhau, và có thể dễ dàng làm việc hơn vì chúng có thể ít đòi hỏi tính toán hơn.


3

Nếu tôi có thể, hơn chỉ một bình luận có thể hữu ích. Phiên bản của prase mà tôi thích là

(...) Tất cả các mô hình là gần đúng. Về cơ bản, tất cả các mô hình đều sai, nhưng một số là hữu ích (...)

được lấy từ các bề mặt phản ứng, hỗn hợp và phân tích sườn bằng hộp và Draper (2007, trang 414, Wiley). Nhìn vào trích dẫn mở rộng, rõ ràng hơn ý nghĩa của Box - mô hình thống kê là về xấp xỉ thực tế và xấp xỉ là không bao giờ chính xác, vì vậy đó là về việc tìm ra xấp xỉ phù hợp nhất . Những gì phù hợp với mục đích của bạn là một điều chủ quan, đó là lý do tại sao nó không phải là một trong những mô hình hữu ích, nhưng có thể một số trong số chúng, tùy thuộc vào mục đích của mô hình.


3

Vì không có ai thêm nó, George Box đã sử dụng giai đoạn được trích dẫn để giới thiệu phần sau trong một cuốn sách. Tôi tin rằng anh ấy làm công việc tốt nhất để giải thích những gì anh ấy có nghĩa là:

PV=RTPVTR

Đối với một mô hình như vậy, không cần phải đặt câu hỏi "Mô hình đó có đúng không?". Nếu "sự thật" là "toàn bộ sự thật" thì câu trả lời phải là "Không". Câu hỏi quan tâm duy nhất là "Mô hình có sáng và hữu ích không?".

Box, GEP (1979), "Sự mạnh mẽ trong chiến lược xây dựng mô hình khoa học", tại Launer, RL; Wilkinson, GN, Tính mạnh mẽ trong Thống kê , Báo chí học thuật, trang 2011236.


2

Bạn có thể nghĩ về nó theo cách này. độ phức tạp tối đa (nghĩa là entropy) của một đối tượng tuân theo một số dạng ràng buộc của Bekenstein :

I2πREcln2

ER

Đó là một con số lớn, trong hầu hết các trường hợp:

2.58991·1042Ω=2I107.79640·1041

Vì vậy, bạn có muốn sử dụng "bản đồ tốt nhất", tức là chính lãnh thổ, với tất cả các phương trình sóng cho tất cả các hạt trong mỗi ô không? Tuyệt đối không. Nó không chỉ là một thảm họa tính toán, mà bạn sẽ mô hình hóa những thứ mà về cơ bản không liên quan gì đến những gì bạn quan tâm. Nếu tất cả những gì bạn muốn làm là, xác định xem tôi có thức hay không, bạn không cần biết electron # 32458 đang làm gì trong tế bào thần kinh # 844030 ribosome # 2305 phân tử # 2. Nếu bạn không mô hình hóa điều đó, mô hình của bạn thực sự "sai", nhưng nếu bạn có thể xác định liệu tôi có tỉnh táo hay không, mô hình của bạn chắc chắn rất hữu ích.


2

Tôi nghĩ Peter và user11852 đã đưa ra câu trả lời tuyệt vời. Tôi cũng sẽ thêm (bằng cách phủ định) rằng nếu một mô hình thực sự tốt, nó có thể sẽ vô dụng vì quá nhiều (do đó, không khái quát).


2
+1 cho điểm quá mức. Các thuật toán như Naive Bayes và phân tích phân biệt tuyến tính thường hoạt động rất tốt, ngay cả khi bạn biết mô hình cơ bản không chính xác (ví dụ: lọc thư rác), đơn giản vì cần ít dữ liệu hơn để ước tính các tham số.
Dikran Marsupial

1

Giải thích về axit của tôi là: Tin rằng một mô hình toán học mô tả chính xác tất cả các yếu tố và tương tác của chúng, điều chỉnh một hiện tượng quan tâm sẽ quá đơn giản và kiêu ngạo. Chúng ta thậm chí không biết liệu logic chúng ta sử dụng có đủ để hiểu vũ trụ của chúng ta hay không. Tuy nhiên, một số mô hình toán học đại diện cho một xấp xỉ đủ tốt (về phương pháp khoa học) rất hữu ích để đưa ra kết luận về hiện tượng đó.


1

Là một nhà thiên văn học (có lẽ là một giống chó quý hiếm), tôi thấy sự nổi tiếng của dictum của Box là không may. Trong khoa học vật lý, chúng ta thường có sự đồng thuận mạnh mẽ để hiểu các quá trình tiềm ẩn của một hiện tượng quan sát được và các quá trình này thường có thể được biểu thị bằng các mô hình toán học phát sinh từ các định luật hấp dẫn, cơ học lượng tử, nhiệt động lực học, v.v. các đặc tính vật lý của mô hình phù hợp nhất, cũng như lựa chọn và xác nhận mô hình. Một trường hợp kịch tính gần đây đã phát sinh từ việc phát hành bài báo tháng 3 năm 2013 từ vệ tinh Planck của Cơ quan Vũ trụ châu ÂuCác phép đo của nền vi sóng vũ trụ đã thiết lập một cách thuyết phục một mô hình `LambdaCDM '6 tham số đơn giản cho Big Bang. Tôi nghi ngờ rằng dictum của Box sẽ áp dụng bất cứ nơi nào trong phạm vi rộng các phương pháp thống kê tiên tiến được sử dụng trong 29 bài báo này.


1

Tôi vừa viết lại câu trả lời trên bằng cách xem xét các mô hình quy trình là điểm trọng tâm. Tuyên bố có thể được hiểu như sau:

"Tất cả các mô hình đều sai", nghĩa là mọi mô hình đều sai vì đó là sự đơn giản hóa của thực tế. Một số mô hình chỉ là một chút sai. Họ bỏ qua một số điều, ví dụ: -> thay đổi yêu cầu, -> Bỏ qua việc hoàn thành dự án trong thời hạn, -> không xem xét mức độ chất lượng mong muốn của khách hàng, v.v ... Các mô hình khác rất sai - họ bỏ qua những điều lớn hơn. Các mô hình quy trình phần mềm cổ điển bỏ qua rất nhiều so với các mô hình Quy trình nhanh mà bỏ qua ít hơn.

"Nhưng một số là hữu ích" - đơn giản hóa thực tế có thể khá hữu ích. Họ có thể giúp chúng tôi giải thích, dự đoán và hiểu toàn bộ dự án và tất cả các thành phần khác nhau của nó. Các mô hình được sử dụng vì các tính năng của chúng tương ứng với hầu hết các chương trình phát triển phần mềm.


0

Tôi muốn đưa ra một cách giải thích khác về thuật ngữ "hữu ích". Có lẽ không phải là một Box nghĩ về.

Khi bạn phải đưa ra quyết định, và đây là những gì tất cả thông tin cuối cùng sẽ được sử dụng, sau đó bạn phải đo lường sự thành công của mình dưới một hình thức nào đó. Khi nói về các quyết định với thông tin không chắc chắn, biện pháp này thường được gọi là tiện ích.

Vì vậy, chúng ta cũng có thể nghĩ về các mô hình hữu ích như những mô hình cho phép chúng ta đưa ra quyết định sáng suốt hơn; để đạt được mục tiêu của chúng tôi hiệu quả hơn.

Điều này bổ sung thêm một khía cạnh khác trên các tiêu chí thông thường, chẳng hạn như khả năng của một mô hình để dự đoán một cái gì đó một cách chính xác: Nó cho phép chúng ta cân nhắc các khía cạnh khác nhau mà một mô hình đối với nhau.


-2

"Tất cả các mô hình đều sai, nhưng một số là hữu ích". Có lẽ nó có nghĩa là: Chúng ta nên làm tốt nhất có thể với những gì chúng ta biết + tìm kiếm việc học mới?


4
(-1) Bạn có thể cung cấp bất kỳ tài liệu tham khảo nào cho thấy GEP Box có nghĩa như vậy không? Như bạn có thể tìm thấy từ các câu trả lời khác, anh ta có nghĩa là một cái gì đó hoàn toàn khác.
Tim

OP có lẽ đang lấy trích dẫn và đưa ra một cách giải thích mới. Tôi đồng ý với Tim rằng Box ít nhiều nói rằng đừng coi mô hình là một cách giải thích chính xác về thực tế nhưng nhận ra rằng một số mô hình có thể mô tả dữ liệu tốt.
Michael Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.