Từ quan điểm kỹ thuật, nhược điểm của một mô hình quá chính xác là gì?


24

Tôi đã tự hỏi, từ quan điểm kỹ thuật, vì lý do gì mà quá nhiều độ chính xác trong mô hình hóa có thể gây bất lợi?

Từ quan điểm khoa học, có vẻ như nó hầu như luôn luôn là một lợi ích, ngoài việc bạn cần mất ít thời gian tính toán hơn.

Vì vậy, từ quan điểm kỹ thuật, bên cạnh thời gian (hoặc sức mạnh tính toán) tại sao bạn nên tránh điều đó?


2
Vui lòng xác định "chính xác" và "quá nhiều" ở đây. Bạn có thể có một mô hình dự đoán phạm vi độ không đảm bảo có độ chính xác cực cao hoặc một mô hình làm giảm độ không đảm bảo đã nói đến một giá trị rất nhỏ. Và như vậy.
Carl Witthoft

1
Tất cả mọi thứ nên được làm đơn giản nhất có thể, nhưng không đơn giản hơn. Einstein Einstein.
Eric Duminil

1
"bên cạnh thời gian (hoặc sức mạnh tính toán)" Dường như tất cả các câu trả lời đã bỏ lỡ điểm này ..
đặc vụ

1
@agentp Ngược lại, câu hỏi tự trả lời bằng cách cố gắng loại trừ điều đó. Đó là một điều ngớ ngẩn khi được đặt câu hỏi ngay từ đầu.
jpmc26

2
đây thực sự là câu hỏi "được bình chọn cao nhất" mà tôi từng thấy. Đó là căn hộ khó hiểu.
đặc vụ

Câu trả lời:


38

Coi chừng quá mức . Một mô hình chính xác hơn về dữ liệu được thu thập từ một hệ thống có thể không phải là một yếu tố dự đoán tốt hơn về hành vi trong tương lai của một hệ thống.

Ví dụ quá mức

Hình ảnh trên cho thấy hai mô hình của một số dữ liệu.

Đường thẳng có phần chính xác trên dữ liệu huấn luyện (các điểm trên biểu đồ) và (người ta mong đợi) sẽ chính xác hơn một chút về dữ liệu thử nghiệm (trong đó các điểm có khả năng là x <5 và x> -5 ).

Ngược lại, đa thức chính xác 100% cho dữ liệu huấn luyện, nhưng (trừ khi bạn có bất kỳ lý do nào để tin rằng đa thức bậc 9 là hợp lý vì một số lý do vật lý), bạn sẽ cho rằng đây sẽ là một công cụ dự đoán cực kỳ kém cho x> 5 và x <-5.

Mô hình tuyến tính là "ít chính xác hơn", dựa trên bất kỳ so sánh lỗi nào với dữ liệu chúng tôi đã thu thập. Nhưng nó là khái quát hơn.

Ngoài ra, các Kỹ sư phải bớt lo lắng về mô hình của họ và nhiều hơn về những gì mọi người sẽ làm với mô hình.

Nếu tôi nói với bạn rằng chúng ta sẽ đi dạo vào một ngày nóng và dự kiến ​​sẽ kéo dài 426 phút. Bạn có khả năng mang ít nước hơn nếu tôi nói với bạn rằng cuộc đi bộ sẽ kéo dài 7 giờ, và thậm chí ít hơn nếu tôi nói rằng cuộc đi bộ sẽ kéo dài 4-8 giờ. Điều này là do bạn đang phản ứng với mức độ tin cậy ngụ ý của tôi trong dự báo của tôi, chứ không phải là điểm giữa của thời gian đã nêu của tôi.

Nếu bạn cung cấp cho mọi người một mô hình chính xác, mọi người sẽ giảm tỷ lệ lỗi. Điều này dẫn đến rủi ro lớn hơn.

Đi bộ vào một ví dụ ngày nóng, nếu tôi biết đi bộ sẽ mất 4-8 giờ trong 95% trường hợp, với một số điều không chắc chắn xung quanh điều hướng và tốc độ đi bộ. Hoàn toàn biết tốc độ đi bộ của chúng tôi sẽ làm giảm độ không chắc chắn của con số 4-8, nhưng nó sẽ không ảnh hưởng đáng kể đến "cơ hội chúng ta mất quá lâu để nước trở thành một vấn đề", bởi vì điều đó được điều khiển gần như hoàn toàn bởi sự điều hướng không chắc chắn, không phải tốc độ đi bộ không chắc chắn.


1
Đúng, mặc dù tôi nhận xét rằng một đa thức bậc là một ví dụ với hành vi xấu bất thường; nhất định không bao giờ nên sử dụng một mô hình như vậy. Các mô hình nhạy cảm, ngay cả khi được trang bị quá mức, không nên phát nổ như vậy trừ khi bạn thực sự rời khỏi phạm vi được bao phủ bởi các phép đo. Trong thực tế, ngay cả một đa thức bậc 8 cũng sẽ tạo ra sự phù hợp mượt mà hơn rất nhiều, dựa trên những dữ liệu đó. N
leftaroundabout

Trích dẫn chính từ bài viết Wikipedia được liên kết: 'quá mức xảy ra khi một mô hình bắt đầu "ghi nhớ" dữ liệu đào tạo thay vì "học" để khái quát hóa từ một xu hướng.'
Emilio M Bumachar

4
Chúng ta có thực sự coi việc quá mức là "quá chính xác trong mô hình" không? Đó không phải là nhược điểm của việc "mô hình quá chính xác". Đó là nhược điểm của việc có quá nhiều điểm chính xác và mô hình kém . Tạo một mô hình xấu khỏi dữ liệu chính xác không phải là một mô hình chính xác.
JMac

@JMac: Quá mức có thể xảy ra một cách tự nhiên trong bối cảnh học máy, mà không cố tình đặt ra để xây dựng một mô hình xấu, chỉ bằng cách ném quá nhiều dữ liệu vào tập huấn luyện. Tôi không chắc chắn "quá chính xác" là cách đúng để mô tả loại kết quả đó, nhưng cũng không phải là "lỗi mô hình đơn giản".
Kevin

26

Nhược điểm rõ ràng nhất là chi phí, tất cả các dự án kỹ thuật có ngân sách hữu hạn và chi tiêu nhiều tiền hơn bạn cần rõ ràng là một điều tồi tệ không đề cập đến việc lãng phí thời gian.

Cũng có thể có nhiều vấn đề tinh tế hơn. Những thứ như phân tích FE luôn là xấp xỉ và đôi khi thêm chi tiết không cần thiết có thể giới thiệu các đồ tạo tác và làm cho việc khắc phục sự cố mô hình trở nên khó khăn hơn. Ví dụ: bạn có thể bị gián đoạn dẫn đến căng thẳng

Cũng có ý kiến ​​cho rằng ngay cả khi bạn có khả năng tính toán để thoải mái xử lý một lượng lớn các nhà cung cấp dữ liệu và khách hàng có thể không và trong nhiều trường hợp, việc chuyển các tệp lớn vẫn còn một chút tắc nghẽn.

Tương tự như vậy nếu bạn có nhiều tham số hơn mức bạn cần, bạn có khả năng tạo thêm công việc trong việc quản lý và gỡ lỗi tệp.

Một lần nữa ngay cả khi bạn có thời gian và nguồn lực dồi dào bây giờ, có lẽ ai đó ở xa hơn cần phải sử dụng mô hình đó mà không có sự xa xỉ tương tự, đặc biệt nếu cuối cùng nó là một phần của sản phẩm mà bạn đang bán cho khách hàng.


7
Truy vấn: Đoạn 2 nên đọc "... thêm chi tiết cần thiết ..." hoặc "thêm chi tiết không cần thiết"
Fred

vâng, không cần thiết
Chris Johns

Tôi không chắc chắn nếu ví dụ FE hoạt động tốt ở đây. Trong trường hợp đó, FE mô hình. Sử dụng dữ liệu chính xác hơn có thể trình bày các vấn đề; nhưng nếu mô hình FE của bạn là chính xác, thì rõ ràng bạn không cần phải lo lắng về các vật phẩm; bởi vì mô hình của bạn không có chúng. Chúng tôi đã xác định nó là chính xác. Có thể trong trường hợp sử dụng một mô hình khác để cắm vào phân tích FE; nhưng sau đó, đó chủ yếu chỉ là điểm "ai đó tiếp tục xuống đường" bằng cách sử dụng mô hình.
JMac

13

Có một vài lý do.

Từ quan điểm hoàn toàn thực dụng, đó là do hạn chế về thời gian. Thời gian cần thiết để giải quyết một mô hình tăng rất xa, nhanh hơn nhiều so với mức độ chính xác và dù mức độ nào được thông qua là chủ quan.

Điều này cũng bị ảnh hưởng bởi thực tế là độ chính xác quá mức chủ yếu là vô dụng. Rốt cuộc, mô hình của bạn có thể chính xác 99,999% cho các giá trị đầu vào đã cho, nhưng thế giới thực là không chính xác. Ví dụ , mô đun đàn hồi của thép có dung sai - . Vậy tại sao phải bận tâm với một mô hình siêu chính xác nếu một trong những đầu vào quan trọng của bạn có thể giảm 10%? (không cần phải nói rằng biên sai số của các vật liệu khác như bê tông hoặc đất và cho các biến khác như tải cao hơn đáng kể).15 %±515%

Do đó, không có điểm nào quá chính xác. Nhưng thực sự, nó có thể có ích khi thậm chí không cố gắng quá chính xác. Những lý do cho điều này chủ yếu là tâm lý, tuy nhiên. Chủ yếu, bạn không muốn mô hình của mình quá chính xác và bạn không muốn đưa ra kết quả của mình với bảy chữ số thập phân, vì bạn không muốn gợi lên cảm giác tự tin sai lầm.

Bộ não con người rất khó để nghĩ rằng 1.2393532697 là một giá trị chính xác hơn 1.2. Nhưng thực tế không phải vậy. Do tất cả các yếu tố không chắc chắn trong thế giới thực, mô hình của bạn không thể xem xét (đặc biệt là với các giới hạn phần cứng hiện tại), 1.2 gần như chắc chắn là kết quả hợp lệ như 1.2393532697. Vì vậy, đừng bao gồm chính bạn hoặc bất cứ ai nhìn thấy mô hình của bạn. Chỉ cần xuất 1.2, cho thấy rõ ràng rằng bạn không thực sự biết điều gì đang xảy ra sau chữ số thứ hai đó.


6

Một mô hình cực kỳ chính xác có thể yêu cầu một lượng dữ liệu đầu vào bị cấm. Chẳng hạn, có thể tạo ra một mô hình tuyệt vời của các hệ thống thời tiết, bằng cách lấy đầu vào vị trí và vận tốc của mọi phân tử khí trong khí quyển. Trong thực tế, một mô hình như vậy sẽ không hữu ích, vì không có cách thực tế để tạo đầu vào thích hợp. Một mô hình ít chính xác hơn chỉ yêu cầu dữ liệu đầu vào hạn chế sẽ thích hợp hơn trong trường hợp này.


1
Bạn đã trả lời một câu hỏi khác, để dí dỏm: "bao nhiêu dữ liệu đầu vào là quá nhiều"
Carl Witthoft

Có lẽ tôi đã thêm vào đây một lưu ý về cách câu hỏi đề cập đến "bên cạnh đó khi bạn cần ít thời gian tính toán hơn", bởi vì đó cũng là một lý do chính đáng để có một mô hình ít chính xác hơn; nếu mô hình của bạn quá chính xác, các trường hợp trong thế giới thực có thể mất nhiều thời gian hơn so với cái chết nhiệt của vũ trụ để tính toán.
Delioth

5

"Quá chính xác" không phải là đơn điệu. Nó thực sự có thể tạo ra một ảo ảnh về độ trung thực khiến bạn nghĩ rằng đáng để bơm thêm tiền vào mô phỏng. Điều này trở nên rất quan trọng khi bạn trình bày dữ liệu từ các mô hình độ trung thực hỗn hợp, trong đó một số phần rất chi tiết và các phần khác rất thô.

Một ví dụ thực tế tôi đã tham gia lấy mẫu độ cao trên địa hình. Nhóm nghiên cứu đã quyết định lấy mẫu địa hình trong 1024 khối để tối đa hóa độ trung thực. Khách hàng của chúng tôi muốn có một câu trả lời thực sự (tm).

Bây giờ tôi đã bị làm phiền bởi thời gian chạy các thuật toán đặc biệt này gây ra, và tôi muốn hiểu mức độ trung thực mà tôi đã trả cho. Tôi chưa thấy bất kỳ dữ liệu địa hình nào, vì vậy tôi hỏi họ cách họ tải nó. Câu trả lời là "oh, chúng tôi không có địa hình. Nó chỉ bằng phẳng."

Nghe có vẻ như tôi có một mô hình độ trung thực cao tuyệt vời đã lấy mẫu 1024 điểm. Những gì tôi thực sự có là một mô hình độ trung thực thấp, không tốt hơn lấy mẫu 1 điểm 1024 lần, nhưng chạy chậm hơn cả tấn, và giả dạng là một mô hình có độ trung thực cao hơn!

Trong thế giới kỹ thuật thực, các nhà lãnh đạo không phải lúc nào cũng có cơ hội tìm hiểu toàn bộ kiến ​​trúc của một mô hình. Trên thực tế, tôi muốn nói rằng họ không bao giờ có thời gian. Lãnh đạo của chúng tôi đã đưa ra quyết định từ giả định rằng chúng tôi có một mô hình 1024 điểm tuyệt vời. Không có ai có lỗi, đó chỉ là những gì xảy ra khi bạn điều chỉnh độ trung thực quá cao ở một phần của mô hình và phần còn lại có độ trung thực thấp. Đó là bản chất của con thú với sự chung thủy.


Một câu chuyện ngụ ngôn về cách giảm xuống các số liệu quan trọng không phải lúc nào cũng chỉ là cắt các số 0 ở cuối.
Eikre

1

Trong thực tế có dữ liệu chúng ta có, và có dữ liệu chúng ta không có. Hầu như luôn luôn, lượng dữ liệu chúng tôi không có nhiều hơn nhiều so với những gì chúng tôi có thể hy vọng thu thập được vì lý do thực tế hoặc kinh tế.

Bằng cách cố gắng phù hợp với dữ liệu một cách đáng ghét với một vài mẫu, do đó chúng tôi sẽ có nguy cơ khiến mô hình của chúng tôi thực hiện các ước tính thực sự xấu vào các khu vực mà chúng tôi thực sự không có đầu mối (do thiếu dữ liệu). Sau đó, mô hình của chúng tôi sẽ cho chúng ta một cảm giác an toàn sai lầm.


1

Vì vậy, từ quan điểm kỹ thuật, bên cạnh thời gian (hoặc sức mạnh tính toán), tại sao bạn nên tránh điều đó

Xuất phát từ quan điểm kỹ thuật cơ khí, lý do lớn nhất là bạn chỉ cam kết nỗ lực bổ sung nếu nó tạo ra kết quả khác nhau đáng kể.

Nếu mức độ chính xác trong mô hình của bạn là các đơn đặt hàng có cường độ cao hơn mức độ chính xác, bạn sẽ có thể cung cấp khi thực hiện thiết kế của mình, bạn đang lãng phí công sức của mình. Nếu mức độ chính xác được mô tả trong mô hình của bạn cao hơn mức cần thiết có tác động cho khách hàng. Bạn đang lãng phí tiền bạc. Ví dụ: nếu bạn chỉ định độ chính xác cao hơn thiết kế thực sự yêu cầu (ví dụ: +/- .00001mm theo chiều dài của ống thông hơi), bạn đang lãng phí tiền của khách hàng vì lỗ thông hơi 350mm vào khí quyển thực hiện công việc tương tự như lỗ thông hơi 350.0005mm với khí quyển nhưng sau này đắt hơn đáng kể để sản xuất.

Trong trường đại học, tất cả chúng ta đều học cách mô hình hóa thế giới vật lý bằng vật lý Newton mặc dù nó được thiết lập tốt rằng vật lý hậu Newton có một mô hình chính xác hơn về hành vi vật lý. Mặc dù vậy, tôi biết rằng không có chương trình kỹ thuật cơ khí nào mặc định là các mô hình Newton đã quá không chính xác. Nếu chúng ta sử dụng mô hình chính xác hơn và đưa ra câu trả lời gần hơn 0,1% với sự thật lý thuyết sẽ không ảnh hưởng đến thiết kế cuối cùng của chúng ta trong phần lớn các trường hợp. Nếu ứng suất năng suất của chúng tôi khác nhau 0,1% mang lại cho chúng tôi sự khác biệt không đáng kể trong mặt cắt ngang yêu cầu của chúng tôi dẫn đến việc chúng tôi chọn kích thước chính xác của dầm chữ I dựa trên một trong hai phương pháp. Trong trường hợp này, chi phí của nỗ lực bổ sung không mang lại lợi ích bổ sung.

Bây giờ có những tình huống đòi hỏi độ chính xác để tạo ra một thiết kế hoàn toàn khả thi, ví dụ như mô hình hóa một số vệ tinh yêu cầu vật lý tương đối tính. Trong những trường hợp này, chúng ta cần tìm một mô hình cung cấp mức độ chính xác cần thiết và chúng ta cần thiết kế cho mô hình. Nếu chúng ta cần tính toán kích thước đến +/- 0,0001% thì hoàn toàn lãng phí công sức nếu kích thước bộ phận của chúng tôi là +/- 0,1%. Trong các ứng dụng trong thế giới thực, kích thước một phần của mức độ chính xác sau phổ biến hơn nhiều so với trước đây.


0

Chi phí: chi phí thời gian hoặc chi phí cho sức mạnh tính toán và chi phí chính xác - nếu các biến khác có dung sai 5%, ví dụ tại sao tính kết quả thành 1% ...


0

Trong các câu trả lời trước, đầu vào và chi phí đã được đề cập. Nếu bạn muốn độ chính xác, ví dụ. để tối ưu hóa các thông số sản xuất, bạn có thể cần nhiều phép đo hơn và trước tiên bạn cần phân tích xem bạn có thể giảm chi phí bao nhiêu so với bao nhiêu giờ làm việc để tăng thời gian đo lường hoặc chi phí cho hệ thống tự động sẽ thay thế việc thu thập dữ liệu thủ công. Ví dụ thứ hai nếu bạn nhận được các giải pháp rất chính xác trong đó bạn đã đầu tư thời gian và các nguồn lực khác để có được, bạn có thiết bị đầy đủ để kiểm soát chất lượng, đo lường công nghiệp, vv hoặc thậm chí là công nghệ. Nếu kết quả của bạn là vô ích hơn thời gian dành cho họ thì đó là sai lầm.


0

Bạn có cần một hình ảnh vệ tinh ở độ phân giải centimet để xác định rừng theo màu không? Chắc chắn là không. Tôi sẽ bất lợi, vì bạn phải quyết định về bất kỳ bản vá 10 cm vuông không màu xanh lá cây nào. Tương tự cho mô hình hóa: độ phân giải chi tiết phải phù hợp với độ phân giải của các tính năng mục tiêu của bạn. Nếu không, bạn sẽ mất thời gian thu nhỏ.


0

Hầu hết các câu trả lời thực sự bị loại trừ bởi ràng buộc giả tạo của bạn rằng sức mạnh tính toán và thời gian tính toán không được xem xét. Một mô hình mất nhiều giờ hoặc nhiều ngày để đánh giá không cho phép lặp lại thiết kế nhanh chóng và sẽ làm mọi thứ chậm lại trên quy mô của con người, làm tăng chi phí và có thể dẫn đến kết quả kém hơn. Khéo léo đơn giản hóa các mô hình mà không mất quá nhiều độ chính xác có thể là một cách tiếp cận rất hữu ích, sau đó mô hình brute-force có thể được sử dụng để xác nhận lần lặp cuối cùng.

Các mô hình quá phức tạp có thể che giấu các lỗi cơ bản trong mô hình hoặc công việc cần thiết để thu thập thông tin để thực tế sử dụng mô hình đến mức tối đa sẽ vượt xa bất kỳ lợi ích tiềm năng nào. Ví dụ: nếu bạn cần biết các đặc tính của vật liệu với độ chính xác cao hơn mức mà nhà cung cấp có thể kiểm soát chúng, bạn có thể chấp nhận các dải lỗi hoặc đi và kiểm tra từng lô vật liệu để điều chỉnh mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.