Sự khác biệt giữa dự đoán và suy luận là gì?


37

Tôi đang đọc qua " Giới thiệu về học thống kê ". Trong chương 2, họ thảo luận về lý do ước tính hàm .f

2.1.1 Tại sao Ước tính ?f

Có hai lý do chính mà chúng ta có thể muốn ước tính f : dự đoánsuy luận . Chúng tôi thảo luận lần lượt từng người.

Tôi đã đọc nó nhiều lần, nhưng tôi vẫn chưa rõ về sự khác biệt giữa dự đoán và suy luận. Ai đó có thể cung cấp một ví dụ (thực tế) về sự khác biệt?


5
Các tác giả của Giới thiệu về Học thống kê đã thực hiện cho chúng tôi một sự bất đồng ở đây. Người ta đưa ra những suy luận để đưa ra dự đoán giống như người ta suy luận để hiểu nguyên nhân và hậu quả. Merriam-webster.com định nghĩa "suy luận" chủ yếu là "để rút ra như một kết luận từ các sự kiện hoặc cơ sở." Điều đó bao gồm cả lý luận nhân quả và dự đoán. Đó là sai lệch, khó hiểu và chống lại việc sử dụng tiêu chuẩn dài hạn để thu hẹp định nghĩa "suy luận" để chỉ bao gồm các vấn đề về quan hệ nhân quả. Vì vậy: hãy đối chiếu suy luận dự đoán với suy luận nguyên nhân.
rolando2

2
@ rolando2: Sau đó, tôi đoán chúng ta cũng cần suy luận mô tả , nghĩa là suy luận về các tham số trong các mô hình mô tả (phi nhân quả).
kjetil b halvorsen

Câu trả lời:


29

Suy luận: Đưa ra một tập hợp dữ liệu bạn muốn suy ra cách tạo đầu ra như là một chức năng của dữ liệu.

Dự đoán: Đưa ra một phép đo mới, bạn muốn sử dụng một bộ dữ liệu hiện có để xây dựng một mô hình đáng tin cậy chọn định danh chính xác từ một tập hợp các kết quả.


Suy luận: Bạn muốn tìm hiểu ảnh hưởng của Tuổi tác, Lớp hành khách và Giới tính đối với việc sống sót sau Thảm họa Titanic. Bạn có thể đưa ra một hồi quy logistic và suy ra ảnh hưởng của mỗi đặc tính hành khách đối với tỷ lệ sống.

Dự đoán: Đưa ra một số thông tin về hành khách Titanic, bạn muốn chọn từ bộ và chính xác nhất có thể. (Xem sự đánh đổi sai lệch thiên vị để dự đoán trong trường hợp bạn tự hỏi làm thế nào để chính xác càng thường xuyên càng tốt.){cuộc sống,chết}


Dự đoán không xoay quanh việc thiết lập mối quan hệ chính xác nhất giữa đầu vào và đầu ra, dự đoán chính xác quan tâm đến việc đưa các quan sát mới vào đúng lớp càng thường xuyên càng tốt.

Vì vậy, 'ví dụ thực tế' hoàn toàn nắm bắt được sự khác biệt sau: Đưa ra một tập hợp dữ liệu hành khách cho một hành khách, phương pháp suy luận cho bạn xác suất sống sót, phân loại cho bạn lựa chọn giữa sống hoặc chết.

Điều chỉnh phân loại là một chủ đề rất thú vị và quan trọng theo cùng cách diễn giải chính xác các giá trị p và khoảng tin cậy.


1
Câu trả lời tốt. Nhưng khi một số người nghe thấy từ "suy luận", họ nghĩ "suy luận nguyên nhân". Bạn cũng có thể muốn nói điều gì đó về điều đó, mặc dù (hoặc có lẽ đặc biệt là vì) ISLR không tập trung vào nó.
generic_user

1
Tôi nghĩ rằng trong thế giới học tập sâu, suy luận gần giống như dự đoán, ví dụ. blog.nvidia.com/blog/2016/08/22/ trên
dùng1893354

1
Đây dường như là một câu trả lời hoàn toàn tốt cho tôi.
gung - Tái lập Monica

3
Tôi tin rằng câu trả lời này là sai, cụ thể là "phương pháp suy luận cho bạn xác suất sống sót, bộ phân loại cho bạn lựa chọn giữa sống hay chết", thậm chí cụ thể hơn là phần đầu tiên. Tính xác suất để một hành khách sống sót là một dự đoán, cụ thể là xác suất. Trong trường hợp liên tục, nó sẽ là một dự báo mật độ. Sau đó, chúng ta có thể ngưỡng xác suất dự đoán này để có được một phân loại cứng , vâng. ...
S. Kolassa - Tái lập lại

3
... Trong khi dự đoán là về dự đoán kết quả , suy luận là tìm hiểu mối quan hệ của đầu vào với kết quả: đầu vào nào có mối quan hệ như vậy và làm thế nào chúng ta có thể phân biệt mối quan hệ "thật" với cộng hưởng ngẫu nhiên (đó là giá trị p mời vào)? Ai đó có thể giải thích cho tôi nơi tôi đang nhầm lẫn?
S. Kolassa - Tái lập lại

11

Nói chung khi thực hiện phân tích dữ liệu, chúng tôi tưởng tượng rằng có một loại "quy trình tạo dữ liệu" nào đó làm phát sinh dữ liệu và suy luận đề cập đến việc tìm hiểu về cấu trúc của quy trình này trong khi dự đoán có nghĩa là có thể thực sự dự báo dữ liệu đến từ nó . Thường thì hai người đi cùng nhau, nhưng không phải lúc nào cũng vậy.

Một ví dụ trong đó hai người song hành cùng nhau sẽ là mô hình hồi quy tuyến tính đơn giản

Ytôi= =β0+β1xtôi+εtôi.

β0β1


3
"nhưng mô hình không nhất thiết dẫn đến những hiểu biết có ý nghĩa về những gì đang xảy ra đằng sau hậu trường." Thuật ngữ " hộp đen " xuất hiện trong tâm trí. :)
Alexis

hoặc lưới thần kinh nhiều lớp
Shihab Shahriar Khan

"Nhưng có nhiều loại mô hình khác mà người ta có thể đưa ra dự đoán hợp lý, nhưng mô hình không nhất thiết dẫn đến những hiểu biết có ý nghĩa về những gì đang xảy ra đằng sau hậu trường.", Ai quan tâm? Vấn đề suy luận, như bạn đã định nghĩa nó, vẫn là một trong những xác định các tham số của mô hình. Tôi không hiểu tại sao bạn bắt đầu câu này bằng "Nhưng" và tại sao bạn thậm chí đã viết câu này, liên quan đến định nghĩa suy luận và dự đoán của bạn.
nbro

1
Việc sử dụng "nhưng" là do cả mô tả của các mô hình trước & sau đều đúng, tuy nhiên mô hình sau khác với bản chất của mô hình trước theo cách mà bạn không mong đợi cho đến khi bạn nắm được sự khác biệt giữa dự đoán & suy luận điều đó đang được minh họa Tuy nhiên, tôi đã quen thuộc với sự khác biệt, tôi thấy ví dụ này sâu sắc và hữu ích. +1
gung - Phục hồi Monica

10

Trong trang 20 của cuốn sách, các tác giả cung cấp một ví dụ đẹp khiến tôi hiểu được sự khác biệt.

Đây là đoạn trong cuốn sách: Giới thiệu về học thống kê

"Ví dụ , trong môi trường bất động sản, người ta có thể tìm cách liên kết các giá trị của ngôi nhà với các yếu tố đầu vào như tỷ lệ tội phạm, khoanh vùng, khoảng cách từ sông, chất lượng không khí, trường học, mức thu nhập của cộng đồng, quy mô nhà ở, v.v. Trong trường hợp này, người ta có thể quan tâm đến việc các biến đầu vào riêng lẻ ảnh hưởng đến giá như thế nào , một ngôi nhà sẽ có giá trị bao nhiêu nếu nó có tầm nhìn ra sông? Đây là một vấn đề suy luận . trong việc dự đoán giá trị của một ngôi nhà với các đặc điểm của nó: ngôi nhà này có giá trị thấp hay quá giá trị? Đây là một vấn đề dự đoán . "


5

ytx1,tx2,t

yt= =f(x1,t-1,x2,t-1)+εt

Bây giờ, nếu bạn nhận được dữ liệu về thu nhập, giả sử chuỗi thu nhập khả dụng cá nhân từ BEA và xây dựng biến thời gian của năm, bạn có thể ước tính hàm f , sau đó cắm các giá trị mới nhất của thu nhập dân số và thời gian trong năm vào đây chức năng. Điều này sẽ mang lại dự đoán cho quý tiếp theo của doanh thu của cửa hàng.

f/x2tβ2x2,t-1

xcó mối tương quan khó phân tách tác động của yếu tố dự đoán với tác động của các yếu tố dự đoán khác. Để dự đoán điều này không thành vấn đề, tất cả những gì bạn quan tâm là chất lượng của dự báo.


3

Hãy tưởng tượng, bạn là một bác sĩ y khoa trong một đơn vị chăm sóc tích cực. Bạn có một bệnh nhân bị sốt mạnh và một số lượng tế bào máu nhất định và trọng lượng cơ thể nhất định và hàng trăm dữ liệu khác nhau và bạn muốn dự đoán, nếu người đó sẽ sống sót. Nếu có, anh ta sẽ che giấu câu chuyện về đứa con khác của mình với vợ, nếu không, điều quan trọng là anh ta phải tiết lộ nó, trong khi anh ta có thể.

Bác sĩ có thể thực hiện dự đoán này dựa trên dữ liệu của các bệnh nhân cũ mà anh ta có tại đơn vị của mình. Dựa trên kiến ​​thức phần mềm của mình, anh ta có thể dự đoán bằng cách sử dụng hồi quy tuyến tính tổng quát (glm) hoặc thông qua mạng lưới thần kinh (nn).

1. Mô hình tuyến tính tổng quát

Có rất nhiều thông số tương quan cho glm để có kết quả, bác sĩ sẽ phải đưa ra các giả định (tuyến tính, v.v.) và quyết định xem thông số nào có khả năng có ảnh hưởng. Glm sẽ thưởng cho anh ta một bài kiểm tra quan trọng đối với từng thông số của anh ta để anh ta có thể thu thập bằng chứng mạnh mẽ, rằng giới tính và sốt có ảnh hưởng đáng kể, trọng lượng cơ thể không nhất thiết phải như vậy.

2. Mạng lưới thần kinh

Mạng lưới thần kinh sẽ nuốt và tiêu hóa tất cả thông tin có trong mẫu của các bệnh nhân cũ. Nó sẽ không quan tâm, liệu các yếu tố dự đoán có tương quan hay không và sẽ không tiết lộ nhiều thông tin, về việc ảnh hưởng của trọng lượng cơ thể dường như chỉ quan trọng trong mẫu trong tay hay nói chung (ít nhất là không ở mức độ chuyên môn mà bác sĩ phải cung cấp). Nó sẽ chỉ tính toán một kết quả.

Cái gì tốt hơn

Lựa chọn phương pháp nào phụ thuộc vào góc độ mà bạn nhìn nhận vấn đề: Là một bệnh nhân, tôi thích mạng lưới thần kinh sử dụng tất cả dữ liệu có sẵn để dự đoán tốt nhất về những gì sẽ xảy ra với tôi mà không có giả định mạnh mẽ và rõ ràng là sai tuyến tính. Là bác sĩ, người muốn trình bày một số dữ liệu trong một tạp chí, anh ta cần giá trị p. Y học rất bảo thủ: họ sẽ yêu cầu giá trị p. Vì vậy, bác sĩ muốn báo cáo rằng trong tình huống như vậy, giới tính có ảnh hưởng đáng kể. Đối với bệnh nhân, điều đó không quan trọng, chỉ cần sử dụng bất kỳ ảnh hưởng nào mà mẫu gợi ý là có khả năng nhất.

Trong ví dụ này, bệnh nhân muốn dự đoán, nhà khoa học của bác sĩ muốn suy luận. Hầu hết, khi bạn muốn hiểu một hệ thống, thì suy luận là tốt. Nếu bạn cần đưa ra quyết định trong đó bạn không thể hiểu hệ thống, dự đoán sẽ phải đủ.


1
"Là một bệnh nhân, tôi thích mạng lưới thần kinh hơn ..." Bạn dường như bỏ qua thực tế rằng một lượng lớn dữ liệu có thể cực kỳ khó tìm thấy trong khoa học lâm sàng. Các tập dữ liệu chỉ là một vài quan sát cho mỗi nhóm không phải là hiếm do các mối quan tâm về bảo mật, quyền riêng tư và đạo đức. Nếu bạn có thể đưa ra các giả định có thể phòng thủ được trong quá trình tạo dữ liệu, bạn có thể sử dụng dữ liệu hiệu quả hơn nhiều.
Frans Rodenburg

Đây được cho là một kịch bản giả thuyết trong đó người ta có thể dễ dàng liên quan đến lý do tại sao vấn đề có vẻ giống nhau có thể nhắc nhở các câu hỏi suy luận và các vấn đề dự đoán và tại sao chúng không giống nhau. Tôi đã không đề xuất các phương pháp để thực sự dự đoán cơ hội sống sót của bệnh nhân và vâng, tôi nhận thức rất rõ về mức độ khó để có được dữ liệu lâm sàng đáng tin cậy có kích thước đáng chú ý. IMHO giả định / kiến ​​thức tốt về quá trình tạo dữ liệu sẽ giúp dự đoán cũng như suy luận, do đó không có nhiều trong việc phân biệt cả hai.
Bernhard

1

Bạn không đơn độc ở đây. Sau khi đọc câu trả lời, tôi không còn bối rối nữa - không phải vì tôi hiểu sự khác biệt, mà bởi vì tôi hiểu nó nằm trong mắt của kẻ si tình và bị xúi giục. Tôi chắc chắn bây giờ hai thuật ngữ đó là định nghĩa chính trị chứ không phải là khoa học. Lấy ví dụ như lời giải thích từ cuốn sách, một điều mà các trường đại học đã cố gắng sử dụng như một câu hỏi hay: "một ngôi nhà sẽ có giá trị thêm bao nhiêu nếu nó có tầm nhìn ra sông? Đây là một vấn đề suy luận." Theo quan điểm của tôi, đây hoàn toàn là một vấn đề dự đoán. Bạn là chủ sở hữu công ty xây dựng dân dụng, và bạn muốn chọn mặt bằng tốt nhất để xây dựng bộ nhà tiếp theo. Bạn phải chọn giữa hai địa điểm trong cùng một thị trấn, một địa điểm gần sông, địa điểm tiếp theo gần ga tàu. Bạn muốn dự đoángiá cho cả hai địa điểm. Hoặc bạn muốn suy luận . Bạn sẽ áp dụng các phương pháp thống kê chính xác, nhưng bạn đặt tên cho quy trình. :)


Ý tưởng rằng một cái nhìn của dòng sông sẽ đòi hỏi một mức giá nhất định là một cách giải thích nhân quả . Dự đoán là bất khả tri về nguyên nhân: Tôi có thể dự đoán các tác động từ nguyên nhân, nguyên nhân từ các hiệu ứng hoặc 1 hiệu ứng từ một hiệu ứng khác với các nguyên nhân tương tự. Hãy xem xét người bạn Billy của tôi, 5'10 "và người có một cặp song sinh giống hệt Bobby, mà tôi chưa bao giờ gặp. Tuy nhiên, tôi có thể dự đoán Bobby là 5'10", nhưng nếu tôi làm cho Billy cao hơn bằng cách cho anh ta đi giày thang máy, Tôi không nhất thiết phải dự đoán Billy cũng sẽ cao hơn.
gung - Tái lập Monica

Ví dụ bạn trích dẫn chỉ đơn giản là một ví dụ nghèo nàn, đó là lý do tại sao nó gây nhầm lẫn. Chắc chắn có nhiều sự khác biệt giữa suy luận và dự đoán hơn là "chính trị".
Richard Hardy

1

Có nghiên cứu tốt cho thấy rằng một người dự đoán mạnh mẽ về việc người vay sẽ trả nợ của họ hay không là liệu họ có sử dụng nỉ để bảo vệ sàn nhà khỏi bị trầy xước bởi chân đồ nội thất hay không. Biến "cảm thấy" này sẽ là một trợ giúp riêng biệt cho một mô hình dự đoán trong đó kết quả là hoàn trả so với mặc định. Tuy nhiên, nếu người cho vay muốn đạt được đòn bẩy lớn hơn đối với kết quả này, họ sẽ cảm thấy hối hận khi nghĩ rằng họ có thể làm như vậy bằng cách phân phối cảm giác rộng nhất có thể.

"Làm thế nào có khả năng là người vay này để trả nợ?" là một vấn đề dự đoán; "Làm thế nào tôi có thể ảnh hưởng đến kết quả?" là một vấn đề suy luận nhân quả.


-1

y = f (x) rồi

dự đoán (giá trị của Y là gì với giá trị đã cho là x: nếu giá trị cụ thể của x thì giá trị của Y là bao nhiêu

suy luận (cách y thay đổi với thay đổi trong x): điều gì có thể ảnh hưởng đến Y nếu x thay đổi

Ví dụ dự đoán: giả sử y đại diện cho mức lương của một người thì nếu chúng ta cung cấp đầu vào như số năm kinh nghiệm, bằng cấp như các biến đầu vào thì hàm của chúng ta dự đoán mức lương của nhân viên.

Ví dụ suy luận: giả sử chi phí sinh hoạt thay đổi thì mức lương thay đổi là bao nhiêu


Tôi không thấy lý do tại sao câu trả lời này xứng đáng với hai downvote.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.