Theo thuật ngữ của giáo dân, sự khác biệt giữa mô hình và phân phối là gì?


28

Các câu trả lời (định nghĩa) được định nghĩa trên Wikipedia được cho là hơi khó hiểu đối với những người không quen thuộc với toán học / thống kê cao hơn.

Theo thuật ngữ toán học, một mô hình thống kê thường được coi là một cặp ( ), trong đó là tập hợp các quan sát có thể, tức là không gian mẫu và là một tập hợp các phân phối xác suất trên . S P SS,PSPS

Trong xác suất và thống kê, phân phối xác suất gán xác suất cho mỗi tập hợp con có thể đo lường được về kết quả có thể có của một thử nghiệm ngẫu nhiên, khảo sát hoặc quy trình suy luận thống kê. Các ví dụ được tìm thấy có không gian mẫu là không số, trong đó phân phối sẽ là phân phối phân loại.

Tôi là một học sinh trung học rất thích lĩnh vực này như một sở thích và hiện đang phải vật lộn với sự khác biệt giữa một statistical modelvà mộtprobability distribution

Sự hiểu biết hiện tại và rất thô sơ của tôi là thế này:

  • mô hình thống kê là những nỗ lực toán học để tính gần đúng các phân phối được đo

  • phân phối xác suất được mô tả đo lường từ các thí nghiệm chỉ định xác suất cho từng kết quả có thể xảy ra của một sự kiện ngẫu nhiên

sự nhầm lẫn được thêm vào bởi xu hướng trong văn học để thấy các từ "phân phối" và "mô hình" được sử dụng thay thế cho nhau - hoặc ít nhất là trong các tình huống rất giống nhau (ví dụ phân phối nhị thức so với mô hình nhị thức)

Ai đó có thể xác minh / sửa các định nghĩa của tôi không, và có lẽ đưa ra một cách tiếp cận chính thức hơn (mặc dù vẫn là về mặt tiếng Anh đơn giản) cho các khái niệm này?


1
Điểm mấu chốt: hoàn toàn không có sự khác biệt giữa mô hình thống kê và phân phối xác suất. Mỗi mô hình thống kê mô tả một phân phối xác suất và ngược lại. Đừng để họ nhầm lẫn bạn với các văn bản dài.
Cagdas Ozgenc

3
@Cagdas Theo định nghĩa được trích dẫn trong các câu hỏi, có một sự khác biệt: một mô hình thống kê là một bộ sưu tập có tổ chức cụ thể của phân bố xác suất. Khi chỉ có một phân phối xác suất là bằng chứng, thì chúng tôi không còn thực hiện thống kê nữa, vì mục đích của phân tích thống kê đã đạt được: chúng tôi biết phân phối!
whuber

2
@cagdas Wikipedia giữ cho công ty với các văn bản tốt nhất. Tôi hoàn toàn đồng ý với nó.
whuber

4
@CagdasOzgenc, tại sao không trình bày một số bằng chứng để chứng minh cho tuyên bố sắc bén và dứt khoát của bạn. Bằng chứng của chính quyền hiếm khi (nếu có) được chấp nhận. Không có eivdence, rất khó (nếu không thể) có một cuộc thảo luận hiệu quả; tuyên bố không có căn cứ hiếm khi nhiều hơn tiếng ồn.
Richard Hardy

2
@RichardHardy Câu hỏi hỏi "điều khoản cư sĩ", và xem các câu trả lời anh ta nhận được. Xin lỗi nhưng tôi ghét phải thấy sinh viên đau khổ chỉ vì ai đó quyết định thể hiện. Câu trả lời đơn giản như 2 + 2 = 4 và tôi thực sự không nghĩ rằng nó cần một tài liệu tham khảo chính thức 20 trang.
Cagdas Ozgenc

Câu trả lời:


25

Phân phối xác suất là một hàm toán học mô tả một biến ngẫu nhiên. Chính xác hơn một chút, đó là một hàm gán xác suất cho các số và đầu ra của nó phải đồng ý với các tiên đề của xác suất .

Mô hình thống kê là một mô tả trừu tượng, lý tưởng hóa một số hiện tượng trong thuật ngữ toán học bằng cách sử dụng phân phối xác suất. Trích dẫn Wasserman (2013):

Một mô hình thống kê là một tập hợp các bản phân phối (hoặc mật độ hoặc hàm hồi quy). Một mô hình tham số là một tập hợp F có thể được tham số hóa bằng số lượng tham số hữu hạn. [...] FF

Nói chung, một mô hình tham số có dạng

F= ={f(x;θ):θΘ}

nơi là một tham số chưa biết (hoặc vector tham số) có thể mất giá trị trong không gian tham số Θ . Nếu θ là một vectơ nhưng chúng ta chỉ quan tâm đến một thành phần của θ , chúng ta gọi các tham số phiền toái còn lại . Một mô hình không tham số là một tập hợp F không thể được tham số hóa bởi số lượng tham số hữu hạn.θ ΘθθF

Trong nhiều trường hợp, chúng tôi sử dụng các bản phân phối làm mô hình (bạn có thể kiểm tra ví dụ này ). Bạn có thể sử dụng phân phối nhị thức như một mô hình đếm số đầu trong chuỗi lần ném đồng xu. Trong trường hợp như vậy, chúng tôi giả định rằng phân phối này mô tả, theo cách đơn giản hóa, kết quả thực tế. Điều này không có nghĩa là đây là cách duy nhất để bạn có thể mô tả hiện tượng như vậy, phân phối nhị thức không phải là thứ chỉ có thể được sử dụng cho mục đích này. Mô hình có thể sử dụng một hoặc nhiều phân phối, trong khi các mô hình Bayes cũng chỉ định các phân phối trước đó.

Chính thức hơn điều này được thảo luận bởi McCullaugh (2002):

Theo các lý thuyết hiện được chấp nhận [Cox và Hinkley (1974), Chương 1; Lehmann (1983), Chương 1; Barndorff-Nielsen và Cox (1994), Phần 1.1; Bernardo và Smith (1994), Chương 4] một mô hình thống kê là một tập hợp các phân bố xác suất trên không gian mẫu . Một tham số mô hình thống kê là một tham số Θ thiết cùng với một hàm P : Θ P ( S ) , mà chuyển nhượng cho mỗi điểm số θ Θ một phân bố xác suất P θ trên S . Ở đây P ( S ) là tập hợp của tất cảSΘP:ΘP(S)θΘPθSP(S) phân bố xác suất trên . Trong hầu hết những điều sau đây, điều quan trọng là phải phân biệt giữa mô hình như một hàm P : q P ( S ) , và các thiết lập liên quan của các bản phân phối P q P ( S ) .SP:ΘP(S)PΘP(S)

Vì vậy, các mô hình thống kê sử dụng phân phối xác suất để mô tả dữ liệu theo thuật ngữ của họ. Các mô hình tham số cũng được mô tả dưới dạng tập hợp hữu hạn của các tham số.

Điều này không có nghĩa là tất cả các phương pháp thống kê đều cần phân phối xác suất. Ví dụ, hồi quy tuyến tính thường được mô tả theo giả định về tính quy tắc , nhưng trên thực tế, việc khởi hành từ tính quy tắc là khá mạnh mẽ và chúng ta cần giả định về tính chuẩn của các sai số cho các khoảng tin cậy và kiểm tra giả thuyết. Vì vậy, để hồi quy hoạt động, chúng ta không cần giả định như vậy, nhưng để có mô hình thống kê được chỉ định đầy đủ, chúng ta cần mô tả nó theo các biến ngẫu nhiên, vì vậy chúng ta cần phân phối xác suất. Tôi viết về điều này bởi vì bạn thường có thể nghe mọi người nói rằng họ đã sử dụng mô hình hồi quy cho dữ liệu của họ - trong hầu hết các trường hợp như vậy, họ có nghĩa là họ mô tả dữ liệu theo quan hệ tuyến tính giữa các giá trị đích và dự đoán sử dụng một số tham số, hơn là nhấn mạnh vào điều kiện tính quy luật.


McCullagh, P. (2002). Một mô hình thống kê là gì? Biên niên sử thống kê, 1225-1267.

Wasserman, L. (2013). Tất cả các số liệu thống kê: một khóa học ngắn gọn trong suy luận thống kê. Mùa xuân.


4
@ JCLeitão đó là lý do tại sao tôi đã thêm thông báo;) OLS cổ điển chỉ là về việc phù hợp với dòng. Các giả định về tính quy phạm chỉ là về nhiễu trong khi ý tưởng cốt lõi là chúng ta đang mô hình hóa E (y) như là một hàm tuyến tính của X. Định mức là cần thiết cho các khoảng tin cậy và kiểm tra, nhưng hồi quy là về việc phù hợp với đường và lỗi có tầm quan trọng thấp hơn. (Nói một cách lỏng lẻo.)
Tim

Cảm ơn bạn vì câu trả lời. Bạn có thể cung cấp 2 định nghĩa ngắn gọn để tóm tắt? (tôi cũng không hiểu dòng cuối cùng In much of the following, it is important to distinguish between the model as a function and the associated set of distributions) Bạn chỉ đang bình luận về sự mơ hồ vốn có giữa hai ý nghĩa chia sẻ cùng một thuật ngữ modelhay tôi đang thiếu một cái gì đó?
AlanSTACK

@Alan hai định nghĩa ngắn gọn được cung cấp trong hai đoạn đầu tiên, trong khi một đoạn nghiêm ngặt hơn trong trích dẫn và tài liệu tham khảo - bạn có thể làm rõ những gì không rõ ràng? Về dòng trích dẫn cuối cùng: về cơ bản nó nói rằng mô hình được xác định theo các phân phối xác suất và tham số và thật tốt để nhớ rằng có hai khía cạnh đó, đôi khi thật tốt khi phân biệt chúng. Tôi đề nghị các trích dẫn để thảo luận nghiêm ngặt (nó có sẵn miễn phí theo liên kết).
Tim

8

Hãy nghĩ về như một bộ vé . Bạn có thể viết những thứ trên một vé. Thông thường, một vé bắt đầu với tên của một số người hoặc đối tượng trong thế giới thực mà nó "đại diện" hoặc "mô hình". Có rất nhiều khoảng trống trên mỗi vé để viết những thứ khác.S

Bạn có thể tạo ra nhiều bản sao của mỗi vé như bạn muốn. Một mô hình xác suất cho dân số hoặc quy trình trong thế giới thực này bao gồm tạo một hoặc nhiều bản sao của mỗi vé, trộn chúng lại và đặt chúng vào một hộp. Nếu bạn - nhà phân tích - có thể xác định rằng quá trình rút một vé ngẫu nhiên từ hộp này mô phỏng tất cả các hành vi quan trọng của những gì bạn đang học, thì bạn có thể tìm hiểu nhiều về thế giới bằng cách nghĩ về hộp này. Bởi vì một số vé có thể có nhiều trong hộp hơn những vé khác, chúng có thể có cơ hội khác nhau để được rút ra. Lý thuyết xác suất nghiên cứu những cơ hội này.P

Khi các con số được ghi trên vé (một cách nhất quán), chúng sẽ phát sinh (xác suất) phân phối. Một phân bố xác suất chỉ đơn thuần mô tả tỷ lệ vé trong một hộp có số nằm trong bất kỳ khoảng thời gian nhất định.

Bởi vì chúng ta thường không biết chính xác thế giới ứng xử như thế nào, chúng ta phải tưởng tượng các hộp khác nhau trong đó các vé xuất hiện với tần suất tương đối khác nhau. Tập hợp các hộp là . Chúng tôi nhìn nhận thế giới như được mô tả đầy đủ bằng các hành vi của một trong các hộp trong P . Mục tiêu của bạn là đưa ra những dự đoán hợp lý về việc nó là hộp nào, dựa trên những gì bạn nhìn thấy trên vé bạn đã rút ra khỏi nó.PP


Như một ví dụ (thực tế và thực tế, không phải là đồ chơi trong sách giáo khoa), giả sử bạn đang nghiên cứu tốc độ của phản ứng hóa học khi nó thay đổi theo nhiệt độ. Giả sử rằng lý thuyết hóa học dự đoán rằng trong phạm vi nhiệt độ từ 0 đến 100 độ, tỷ lệ này tỷ lệ thuận với nhiệt độ.y0100

Bạn dự định nghiên cứu phản ứng này ở cả 100 độ, thực hiện một số quan sát ở mỗi nhiệt độ. Do đó, bạn chiếm một số lượng rất lớn các hộp. Bạn sẽ điền vào mỗi hộp với vé. Có một hằng số tốc độ được viết trên mỗi một. Tất cả các vé trong bất kỳ hộp cho trước có cùng một tỷ lệ hằng số được ghi trên chúng. Các hộp khác nhau sử dụng hằng số tốc độ khác nhau. 0100

Sử dụng hằng số tốc độ được ghi trên bất kỳ vé nào, bạn cũng ghi lại tỷ lệ và tỷ lệ 100 độ: gọi các giá trị y 0y 100 này . Nhưng điều này vẫn chưa đủ cho một mô hình tốt. Các nhà hóa học cũng biết rằng không có chất nào là tinh khiết, không có đại lượng nào được đo chính xác và các dạng biến đổi quan sát khác xảy ra. Để mô hình hóa các "lỗi" này, bạn tạo ra rất, rất nhiều bản sao vé của bạn. Trên mỗi bản sao, bạn thay đổi giá trị của y 0y 100 . Trên hầu hết chúng bạn chỉ thay đổi một chút. Trong một số rất ít, bạn có thể thay đổi chúng rất nhiều. Bạn viết ra càng nhiều giá trị thay đổi khi bạn dự định quan sát ở mỗi nhiệt độ. Những0100y0y100y0y100các quan sát thể hiện kết quả có thể quan sát được của thí nghiệm của bạn. Trong hộp đi từng bộ vé như vậy: đó là mô hình xác suất cho những gì bạn có thể quan sát cho một hằng số tỷ lệ nhất định.

Những gì bạn làm quan sát được mô hình hóa bằng cách vẽ một vé từ hộp đó và chỉ đọc những quan sát bằng văn bản đó. Bạn không được xem các giá trị cơ bản (đúng) của hoặc y 100 . Bạn không được đọc hằng số tốc độ (đúng). Những người không đủ khả năng cho thí nghiệm của bạn.y0y100

y0y100

Bởi vì các quan sát được viết trên mỗi vé là những con số, chúng làm phát sinh phân phối xác suất. Các giả định được thực hiện về các hộp thường được đặt theo cụm từ thuộc tính của các phân phối đó, chẳng hạn như liệu chúng có phải trung bình bằng không, đối xứng, có hình dạng "đường cong hình chuông", không tương quan, hoặc bất cứ điều gì.


Đó thực sự là tất cả để có nó. Theo cách mà một thang âm mười hai nguyên thủy đã tạo ra tất cả âm nhạc cổ điển phương Tây, một bộ sưu tập các hộp chứa vé là một khái niệm đơn giản có thể được sử dụng theo những cách cực kỳ phong phú và phức tạp. Nó có thể mô hình hóa mọi thứ, từ lật đồng xu đến thư viện video, cơ sở dữ liệu về tương tác trang web, quần thể cơ lượng tử và bất cứ thứ gì khác có thể quan sát và ghi lại.


3

π

Các mô hình thống kê tham số điển hình mô tả cách (các) tham số của phân phối phụ thuộc vào một số thứ nhất định như các yếu tố (một biến có giá trị rời rạc) và biến số (biến liên tục). Ví dụ: nếu trong một phân phối bình thường, bạn giả sử rằng giá trị trung bình có thể được mô tả bằng một số cố định ("chặn") và một số (một "hệ số hồi quy") nhân với giá trị của hiệp phương sai, bạn có được mô hình hồi quy tuyến tính với một thuật ngữ lỗi phân phối bình thường. Đối với phân phối nhị thức, một mô hình thường được sử dụng ("hồi quy logistic"ππ/(1π)intercept+β1covariate1+Giáo dục


2
Có, nhưng ... Mô hình không chỉ về các tham số mà còn có thể là về cấu trúc của vấn đề (ví dụ: mô hình xác suất giống với quy trình tạo dữ liệu giả định); cũng có những mô hình phi tham số.
Tim

2

Một phân phối xác suất cung cấp cho tất cả các thông tin về cách một số lượng ngẫu nhiên dao động. Trong thực tế, chúng tôi thường không có phân phối xác suất đầy đủ về số lượng quan tâm của chúng tôi. Chúng ta có thể biết hoặc giả định một cái gì đó về nó mà không biết hoặc cho rằng chúng ta biết mọi thứ về nó. Ví dụ: chúng ta có thể giả sử rằng một số lượng thường được phân phối nhưng không biết gì về giá trị trung bình và phương sai. Sau đó, chúng tôi có một bộ sưu tập các ứng cử viên để phân phối để lựa chọn; trong ví dụ của chúng tôi, đó là tất cả các phân phối bình thường có thể. Bộ sưu tập phân phối này tạo thành một mô hình thống kê. Chúng tôi sử dụng nó bằng cách thu thập dữ liệu và sau đó giới hạn lớp ứng cử viên của chúng tôi để tất cả các ứng cử viên còn lại phù hợp với dữ liệu theo một nghĩa nào đó phù hợp.


2

Một mô hình được chỉ định bởi PDF, nhưng nó không phải là PDF.

Phân phối xác suất (PDF) là một hàm gán xác suất cho các số và đầu ra của nó phải đồng ý với các tiên đề của xác suất, như Tim giải thích .

Một mô hình được xác định đầy đủ bởi một phân phối xác suất, nhưng nó còn hơn thế nữa. Trong ví dụ tung đồng xu, mô hình của chúng tôi có thể là "đồng xu là công bằng" + "mỗi lần ném là độc lập". Mô hình này được chỉ định bởi một tệp PDF là nhị thức có p = 0,5.

P(x1,x2,x3,...)

Một điểm khác biệt giữa mô hình và PDF là một mô hình có thể được hiểu là một giả thuyết thống kê. Ví dụ, trong việc tung đồng xu, chúng ta có thể xem xét mô hình trong đó đồng xu là công bằng (p = 0,5) và mỗi lần ném là độc lập (nhị thức) và nói rằng đây là giả thuyết của chúng tôi, chúng tôi muốn kiểm tra giả thuyết cạnh tranh .

pp


Bạn có thể giải thích về câu cuối cùng của bạn? Đó dường như là một phần chính của thống kê phi tham số, với tôi.
Ian

Tôi luôn hiểu các mô hình không tham số là ít hạn chế hơn trên PDF của x_i, nhưng điều đó vẫn yêu cầu PDF cho các số liệu thống kê họ sử dụng. Ví dụ, mối tương quan xếp hạng Kendal giả định tính quy tắc để tính giá trị p . Nhưng nó có thể là một ví dụ phản tác dụng. Tôi sẽ quan tâm.
Jorge Leitao

Tôi chỉ không hiểu ý của bạn khi bạn nói "không có nghĩa gì khi nói về các tệp PDF cạnh tranh". Đây chính xác là những gì chúng tôi đang thực hiện, ngay cả trong thống kê tham số: chúng tôi có một loạt các tệp PDF mà chúng tôi nghĩ có thể hợp lệ cho vấn đề này, chúng tôi lấy một số dữ liệu và chúng tôi kết luận từ dữ liệu rằng một số tập hợp con PDF của chúng tôi tốt hơn. Sau đó, chúng tôi định lượng những gì chúng tôi có nghĩa là "tốt hơn". (Ngoài ra, trong ngữ cảnh cơ bản, bạn thực sự không nên sử dụng "PDF" cho mọi thứ. Theo nghĩa phân phối, điều này cuối cùng sẽ hoạt động, nhưng đây là máy móc khá tinh vi ...)
Ian

A model is specified by a PDFTôi không đồng ý. Một mô hình có thể được chỉ định bởi nhiều PDF. Và một mô hình có thể được chỉ định bởi không có PDF: nghĩ về một cái gì đó giống như cây SVM hoặc cây hồi quy.
Ricardo Cruz

2

Bạn hỏi một câu hỏi rất quan trọng, Alan, và đã nhận được một số câu trả lời tốt ở trên. Tôi muốn đưa ra một câu trả lời đơn giản hơn, và cũng chỉ ra một khía cạnh bổ sung cho sự khác biệt mà các câu trả lời trên chưa được giải quyết. Để đơn giản, mọi thứ tôi sẽ nói ở đây liên quan đến các mô hình thống kê tham số.

y= =mộtx2+bx+cy= =mx+bF= =-kxmbk

Vì vậy, Câu trả lời ngắn gọn số 1 của tôi cho câu hỏi của bạn là: mô hình thống kê là một họ phân phối.

Điểm tiếp theo tôi muốn làm liên quan đến vòng loại, thống kê . Như Judea Pearl đã chỉ ra trong "quy tắc vàng về phân tích nguyên nhân" [1, p350],

Không có yêu cầu nhân quả có thể được thiết lập bằng một phương pháp thống kê thuần túy, có thể là điểm số xu hướng, hồi quy, phân tầng hoặc bất kỳ thiết kế dựa trên phân phối nào khác.

F= =-kx tức là các tuyên bố về phân phối xác suất.

Do đó, Câu trả lời số 2 của tôi cho câu hỏi của bạn là: các mô hình thường thể hiện các ý tưởng nhân quả không thể diễn đạt bằng các thuật ngữ phân phối thuần túy.


[1]: Ngọc trai, Judea. Nhân quả: Mô hình, lý luận và suy luận. Ấn bản lần 2. Cambridge, Vương quốc Anh; New York: Nhà xuất bản Đại học Cambridge, 2009. Liên kết đến §11.3.5, bao gồm cả trích dẫn p. 351.


Tha thứ cho sự thiếu hiểu biết của tôi, nhưng bạn có ý nghĩa gì với từ này causal? Có một số ý nghĩa sắc thái hơn đối với nó hoặc nó chỉ đơn giản đề cập đến khái niệm causalityvà mối quan hệ ràng buộc giữa causeseffects? Cảm ơn câu trả lời của bạn, btw.
AlanSTACK

FxF= =-kx= =
David C. Norris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.