Hiểu tham số là một biến ngẫu nhiên trong thống kê Bayes


9

Nếu tôi hiểu chính xác, trong thống kê Bayes, một tham số là một biến ngẫu nhiên. Khi ước tính tham số, phân phối trước được kết hợp với dữ liệu để mang lại phân phối sau.

Câu hỏi:

  1. Là mọi điểm dữ liệu (trong mẫu cũng như dân số) được tạo ra bởi cùng một nhận thức của tham số?
  2. Nếu có, tại sao tôi lại quan tâm đến phân phối (tức là các thực hiện có thể khác và khối lượng xác suất tương ứng hoặc giá trị mật độ xác suất) của tham số? Rốt cuộc, tôi đang cố gắng tìm hiểu điều gì đó về dân số đặc biệt này từ mẫu và trước đó.
  3. Nếu không, điều này được phản ánh như thế nào trong các công thức ước tính tham số Bayes, nếu có?

Đồng thời, tôi hiểu rằng niềm tin của tôi, dù ban đầu (được phản ánh bởi trước) hay được cập nhật (phản ánh bởi hậu thế) đều là một bản phân phối, và tôi không có vấn đề gì với điều đó. Nhưng tôi tự hỏi nếu / tại sao tôi nên giả sử tham số đó là một biến ngẫu nhiên.

Chỉnh sửa: Tôi đã nhận được một vài câu trả lời hữu ích, nhưng tôi sẽ đánh giá cao một hoặc một vài câu trả lời quan trọng hơn.


Xin lỗi nếu đây là một bản sao. Tôi tìm thấy một vài chủ đề liên quan, ví dụ: "Người Bayes có thừa nhận rằng có một giá trị tham số cố định không?" , nhưng nghĩ rằng có lẽ của tôi là đủ khác biệt.
Richard Hardy

Dưới đây là những gì Florian Hartig đã viết trong chủ đề này : mũ [W] sẽ là điểm ước tính số lượng không cố định? Điều đó thậm chí có nghĩa là gì về mặt toán học? Tất nhiên, có thể là bạn có một số lượng không phải là giá trị, mà là phân phối. Nhưng sau đó bạn ước tính phân phối, vì vậy nó được cố định lại. Điều này phản ánh sự hiểu biết hiện tại của riêng tôi.
Richard Hardy

Câu trả lời:


8

Trong thống kê thường xuyên, chúng tôi cho rằng chúng tôi không biết gì về (các) tham số quan tâm trước khi xem dữ liệu.

Trong thống kê Bayes, chúng tôi nới lỏng giả định này bằng cách thừa nhận rằng chúng tôi có thể biết điều gì đó về các giá trị có thể có của (các) tham số quan tâm trước khi xem dữ liệu - ví dụ: khả năng tham số đó có thể nhận các giá trị trong một phạm vi nhất định . Sau khi chúng tôi thấy dữ liệu, chúng tôi có thể tinh chỉnh / cập nhật kiến ​​thức trước đó. Vì vậy, phân phối trước của (các) tham số quan tâm gói gọn kiến ​​thức / niềm tin của chúng tôi về các giá trị có thể có của (các) tham số này trước khi xem dữ liệu, trong khi các phân phối sau tương ứng sẽ tinh chỉnh kiến ​​thức / niềm tin này với đầu vào từ dữ liệu.

Cả thống kê thường xuyên và Bayes đều cho rằng một tham số là một đại lượng chưa biết phải được ước tính. Nhưng họ phân kỳ về các yếu tố đầu vào cần thiết để ước tính số lượng đó: dữ liệu chỉ dành cho thống kê thường xuyên so với kiến ​​thức / niềm tin trước đó cộng với dữ liệu cho thống kê Bayes.

Khi Bayes báo cáo giá trị trung bình / trung bình / chế độ phân phối sau cho một tham số cụ thể, họ làm như vậy vì họ tin rằng đó là giá trị có khả năng nhất của tham số (nghĩa là ước tính số lượng chưa biết). Nhưng tham số là không xác định, do đó, một thước đo về độ không chắc chắn xung quanh giá trị rất có thể này (ví dụ: khoảng tin cậy 95%) cho biết giá trị thực của tham số có thể sống ở đâu.

Là một người thường xuyên tiếp cận lĩnh vực Bayes, tôi thấy hữu ích khi nghĩ về tham số như một thứ gì đó chưa biết chúng tôi đang cố gắng ước tính và các phân phối trước và sau là công cụ để đóng gói trạng thái hiểu biết / niềm tin của chúng tôi về thực thể chưa biết này trước và sau khi chúng tôi thấy dữ liệu tương ứng.

Trong khi những người thường xuyên áp dụng cách tiếp cận cứng rắn mà chúng ta không biết gì về thực thể chưa biết mà chúng ta đang theo đuổi, thì Bayes áp dụng cách tiếp cận thực tế và sắc thái hơn mà chúng ta thực sự có thể biết và khi chúng ta thấy dữ liệu, chúng ta sẽ cải thiện dựa trên kiến ​​thức đó

Vì vậy, chúng tôi quan tâm đến việc phân phối trong bối cảnh Bayes vì ​​chúng là phương tiện thuận tiện để thể hiện trạng thái kiến ​​thức / niềm tin hiện tại (đối với phân phối trước) và hy vọng cải thiện kiến ​​thức / niềm tin đạt được sau khi xem dữ liệu (đối với phân phối sau).

Phụ lục:

Cá nhân, tôi đăng ký để xem được Sander Greenland nắm bắt một cách hùng hồn trong bài viết Quan điểm của Bayes về nghiên cứu dịch tễ học: I. Cơ sở và phương pháp cơ bản , Tạp chí Quốc tế về Dịch tễ học, Tập 35, Số 3, ngày 1 tháng 6 năm 2006, Trang 765. có sẵn tại https://academia.oup.com/ije/article/35/3/765/735529 ):

" Người ta thường nói (không chính xác) rằng 'các tham số được coi là cố định bởi người thường xuyên nhưng là ngẫu nhiên bởi Bayesian'. Đối với người thường xuyên và người Bayes, giá trị của tham số có thể đã được cố định từ đầu hoặc có thể được tạo từ Trong cả hai trường hợp, cả hai đều cho rằng nó đã mang một giá trị cố định mà chúng tôi muốn biết. Bayesian sử dụng các mô hình xác suất chính thức để thể hiện sự không chắc chắn cá nhân về giá trị đó. 'Tính ngẫu nhiên' trong các mô hình này thể hiện sự không chắc chắn cá nhân về giá trị của tham số; nó không phải là thuộc tính của tham số (mặc dù chúng ta nên hy vọng nó phản ánh chính xác các thuộc tính của các cơ chế tạo ra tham số). "

Xem http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameter-fixed-or-random/ để biết thêm suy nghĩ về chủ đề này.


1
Cảm ơn bạn vì câu trả lời! Nếu tôi hiểu đúng, bạn dường như không đưa ra một đối số để coi tham số là RV theo nghĩa nó có thể là một đại lượng cố định. Ngôn ngữ của RV chỉ được sử dụng để thể hiện kiến ​​thức / niềm tin của chúng ta về giá trị cố định đó nằm ở đâu. (Đây cũng là cách tôi nghĩ về nó.) Nhưng bạn có thể trả lời các câu hỏi trực tiếp không? Ví dụ: bạn có nói "1. Có" và "2. Chúng tôi chỉ sử dụng ngôn ngữ của RV để thể hiện kiến ​​thức / niềm tin của chúng tôi về một số lượng cố định (một số lượng không thực sự là RV)"? Nhưng sau đó sẽ xảy ra xung đột khi nói rằng một tham số là RV.
Richard Hardy

@RichardHardy: Tôi đã thêm một phụ lục có thể giúp làm rõ các khuynh hướng cá nhân của tôi. Vì tôi không phải là người Bayes, tôi muốn để những người khác trả lời câu hỏi của bạn trực tiếp. Tôi chỉ nghĩ rằng tôi sẽ lội vào vì tôi đến mọi thứ từ cùng một quan điểm mà bạn làm và điều đó ít nhất có thể xác nhận rằng bạn đang đi đúng hướng.
Isabella Ghement

1
Andrew Gelman đôi khi sử dụng cụm từ "Bayes, người thường xuyên và nhà thống kê". Các nhà thống kê về cơ bản là những người thực dụng, những người dường như thường chọn những gì hoạt động (hy vọng).
kjetil b halvorsen

1
@IsabellaGhement, cảm ơn bạn. Các trích dẫn âm thanh hấp dẫn tôi. Bài viết trên blog cũng tốt
Richard Hardy

4

Là mọi điểm dữ liệu (trong mẫu cũng như dân số) được tạo ra bởi cùng một nhận thức của tham số?

  • Trong mẫu, câu trả lời là "có", nếu bạn đang nghĩ về những thứ như sự không đồng nhất như có một hình thức như σΔt2= =Δtσ02
  • Trong dân số, câu trả lời có thể là có nếu bạn nghĩ rằng phân phối là một hàm Dirac, nhưng không tự động trong dân số. Hãy xem xét trường hợp một sòng bạc thay đổi xác suất nó sẽ thắng theo thời gian. Đối với 100 lần rút thử nghiệm cố định tại sòng bạc, xác suất trúng sòng bạc sẽ là trung bình có trọng số của giá trị thay đổi. Thời gian của (các) phá vỡ cấu trúc là không rõ. Nếu xác suất thắng sòng bạc đủ gần với 0,5 mô hình phá vỡ cấu trúc là vô nghĩa vì tiếng ồn tự nhiên sẽ tràn ngập thực tế, trừ khi thay đổi là rõ ràng như đi từ 50% cơ hội chiến thắng đến 99% cơ hội chiến thắng với break ở 50 trận hòa. Sau thực tế, xác suất chung của chiến thắng là một giá trị cố định trên một tập hợp rút thăm cố định và cố định nếu dân số cố định,

Nếu có, tại sao tôi lại quan tâm đến phân phối (nghĩa là các nhận thức có thể khác và mật độ tương ứng của chúng) của tham số? Rốt cuộc, tôi đang cố gắng tìm hiểu điều gì đó về dân số đặc biệt này từ mẫu và trước đó.

Câu hỏi của bạn phản ánh khiếu nại của Bayes rằng các phương pháp Thường xuyên vi phạm nguyên tắc khả năng. Tại sao phải xem xét các mẫu chưa thấy trong việc thực hiện kiểm tra t? Bởi vì phương pháp Thường xuyên trung bình trên không gian mẫu. Tại sao xem xét việc thực hiện tham số không liên quan đến mẫu của bạn? Đáp ứng yếu là do các phương thức Bayes trung bình trên không gian tham số.

Câu hỏi này sẽ là một cuộc tấn công rất chính đáng, đặc biệt là các phương pháp Bayes chủ quan, nếu một người muốn trở thành chính trị. Mặc dù nguyên tắc khả năng đã được chứng minh là bị lỗi theo một số cách nghĩ về nó, nhưng việc xây dựng triết lý của các phương pháp Thường xuyên dường như không phản ánh công việc của Bayes. Đó phải là một bài báo mặc dù nó có thể sẽ chia sẻ các lỗi của nguyên tắc khả năng trong thống kê Bayes.

Câu trả lời mạnh mẽ hơn là mặc dù tôiTôimnθ^θchúng tôi thiếu một kích thước mẫu vô hạn. Như vậy, vì các phương pháp Bayes coi sự ngẫu nhiên là không chắc chắn thay vì cơ hội như các phương pháp Thường xuyên làm, đây là một lượng hóa của sự không chắc chắn còn lại trong sự hiểu biết của bạn về tự nhiên. Nếu bạn cần hành động theo tham số, và bạn đã đưa nó xuống chỉ còn hai giá trị có thểθ^Mộtθ^B, nói với Pr(θ= =θ^Một)= =0,75nó có thể nguy hiểm và chắc chắn là không mạch lạc (theo nghĩa de Finetti) để bỏ qua là một giá trị thực sự có thể.θ^B

Để đưa ra một ví dụ cụ thể, tôi đã thử nghiệm 78 mô hình phá sản và thấy xác suất hậu tích lũy cho 76 trong số đó là của một phần trăm trong khi hai mô hình còn lại xấp xỉ 54% và 46%. May mắn thay, mô hình không chia sẻ biến. Một lý do để quan tâm là, gần như chắc chắn, tôi có mô hình thực sự sai. Mô hình trung bình của mật độ dự đoán cho phép tôi tạo ra một lỗi ngoài mẫu nhỏ đáng kể. Tôi quan tâm đến các mô hình xác suất cao và nếu tôi có tài nguyên để tính kết quả theo mô hình trung bình đầy đủ bao gồm 76 mô hình xác suất thấp, kết quả sẽ không thay đổi trong số chữ số tôi cho là đáng kể.1/10,000th

Nếu không, điều này được phản ánh như thế nào trong các công thức ước tính tham số Bayes, nếu có?

Đây là định lý Bayes. Nếu một người rất trung thực về mặt trí tuệ, thì quan điểm Chủ quan chân thực, cực đoan, một la Savage , không đòi hỏi gì hơn một mật độ sau thích hợp. Nếu tôi định đánh bạc với bạn, theo de Finetti, về việc liệu lực hấp dẫn có hợp lệ hay không bằng cách bước ra khỏi tòa nhà mười tầng, sau đó tôi nên xem xét các quan điểm khác nhau về thực tế trước khi thực hiện đánh bạc của mình. Bây giờ nếu tôi muốn đưa vào lý thuyết quyết định, vì bước ra khỏi tòa nhà mười tầng là phiên bản tự nhiên của hàm chi phí toàn bộ hoặc không có gì, thì nếu niềm tin của tôi chống lại trọng lực đủ mạnh, thì tôi nên rời khỏi tòa nhà . Khi làm như vậy, tôi sẽ chỉ lo lắng về một thử nghiệm này vì tính lặp lại trở thành vấn đề nếu tôi sai. Trong trường hợp này, câu hỏi của bạn không có ý nghĩa gì trừ khi tôi đúng. Mặt khác, nếu tôi đánh bạc bằng tiền, thì trong hầu hết các trường hợp thực tế, tổn thất bậc hai sẽ là hàm mất thích hợp dựa trên bản chất của đường cầu về đánh bạc và mối quan hệ với doanh thu từ đánh bạc.

Tiềm năng cho một tham số thay đổi được phản ánh trong cập nhật Bayes. Câu hỏi của bạn chỉ có ý nghĩa trong sự lặp lại. Đó là hình ảnh thu nhỏ của Bayesian cập nhật trong khuôn khổ Chủ nghĩa thuần túy. Làm cách nào để mô hình hóa các tham số chủ quan của các tham số, bằng cách chạy nhiều thử nghiệm và nối chúng để thu hẹp phía sau xuống giải pháp tự nhiên? Đây là một hệ thống tư duy được xây dựng xung quanh mô hình thế hệ.

EDIT Tôi nghĩ rằng tôi nên sao lưu một chút. Có nhiều hơn một cách giải thích và nhiều hơn một tiên đề của các phương pháp Bayes. Họ dưới câu hỏi của bạn một chút.

Trong giải thích chủ quan, các tham số được rút ngẫu nhiên từ một phân phối. Phân phối đó là mật độ trước. Nếu bạn nghĩ về tử số của định lý Bayes, , thì nó theo logic một cách hợp lý rằng tử số phụ thuộc mạnh vào trước. Vì là ngẫu nhiên, do đó, một thử nghiệm có thể được coi là một khởi tạo của . Nếu bạn thực hiện một thử nghiệm khác, thì đó là một khởi tạo khác của . Mục tiêu là tìm sự phân phối thực sự của các tham số. Phân phối đó có thể có khối lượng vô hạn trên một điểm và khối lượng bằng không ở mọi nơi khác.f(x|θ)π(θ)θθθ

Trong giải thích khách quan, các tham số được cố định như với phương pháp Thường xuyên, nhưng chúng không xác định. Cái trước đại diện cho một định lượng của xác suất chưa biết rằng . Khả năng là sự phân phối của mẫu. Có một số tham số được biết với thiên nhiên mà sử dụng thiên nhiên để tạo ra một mẫu . Thiên nhiên trước có khối lượng vô hạn trên một điểm và bằng không ở nơi khác. Ưu tiên của bạn chứa thông tin về những gì bạn đã khám phá cho đến thời điểm này. Khả năng chỉ xem xét mẫu đã được nhìn thấy và bỏ qua phần còn lại của không gian mẫu.θ= =kθX

Không có sự khác biệt về hình thức toán học giữa hai cách giải thích. Ngoài ra còn có một "giải thích thuận tiện." Nó sẽ đi một cái gì đó như thế này. Phương pháp Bayes thực sự hữu ích, nhưng tìm ra các linh mục thì không. Nếu một ưu tiên không gây tổn hại cho việc phát hiện tham số có thể được tạo ra, thì nên sử dụng ưu tiên đơn giản và thuận tiện nhất vì ưu tiên có thể cực kỳ có giá trị trong việc chuẩn hóa mẫu. Theo quan điểm này, các tham số vẫn là các biến ngẫu nhiên, nhưng không ai nghĩ nhiều về ý nghĩa của nó. Nó chỉ hữu ích.

Có ba bộ tiên đề chính đằng sau suy nghĩ của Bayes. Trong một số trường hợp sự lựa chọn thực sự có vấn đề. Điều này không phải do sự khác biệt về tính toán, mà là do sự khác biệt về lý thuyết. Ví dụ, tiên đề của Savage cho phép các nhà nghiên cứu tách biệt tiện ích và xác suất. tiên đề của de Finetti không cho phép các nhà nghiên cứu tách biệt tiện ích khỏi xác suất. Điều này là do xác suất không tồn tại trong xây dựng của de Finetti.

de Finetti có hai tiên đề. Đầu tiên là một nhà cái sẽ không chấp nhận đặt cược dẫn đến thua lỗ chắc chắn trong tất cả các trạng thái tự nhiên. Thứ hai là nhà cái sẽ chấp nhận tất cả các cược hữu hạn với mức giá mà nhà cái đưa ra. Đây là một cách bất thường để thúc đẩy thử nghiệm xác suất tốc độ của một vật thể ở nhiệt độ và áp suất tiêu chuẩn, nhưng nó hoạt động. Nó khôi phục xác suất về mặt đánh bạc. Lưu ý rằng cả xác suất và tiện ích đều không được đề cập trong cả hai tiên đề. Xác suất trong thế giới của de Finetti chỉ là một tính toán mà chúng ta sử dụng để suy nghĩ về thế giới và không thực sự tồn tại. Không tiện ích. Do đó, nếu bạn đang sử dụng tiện ích và xác suất cùng nhau, chúng không thể phân biệt được vì cả hai đều là những tính toán trừu tượng tồn tại để giúp hiểu thế giới. Chúng chỉ đơn thuần là cấu trúc của tâm trí.

Ví dụ, xem xét một người thường xuyên và một người Bayes sẽ hiểu trò chơi của Cho Han như thế nào. Để hiểu về viễn cảnh Bayes, hãy xem bộ phim Nhật Bản năm 1962 Zatoichi. Cho Han là một trò chơi phụ thuộc vào việc xúc xắc xuất hiện chẵn hay lẻ. Nó thường được sử dụng như một thiết bị trong phim Yakuza. Điều này là bởi vì, như bất kỳ nhà vật lý, ảo thuật gia hay con người nào sẽ nói với bạn, không có thứ gọi là xúc xắc ngẫu nhiên hay tung đồng xu. Kết quả là không chắc chắn cho khán giả nhưng hoàn toàn chắc chắn cho những người biết. Không thể lấy mẫu ngẫu nhiên vì một khi đã hoàn thành thì nó đã được sửa. Bạn biết điều đó. Câu hỏi là làm thế nào các tham số có thể là các biến ngẫu nhiên.

Điều còn thiếu là chính sách tạo ra các tham số. Trong một mô hình được chỉ định hoàn hảo, không có cách nào để phân biệt giữa một tập hợp các thử nghiệm với được rút ra từ và với sự không chắc chắn về vị trí của .θπ(θ)θ= =θtrbạneθtrbạne

Đối với câu hỏi hai, bạn nên đọc về khả năng tranh cãi. Nguyên tắc khả năng có thể không hợp lệ trên khuôn mặt của nó, nhưng là phiên bản Bayes của câu hỏi hai của bạn. Đó là một câu hỏi rất sâu sắc và không thể có một câu trả lời nông cạn. Bạn có thể viết một cuốn sách và chắc chắn một bài viết về nó.

Nguyên tắc Khả năng được xây dựng trên hai nguyên tắc và suy luận thường xuyên vi phạm nó. Nó được xây dựng trên hai nguyên tắc nguyên tắc điều kiện và nguyên tắc đầy đủ. Nếu nguyên tắc điều kiện và nguyên tắc đầy đủ giữ, thì giá trị p luôn là một cách không chính xác để xác định suy luận. Cả nguyên tắc điều kiện và nguyên tắc khả năng đều hấp dẫn riêng đối với hầu hết các nhà thống kê, nhưng cùng nhau, họ có thể được tranh luận để tách rời Chủ nghĩa Thường xuyên. Câu hỏi của bạn có thể được xem là song song.

Như vậy, bạn đã có một câu trả lời sâu sắc hơn bạn dự định. Trong thực tế, nếu tôi là một sinh viên tiến sĩ, tôi có thể ngồi xuống và dành thời gian suy ngẫm câu hỏi của bạn hai. Có thể có một nguyên tắc sâu xa tiềm ẩn ở đó.

Xem ví dụ, câu hỏi khả năng trao đổi ngăn xếp

hoặc là

khả năng bài giảng


Cảm ơn bạn đã trả lời rộng rãi của bạn! Về 1., ví dụ về một sòng bạc thay đổi xác suất khi đang di chuyển có vẻ khó khăn. Mô tả một mẫu và một quần thể nơi điều này đang xảy ra với một mô hình có xác suất là giống nhau cho tất cả các quan sát có vẻ giống như mô hình sai chính tả đối với tôi. (Tôi nhận thấy đó là một sự phức tạp không cần thiết có thể gây mất tập trung từ một câu hỏi rất cụ thể. Tất nhiên đây chỉ là sự hiểu biết của tôi.) p
Richard Hardy

Về 2. và Tại sao xem xét việc thực hiện tham số không liên quan đến mẫu của bạn? Phản hồi yếu là ... , tôi không nghĩ đây là một câu trả lời thỏa đáng. (Nhưng có lẽ nó không có ý định.) Về chính trị, mối quan tâm của tôi hoàn toàn ngây thơ và tôi chỉ muốn hiểu quan điểm của Bayes về thế giới là gì, đó là tất cả. Về 3. và ví dụ về chỉ một thử nghiệm (bước xuống từ tòa nhà chỉ một lần), chúng ta có thể nghĩ về dân số có kích thước 1. Một mẫu hoặc dân số cỡ 1 nhất thiết phải được tạo ra chỉ bằng một nhận thức của tham số - đủ đơn giản .
Richard Hardy

(+1) Câu trả lời rất thấu đáo, với quan điểm về viễn cảnh Bayes khách quan mà tôi hoàn toàn đồng ý.
Tây An
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.