Tôi có thể kiểm tra tính hợp lệ của dữ liệu đã cho trước không?


10

Vấn đề

Tôi đang viết một hàm R thực hiện phân tích Bayes để ước tính mật độ sau được cung cấp trước và dữ liệu được thông báo. Tôi muốn chức năng gửi cảnh báo nếu người dùng cần xem xét lại trước.

Trong câu hỏi này, tôi quan tâm đến việc học cách đánh giá trước. Các câu hỏi trước đây đã đề cập đến các cơ chế nêu rõ các linh mục được thông báo ( ở đâyở đây .)

Các trường hợp sau đây có thể yêu cầu đánh giá lại trước:

  • dữ liệu đại diện cho một trường hợp cực đoan không được tính khi nêu trước
  • lỗi trong dữ liệu (ví dụ: nếu dữ liệu tính theo đơn vị g khi trước đó tính bằng kg)
  • sai trước được chọn từ một nhóm các linh mục có sẵn vì một lỗi trong mã

Trong trường hợp đầu tiên, các linh mục thường không đủ sức khuếch tán để dữ liệu nói chung sẽ áp đảo chúng trừ khi các giá trị dữ liệu nằm trong một phạm vi không được hỗ trợ (ví dụ <0 cho logN hoặc Gamma). Các trường hợp khác là lỗi hoặc lỗi.

Câu hỏi

  1. Có bất kỳ vấn đề nào liên quan đến tính hợp lệ của việc sử dụng dữ liệu để đánh giá trước không?
  2. bất kỳ thử nghiệm cụ thể phù hợp nhất cho vấn đề này?

Ví dụ

Dưới đây là hai bộ dữ liệu được kết hợp kém với trước vì chúng đến từ các quần thể có (đỏ) hoặc (xanh dương).logN(0,1)N(0,5)N(8,0.5)

Dữ liệu màu xanh có thể là kết hợp dữ liệu + trước hợp lệ trong khi dữ liệu màu đỏ sẽ yêu cầu phân phối trước được hỗ trợ cho các giá trị âm.

nhập mô tả hình ảnh ở đây

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

Câu trả lời:


4

Bạn cần phải rõ ràng những gì bạn có nghĩa là "trước". Ví dụ: nếu bạn quan tâm đến niềm tin trước đây của tôi về tuổi thọ ở Anh, điều đó không thể sai. Đó là niềm tin của tôi! Nó có thể không phù hợp với dữ liệu được quan sát, nhưng đó hoàn toàn là một vấn đề khác.

Ngoài ra các vấn đề bối cảnh. Ví dụ, giả sử chúng ta quan tâm đến dân số của một cái gì đó. Trước đây tôi khẳng định rằng số lượng này phải hoàn toàn không âm. Tuy nhiên, dữ liệu đã được quan sát thấy có lỗi và chúng tôi có các phép đo âm tính. Trong trường hợp này, ưu tiên không hợp lệ, đó chỉ là ưu tiên cho quy trình tiềm ẩn.

Để trả lời câu hỏi của bạn,

  1. Có bất kỳ vấn đề nào liên quan đến tính hợp lệ của việc sử dụng dữ liệu để đánh giá trước không?

Một người theo chủ nghĩa thuần túy sẽ lập luận rằng bạn không nên sử dụng dữ liệu hai lần. Tuy nhiên, người thực dụng sẽ phản bác lại rằng bạn đã không nghĩ đủ về điều trước ngay từ đầu.

2 Có thử nghiệm cụ thể nào phù hợp nhất cho vấn đề này không?

Điều này thực sự phụ thuộc vào mô hình đang xem xét. Tôi cho rằng ở mức cơ bản nhất bạn có thể so sánh phạm vi trước với phạm vi dữ liệu.


cảm ơn câu trả lời của bạn, đặc biệt là # 1 là hữu ích. Đối với bài kiểm tra, tôi đã nghĩ về điều đó, nhưng phạm vi của hầu hết các linh mục sẽ có một ràng buộc ở , vì vậy tôi đã nghĩ đến việc có thể so sánh các giới hạn của các khoảng lượng tử, ví dụ gửi cảnh báo nếu: lượng tử dữ liệu thứ 80> lượng tử thứ 99 của trước hoặc nếu: bất kỳ dữ liệu nào lớn hơn định lượng 100-10e-log (n) th mặc dù tôi sẽ phải chơi xung quanh với các số để tôi bắt đúng lỗi.
David LeBauer

3

Đây hai xu của tôi:

  1. Tôi nghĩ bạn nên quan tâm về các thông số liên quan đến tỷ lệ trước.

  2. Bạn nói về thông tin trước, nhưng tôi nghĩ bạn nên cảnh báo người dùng về những gì trước khi không có thông tin hợp lý là gì. Ý tôi là, đôi khi một bình thường với giá trị trung bình bằng 0 và phương sai 100 là không chính xác và đôi khi nó là thông tin, tùy thuộc vào quy mô được sử dụng. Ví dụ, nếu bạn đang hồi quy tiền lương trên độ cao (centimet) so với trước đây là khá nhiều thông tin. Tuy nhiên, nếu bạn hồi quy tiền lương log trên độ cao (mét), thì ưu tiên trên không phải là thông tin.

  3. Nếu bạn đang sử dụng một ưu tiên là kết quả của một phân tích trước đó, nghĩa là, ưu tiên mới thực sự là một hậu tố cũ của một phân tích trước đó, thì mọi thứ sẽ khác. Tôi cho rằng đây là lưu ý trường hợp.


bạn có thể vui lòng làm rõ điểm 1 không? re: điểm 2, Như đã đề cập trong OP, tôi không quan tâm lắm đến câu hỏi này về cách đặt ưu tiên; điểm 3: nhiều linh mục được thông báo là từ phân tích dữ liệu có sẵn (phù hợp với phân phối phù hợp với dữ liệu) trong khi những người khác dựa trên kiến ​​thức chuyên môn (những điều này thường ít ràng buộc hơn).
David LeBauer

Giả sử bạn đang lắp một mô hình như: y ~ a + b * x / z. Nếu không có ràng buộc nào đối với các giá trị của Z (nếu chúng có thể dương hoặc âm), thì thật khó để biết những gì mong đợi về tín hiệu từ b. Hơn nữa, nếu Z có thể gần bằng 0, thì b có thể quá thấp hoặc quá lớn. Điều này có thể làm cho trước đây của bạn không hợp lý. Xem mục này trên blog của Gelman: stat.columbia.edu/~cook/movabletype/archives/2011/06/ trộm
Manoel Galdino

# 3: Như đã chỉ ra, hãy cẩn thận về việc sử dụng dữ liệu hai lần. Trên mỏng là một mô hình phân cấp, ví dụ, và một mô hình khác là chọn một ưu tiên phù hợp với khả năng. Sau này, tôi sẽ quan tâm đến phân tích như vậy. Tôi thấy sự lựa chọn của một ưu tiên nhiều hơn như là một công cụ chính quy.
Manoel Galdino
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.