Suy luận thống kê theo mô hình sai chính tả


9

Tôi có một câu hỏi phương pháp luận chung. Nó có thể đã được trả lời trước đây, nhưng tôi không thể xác định chủ đề có liên quan. Tôi sẽ đánh giá cao con trỏ đến các bản sao có thể.

( Đây là một câu hỏi xuất sắc, nhưng không có câu trả lời. Điều này cũng tương tự về mặt tinh thần, ngay cả với một câu trả lời, nhưng câu trả lời quá cụ thể theo quan điểm của tôi. Điều này cũng gần gũi, được phát hiện sau khi đăng câu hỏi.)


Chủ đề là, làm thế nào để thực hiện suy luận thống kê hợp lệ khi mô hình được xây dựng trước khi thấy dữ liệu không mô tả đầy đủ quá trình tạo dữ liệu . Câu hỏi rất chung chung, nhưng tôi sẽ đưa ra một ví dụ cụ thể để minh họa cho luận điểm. Tuy nhiên, tôi hy vọng các câu trả lời sẽ tập trung vào câu hỏi về phương pháp chung hơn là đánh vào những chi tiết của ví dụ cụ thể.


Hãy xem xét một ví dụ cụ thể: trong cài đặt chuỗi thời gian, tôi giả sử quy trình tạo dữ liệu là với . Tôi nhằm mục đích kiểm tra giả thuyết về vấn đề chủ đề rằng . Tôi đã đưa ra điều này theo mô hình để có được một bản sao thống kê khả thi của giả thuyết đối tượng của tôi và đây là Càng xa càng tốt. Nhưng khi tôi quan sát dữ liệu, tôi phát hiện ra rằng mô hình không mô tả đầy đủ dữ liệu. Giả sử, có một xu hướng tuyến tính, để quá trình tạo dữ liệu thực sự là với

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2)dydx=1(1)
H0: β1=1.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2).

Làm cách nào tôi có thể thực hiện suy luận thống kê hợp lệ trên giả thuyết vấn đề của mình ?dydx=1

  • Nếu tôi sử dụng mô hình ban đầu, các giả định của mô hình đó đã bị vi phạm và công cụ ước tính của không có bản phân phối đẹp như vậy. Do đó, tôi không thể kiểm tra giả thuyết bằng cách sử dụng -test.β1t

  • Nếu đã thấy dữ liệu, tôi chuyển từ mô hình sang và thay đổi giả thuyết thống kê của mình từ thành(1)(2)H0: β1=1 , giả định mô hình được hài lòng và tôi nhận được một well-behaved ước lượng của γ 1 và có thể kiểm tra H ' 0 không có khó khăn bằng cách sử dụng t -test. Tuy nhiên, việc chuyển đổi từ ( 1 ) sang ( 2 )H0: γ1=1γ1H0t
    (1)(2)được thông báo bởi tập dữ liệu mà tôi muốn kiểm tra giả thuyết. Điều này làm cho phân phối ước tính (và do đó cũng suy luận) có điều kiện về sự thay đổi trong mô hình cơ bản, đó là do dữ liệu được quan sát. Rõ ràng, việc giới thiệu điều hòa như vậy là không thỏa đáng.

Có một lối thoát tốt? (Nếu không thường xuyên, thì có lẽ một số thay thế Bayes?)


3
Sự khó chịu của bạn là đặc hữu đối với các phương pháp cổ điển để trao bằng tiến sĩ: đặc tả giả thuyết cẩn thận, tiếp theo là một bài kiểm tra thực nghiệm và kết thúc bằng suy luận nguyên nhân mô tả. Trong thế giới này, câu trả lời ngắn gọn là "không", không có lối thoát. Tuy nhiên, thế giới đang phát triển ra khỏi mô hình nghiêm ngặt đó. Chẳng hạn, trong một bài báo của AER năm ngoái có tiêu đề Các vấn đề chính sách dự đoán của Kleinberg và cộng sự, họ đã đưa ra trường hợp khai thác dữ liệu và dự đoán là công cụ hữu ích trong hoạch định chính sách kinh tế, trích dẫn các trường hợp trong đó "suy luận nguyên nhân không phải là trung tâm, hoặc thậm chí cần thiết." Thật đáng xem.
Mike Hunter

2
Theo quan điểm của tôi, câu trả lời trực tiếp sẽ không có lối thoát. Nếu không, bạn sẽ phạm tội về loại khai thác dữ liệu tồi tệ nhất - kể lại các giả thuyết để phù hợp với dữ liệu - một hành vi vi phạm vốn trong một thế giới nghiêm ngặt, đầy nghịch lý.
Mike Hunter

3
Nếu tôi hiểu chính xác, bạn đang thu thập dữ liệu, sau đó chọn một mô hình và sau đó kiểm tra các giả thuyết. Tôi có thể sai, nhưng dường như với tôi rằng mô hình suy luận có chọn lọc được điều tra bởi Taylor và Tibshirani (trong số những người khác) có thể liên quan đến vấn đề của bạn. Mặt khác, ý kiến, câu trả lời và câu trả lời được liên kết cho câu hỏi này có thể được quan tâm.
DeltaIV

3
yx

3
@RichardHardy, chắc chắn, mặc dù là một học sinh tốt nghiệp thống kê, tôi không thực sự tin vào suy luận nữa. Đó là một ngôi nhà của những lá bài mỏng manh đến nỗi không rõ liệu nó có ý nghĩa gì không, ngoại trừ trong những trường hợp rất nghiêm ngặt và có kiểm soát. Điều buồn cười là mọi người đều biết điều này, nhưng không ai quan tâm.
hejseb

Câu trả lời:


3

Lối thoát theo nghĩa đen là ra khỏi bài kiểm tra mẫu, một điều đúng. Không phải là nơi bạn chia mẫu thành đào tạo và tổ chức như trong việc xác định giá trị chéo, mà là dự đoán thực sự. Điều này hoạt động rất tốt trong khoa học tự nhiên. Trong thực tế, đó là cách duy nhất nó hoạt động. Bạn xây dựng một lý thuyết trên một số dữ liệu, sau đó bạn dự kiến ​​sẽ đưa ra một dự đoán về điều gì đó chưa được quan sát. Rõ ràng, điều này không hoạt động trong hầu hết các ngành khoa học xã hội (được gọi là) như kinh tế.

Trong ngành công nghiệp này hoạt động như trong khoa học. Chẳng hạn, nếu thuật toán giao dịch không hoạt động, cuối cùng bạn sẽ mất tiền, và sau đó bạn từ bỏ nó. Các bộ dữ liệu đào tạo và xác thực chéo được sử dụng rộng rãi trong quá trình phát triển và đưa ra quyết định triển khai thuật toán, nhưng sau khi sản xuất, tất cả chỉ là kiếm tiền hoặc thua lỗ. Rất đơn giản trong thử nghiệm mẫu.


yx

@RichardHardy, vâng, bạn kiểm tra giả thuyết tương tự trên dữ liệu mới. Nếu nó giữ thì bạn tốt. Nếu mô hình của bạn bị sai chính tả thì cuối cùng nó sẽ thất bại, ý tôi là chẩn đoán khác cũng vậy. Bạn sẽ thấy rằng mô hình không hoạt động với dữ liệu mới.
Aksakal

OK, sau đó có vẻ như đơn thuốc cũ tốt của việc tách mẫu thành một mẫu phụ để xây dựng mô hình và một mẫu khác để thử nghiệm giả thuyết. Tôi nên bao gồm sự cân nhắc đó đã có trong OP. Trong mọi trường hợp, đó dường như là một chiến lược đúng đắn. Ví dụ, vấn đề với kinh tế vĩ mô sẽ là cùng một mô hình sẽ hầu như không bao giờ phù hợp với dữ liệu chưa thấy (vì quá trình tạo dữ liệu đang thay đổi theo thời gian), do đó, vấn đề chính xác mà chúng ta bắt đầu vẫn tồn tại. Nhưng đó là một ví dụ về cơ bản bất kỳ phương pháp nào đều thất bại, vì vậy nó không phải là một lời chỉ trích công bằng.
Richard Hardy

Trong khi đó, trong kinh tế vi mô trong thiết lập dữ liệu cắt ngang, nó có thể hoạt động. +1 ngay bây giờ. Mặt khác, một khi một mô hình đã phù hợp với tất cả dữ liệu có sẵn, giải pháp này sẽ không hoạt động. Tôi đoán đó là những gì tôi đã suy nghĩ khi tôi viết câu hỏi, và tôi đang tìm câu trả lời giải quyết câu hỏi tiêu đề: suy luận từ mô hình sai chính tả.
Richard Hardy

2
Tôi đồng cảm với quan điểm của bạn. Nhưng vì mẫu phân tách thành "cũ" và "mới" tương đương với việc thu thập dữ liệu mới, tôi không hiểu bạn thấy sự khác biệt lớn giữa hai mẫu này ở đâu.
Richard Hardy

1

Bạn có thể định nghĩa một "thủ tục kết hợp" và điều tra các đặc điểm của nó. Giả sử bạn bắt đầu từ một mô hình đơn giản và cho phép một, hai hoặc ba mô hình phức tạp hơn (hoặc không theo tỷ lệ) được trang bị trong trường hợp mô hình đơn giản không phù hợp. Bạn cần chỉ định một quy tắc chính thức theo đó bạn quyết định không phù hợp với mô hình đơn giản mà là một trong những quy tắc khác (và quy tắc nào). Bạn cũng cần phải có các bài kiểm tra cho giả thuyết về mối quan tâm của mình để được áp dụng theo tất cả các mô hình liên quan (tham số hoặc không tham số).

Với thiết lập như vậy, bạn có thể mô phỏng các đặc điểm, nghĩa là, bao nhiêu phần trăm giả thuyết null của bạn cuối cùng bị từ chối trong trường hợp đó là đúng và trong trường hợp có một số sai lệch về lợi ích. Ngoài ra, bạn có thể mô phỏng từ tất cả các mô hình có liên quan và xem xét những thứ như mức độ có điều kiện và sức mạnh có điều kiện cho rằng dữ liệu đến từ mô hình X, Y hoặc Z hoặc đưa ra quy trình kiểm tra lỗi chính tả mô hình đã chọn mô hình X, Y hoặc Z.

Bạn có thể thấy rằng lựa chọn mô hình không gây hại nhiều theo nghĩa là mức độ đạt được vẫn rất gần với mức bạn đã đạt được và sức mạnh vẫn ổn nếu không xuất sắc. Hoặc bạn có thể thấy rằng lựa chọn mô hình phụ thuộc dữ liệu thực sự làm hỏng mọi thứ; nó sẽ phụ thuộc vào chi tiết (nếu quy trình lựa chọn mô hình của bạn rất đáng tin cậy, khả năng là mức độ và sức mạnh sẽ không bị ảnh hưởng mạnh mẽ).

Bây giờ điều này không hoàn toàn giống với việc chỉ định một mô hình và sau đó xem dữ liệu và quyết định "oh, tôi cần một mô hình khác", nhưng có lẽ nó gần giống như bạn có thể tìm hiểu đặc điểm của cách tiếp cận như vậy. Nó không tầm thường bởi vì bạn cần phải đưa ra một số lựa chọn để thực hiện điều này.

Nhận xét chung: Tôi nghĩ thật sai lầm khi phân loại phương pháp thống kê được áp dụng một cách tạm thời thành "hợp lệ" và "không hợp lệ". Không có gì là hợp lệ 100% vì các giả định mô hình không bao giờ giữ chính xác trong thực tế. Mặt khác, mặc dù bạn có thể tìm thấy lý do hợp lệ (!) Để gọi một cái gì đó là "không hợp lệ", nếu tìm hiểu các đặc điểm của phương pháp được cho là không hợp lệ theo chiều sâu, người ta có thể thấy rằng nó vẫn hoạt động khá tốt.


Tôi tự hỏi nếu điều này là thực tế trong thực tế ngoài những vấn đề đơn giản nhất. Chi phí tính toán mô phỏng sẽ nhanh chóng vượt quá khả năng của chúng tôi trong hầu hết các trường hợp, bạn có nghĩ vậy không? Nhận xét của bạn về tính hợp lệ là tất nhiên hợp lý. Tuy nhiên, nếu không có khái niệm đơn giản nhưng hữu ích này (hỗ trợ lý luận của chúng ta), chúng ta thậm chí sẽ lạc lõng hơn so với chúng ta - đó là quan điểm của tôi.
Richard Hardy

Tôi không nói rằng điều này nên được thực hiện mỗi khi gặp tình huống như vậy trong thực tế. Nó đúng hơn là một dự án nghiên cứu; tuy nhiên, một thông điệp mang đi là theo tôi, vì những lý do được đưa ra, lựa chọn mô hình phụ thuộc dữ liệu không chính xác làm suy luận có thể có hiệu lực theo cách khác. Các thủ tục kết hợp như vậy có thể hoạt động khá tốt trong nhiều tình huống, mặc dù điều này hiện chưa được điều tra đúng.
Lewian

Tôi đoán nếu điều này là khả thi, nó sẽ được sử dụng. Vấn đề chính có thể là không khả thi do số lượng lớn các lựa chọn mô hình phụ thuộc vào dữ liệu (quay lại nhận xét đầu tiên của tôi). Hay bạn không thấy một vấn đề ở đó?
Richard Hardy

Trước tiên, có mô phỏng kỳ lạ trong tài liệu khám phá kiểm tra sai chính tả / lựa chọn mô hình và sau đó suy luận tham số có điều kiện về kết quả của điều đó. Kết quả được trộn theo như tôi biết. Một ví dụ "cổ điển" có ở đây: tandfonline.com/doi/abs/10.1080/ấc
Lewian

Nhưng bạn nói đúng; mô hình hóa toàn bộ quá trình với tất cả các loại tùy chọn mô hình có thể sẽ đòi hỏi nhiều sự lựa chọn. Tôi vẫn nghĩ rằng đó là một dự án đáng giá, mặc dù không phải là thứ mà người ta có thể yêu cầu bất cứ khi nào các mô hình được chọn từ cùng một dữ liệu mà chúng được trang bị. Nhân tiện, Aris Spanos lập luận chống lại ý kiến ​​cho rằng kiểm tra sai chính tả hoặc kiểm tra mô hình trên dữ liệu làm cho suy luận không hợp lệ. onlinel Library.wiley.com/doi/abs/10.1111/joes.12200
Lewian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.