Có bắt buộc phải tập hợp dữ liệu của bạn để xác thực một mô hình không?


8

Tôi đang gặp khó khăn khi ở cùng một trang với người giám sát của mình khi xác nhận mô hình của tôi. Tôi đã phân tích dư lượng (quan sát các giá trị được trang bị) và tôi đã sử dụng nó làm đối số để thảo luận về kết quả thu được từ mô hình của mình, tuy nhiên người giám sát của tôi khẳng định rằng cách duy nhất để xác thực mô hình là tạo một tập hợp con ngẫu nhiên của dữ liệu của tôi, tạo mô hình với 70% của mô hình và sau đó áp dụng mô hình trên 30% còn lại.

Vấn đề là, biến trả lời của tôi là không tăng (85% trong số đó, để được đánh giá cao hơn) và tôi không muốn tạo một tập hợp con vì nó rất khó để hội tụ kết quả.

Vì vậy, câu hỏi của tôi là: những cách có thể (và có thể chấp nhận được về mặt khoa học) để xác nhận một mô hình là gì? Là tập hợp dữ liệu cách duy nhất? Nếu có thể, hãy tham khảo các câu hỏi của bạn với các bài báo / sách để tôi có thể sử dụng nó làm đối số khi trình bày các lựa chọn thay thế của mình.


Tuy nhiên, nếu bạn đã chọn mô hình dựa trên tất cả dữ liệu, điều đó vẫn không được tính ...
Aaron rời khỏi Stack Overflow

Ý bạn là tôi nên chọn mô hình của mình dựa trên tập hợp con của dữ liệu? Làm cách nào để phân tích chính xác việc phân phối dữ liệu của tôi nếu tôi không sử dụng tất cả dữ liệu đó?
Eric Lino

Vâng, đó chính xác là điều tôi muốn nói - nếu bạn muốn có dữ liệu để xác thực mô hình của mình, thì dữ liệu đó cần phải được đưa ra khi đưa ra lựa chọn phân tích. Đây là những gì Wikipedia gọi là bộ đào tạo và xác nhận. Nếu bạn sử dụng bộ xác thực của mình để phù hợp với các tham số siêu, bạn thậm chí sẽ cần bộ thứ ba (bộ kiểm tra) để kiểm tra mô hình cuối cùng của bạn.
Aaron rời Stack Overflow

Không phải là tôi ủng hộ điều đó; trong trường hợp của bạn, có lẽ tốt hơn hết là bạn nên sử dụng các phương pháp chẩn đoán và lựa chọn mô hình truyền thống hơn, đó là điều tất nhiên bạn đang yêu cầu (và than ôi, tôi không có thời gian để trả lời đúng).
Aaron rời Stack Overflow

2
Câu trả lời bạn đang tìm kiếm có lẽ là trong phần 5.3 của Frank Harrell 's Regression Modeling chiến lược .
Aaron rời Stack Overflow

Câu trả lời:


6

Để bắt đầu, tôi khuyên bạn nên cảnh giác với những tuyên bố rằng chỉ có mộtcách để làm một cái gì đó. Chia mẫu thu được thành "tập huấn" và tập dữ liệu "kiểm tra" là cách tiếp cận phổ biến trong nhiều ứng dụng khoa học dữ liệu / máy học. Thông thường, các phương pháp mô hình hóa này ít quan tâm đến việc kiểm tra giả thuyết về một quy trình tạo dữ liệu cơ bản, điều này có nghĩa là chúng có xu hướng hơi vô thần. Trong thực tế, hầu hết các loại phân tách đào tạo / kiểm tra này chỉ muốn xem liệu mô hình có quá phù hợp về mặt hiệu suất dự đoán hay không. Tất nhiên, cũng có thể sử dụng phương pháp đào tạo / kiểm tra để xem liệu một mô hình nhất định có sao chép theo các tham số nào là "có ý nghĩa" hay không để xem liệu các ước tính tham số có nằm trong phạm vi dự kiến ​​trong cả hai trường hợp hay không.

Về lý thuyết, các mô hình xác nhận hoặc vô hiệu hóa là những gì khoa học, viết lớn, được cho là đang làm. Các nhà nghiên cứu độc lập, kiểm tra riêng, tạo và kiểm tra các giả thuyết hỗ trợ hoặc bác bỏ các lập luận về một lý thuyết về lý do tại sao hoặc trong trường hợp nào xảy ra hiện tượng quan sát được - đó là doanh nghiệp khoa học trong một vỏ hạt (hoặc ít nhất là trong một câu quá dài). Vì vậy, để trả lời câu hỏi của bạn, với tôi, ngay cả các phân tách đào tạo / kiểm tra cũng không "xác nhận" một mô hình. Đó là một cái gì đó làm mất trọng lượng của nhiều năm bằng chứng được tích lũy từ nhiều nhà nghiên cứu độc lập nghiên cứu cùng một tập hợp hiện tượng. Mặc dù vậy, tôi sẽ cho rằng việc này có thể là một điều gì đó khác biệt về ngữ nghĩa về những gì tôi xem xác thực mô hình có nghĩa là gì so với việc xác thực thuật ngữ có nghĩa là gì trong các cài đặt được áp dụng ...

Tùy thuộc vào dữ liệu và phương pháp mô hình hóa của bạn, có thể không phải lúc nào cũng phù hợp theo quan điểm thống kê để phân chia mẫu của bạn thành các bộ huấn luyện và thử nghiệm. Ví dụ, các mẫu nhỏ có thể đặc biệt khó áp dụng phương pháp này. Ngoài ra, một số bản phân phối có thể có các thuộc tính nhất định khiến chúng khó lập mô hình ngay cả với các mẫu tương đối lớn. Trường hợp không thổi phồng của bạn có thể phù hợp với mô tả sau này. Nếu mục tiêu là đạt được xấp xỉ "sự thật" về một tập hợp các mối quan hệ hoặc các quá trình cơ bản được cho là giải thích cho một số hiện tượng, bạn sẽ không được phục vụ tốt bằng cách sử dụng một cách tiếp cận dưới quyền để kiểm tra một giả thuyết nhất định. Vì vậy, có lẽ bước đầu tiên là thực hiện phân tích sức mạnh để xem liệu bạn thậm chí có khả năng sao chép việc tìm kiếm sự quan tâm trong dữ liệu của bạn không.

Một tùy chọn khác là chỉ định một số mô hình để xem liệu chúng "giải thích" tốt hơn cho dữ liệu được quan sát hay không. Mục tiêu ở đây sẽ là xác định mô hình tốt nhất trong số các lựa chọn thay thế hợp lý. Đây là một đối số, không phải là một đối số tuyệt đối, bạn sẽ đưa ra về mô hình của mình. Về cơ bản, bạn thừa nhận rằng có thể có các mô hình khác có thể được đặt ra để giải thích dữ liệu của bạn, nhưng mô hình của bạn là mô hình thay thế tốt nhất được thử nghiệm (ít nhất là bạn hy vọng như vậy). Tất cả các mô hình trong tập hợp, bao gồm cả mô hình giả thuyết của bạn, nên có căn cứ về mặt lý thuyết; nếu không, bạn có nguy cơ thiết lập một nhóm người đàn ông rơm thống kê.

Ngoài ra còn có các yếu tố Bayes trong đó bạn có thể tính toán trọng số của bằng chứng mà mô hình của bạn cung cấp, dựa trên dữ liệu của bạn, cho một giả thuyết cụ thể liên quan đến các kịch bản thay thế.

Đây là một danh sách đầy đủ các tùy chọn, nhưng tôi hy vọng nó có ích. Bây giờ tôi sẽ bước xuống từ hộp xà phòng. Chỉ cần nhớ rằng mọi mô hình trong mọi nghiên cứu được công bố về hành vi của con người là không chính xác. Hầu như luôn luôn có các biến bị bỏ qua có liên quan, các tương tác không được điều chỉnh, các quần thể được lấy mẫu không hoàn hảo và chỉ là lỗi lấy mẫu cũ đơn giản khi chơi làm xáo trộn sự thật tiềm ẩn.


Tôi đánh giá cao tất cả thời gian bạn dành để viết một câu trả lời sâu sắc như vậy, Matt. Tuy nhiên, tôi cảm thấy rằng mặc dù nó giúp tôi ở mức độ khái niệm, nhưng nó thiếu một số tài liệu tham khảo rằng tôi sẽ rất cần thảo luận về phương pháp này với người giám sát của tôi. Bạn có tình cờ có bất kỳ giấy tờ / sách nào về tỷ lệ nhập dữ liệu không? Nếu không thể, bạn có đề xuất gói R mà tôi có thể thực hiện phân tích sức mạnh này mà bạn đã nói không?
Eric Lino

Đối với các gói R và sức mạnh, nó phụ thuộc vào mô hình của bạn (pwr, simsem, v.v.). Không có một câu trả lời duy nhất. Ngoài ra, về tỷ lệ đặt lại dữ liệu của bạn, tôi nghĩ đó chỉ là một cách khác để hỏi về sức mạnh nếu tôi hiểu đúng về bạn. Nếu bạn đang hướng về bit năng lượng, tôi khuyên bạn nên tập trung vào hiệu ứng yếu nhất của bạn và xem kích thước mẫu tối thiểu sẽ phải là gì để tái tạo nó - một tình huống xấu nhất.
Matt Barstead

Tôi hiểu rồi. Chà, tôi đang sử dụng gói glmmadmb, được phát triển bởi Ben Bolker và những người khác. Biến phản ứng của tôi là không tăng (số người mắc một bệnh hiếm gặp cụ thể) và các biến độc lập của tôi bao gồm phân phối bình thường, không bình thường và không thổi phồng. Vì tôi đang xử lý một chuỗi thời gian, tôi đã sử dụng "năm" làm yếu tố nhóm và có vẻ như là một ý tưởng tốt để khám phá họ mô hình ZIGLMM. Thông tin này có giúp bạn trong việc giúp tôi không?
Eric Lino

2
Bạn có thể muốn kiểm tra gói simR . Theo hiểu biết của tôi, nó là gói linh hoạt nhất hiện có để phân tích công suất với các mô hình tuyến tính tuyến tính và tổng quát. Màu xanh lá cây, P., & MacLeod, CJ (2016). SIMR: Gói R để phân tích công suất của các mô hình tuyến tính tổng quát bằng mô phỏng. Phương pháp trong sinh thái và tiến hóa.
Matt Barstead

10

Chia tách dữ liệu nói chung là một cách rất không cạnh tranh để thực hiện xác nhận nội bộ. Đó là do tính biến động nghiêm trọng - mô hình 'cuối cùng' khác nhau và 'xác thực' khác nhau khi phân tách lại và do lỗi bình phương trung bình của ước tính (của những thứ như lỗi dự đoán tuyệt đối trung bình và ) cao hơn quy trình lấy mẫu tốt chẳng hạn như bootstrap. Tôi đi sâu vào chi tiết này trong cuốn sách Chiến lược mô hình hồi quy và ghi chú khóa học của tôi. Lấy mẫu lại có một lợi thế lớn khác: phơi bày sự biến động trong lựa chọn tính năng.R2


vẫn tin rằng động lực chính của OP là để biết liệu mô hình ZIP của anh ấy có đầy đủ = kiểm tra dư, không phải là lựa chọn mô hình / tính năng hoặc hiệu suất dự đoán, nhưng có lẽ anh ấy có thể làm rõ chính mình
Florian Hartig

Vâng, @FlorianHartig là chính xác! Tuy nhiên, bootstrapping làm tôi thích thú (nếu không phải vì nghiên cứu này, để thu thập kiến ​​thức) và tôi chắc chắn sẽ xem trang web của bạn để tham khảo trong tương lai. Cảm ơn bạn rất nhiều cho đầu vào.
Eric Lino

6

Tôi nghĩ rằng các câu trả lời ở đây phân kỳ bởi vì câu hỏi có phần không rõ ràng, trước hết: bạn có ý nghĩa gì khi "xác nhận"?

Một phân chia 70/30 (hoặc xác thực chéo cho vấn đề đó) thường được thực hiện để đánh giá hiệu suất dự đoán của một mô hình hoặc toàn bộ chuỗi phân tích (có thể bao gồm cả lựa chọn mô hình). Xác nhận như vậy đặc biệt quan trọng nếu bạn đang so sánh các tùy chọn mô hình khác nhau về hiệu suất dự đoán của chúng.

Đó là một trường hợp hoàn toàn khác nếu bạn không muốn chọn các mô hình và cũng không quan tâm đến hiệu suất dự đoán như vậy, nhưng bạn quan tâm đến suy luận (ước tính hồi quy / giá trị p) và muốn xác thực nếu giả định mô hình / lỗi của bạn của GLMM là đầy đủ. Trong trường hợp này, có thể dự đoán để giữ và so sánh các dự đoán với dữ liệu được quan sát, nhưng thủ tục phổ biến hơn nhiều là thực hiện phân tích dư. Nếu bạn cần chứng minh điều này với người giám sát của bạn: về cơ bản đây là điều mà mọi sách giáo khoa thống kê đều dạy để làm ngay sau khi hồi quy tuyến tính.

Xem ở đây để biết cách chạy phân tích dư cho GLMM (bao gồm lạm phát bằng 0 với glmmTMB, mà tôi thích hơn glmmadmb) với gói DHARMa (từ chối trách nhiệm: Tôi là người bảo trì).


Cảm ơn bạn cho một câu trả lời rõ ràng, nhưng sâu sắc. Trường hợp ban đầu của tôi là ví dụ thứ hai bạn cung cấp; Tôi không quan tâm đến việc đánh giá hiệu suất dự đoán của mô hình của mình, mà chỉ định lượng các mối quan hệ cơ bản giữa biến trả lời của tôi và biến độc lập của tôi. Tôi không chắc là tôi hiểu chính xác ý bạn là gì khi "dự đoán trước". Bạn có đang đề cập đến các giá trị dự đoán được tạo ra trên đầu ra của đối tượng mô hình sau khi bạn chạy nó không?
Eric Lino

Ý tôi là bạn tính toán số dư / sai lệch bằng cách so sánh các dự đoán so với các quan sát trên dữ liệu tạm dừng (= xác thực)
Florian Hartig

2

Câu trả lời ngắn gọn là có, bạn cần đánh giá hiệu suất của mô hình trên dữ liệu không được sử dụng trong đào tạo.

Các kỹ thuật xây dựng mô hình hiện đại cực kỳ tốt trong việc điều chỉnh dữ liệu tùy ý tốt và có thể dễ dàng tìm thấy tín hiệu trong nhiễu. Do đó, hiệu suất của một mô hình trên dữ liệu đào tạo hầu như luôn bị sai lệch.

Rất đáng để bạn dành thời gian để khám phá chủ đề xác thực chéo (ngay cả khi bạn không điều chỉnh siêu âm) để hiểu rõ hơn lý do tại sao chúng tôi giữ dữ liệu, khi nó hoạt động, những giả định nào có liên quan, v.v. Một trong những bài báo yêu thích của tôi là :

Không có công cụ ước tính không thiên vị về phương sai của xác thực chéo k-Fold


7
R2

Bạn đang đề nghị bootstrap trên dữ liệu được tổ chức?
Chris

Đọc về bootstrap lạc quan Efron-Gong, đây là phương thức xác thực mô hình bootstrap tiêu chuẩn và là phương thức được triển khai trong rmsgói validatecalibratechức năng R. Với bootstrap này, không có quyết định một lần nào về việc giữ dữ liệu. Như cuốn sách RMS và ghi chú khóa học của tôi mô tả chi tiết, lượng quá mức được ước tính bằng cách xem một mô hình được phát triển trong mẫu bootstrap giảm xuống như thế nào khi áp dụng cho mẫu đầy đủ ban đầu (chồng chéo). Bootstrap phải lặp lại tất cả các bước lập mô hình trước đó cho mỗi lần lặp.
Frank Harrell

Hấp dẫn. Tôi đã xem qua ghi chú của bạn và giấy của Efron. Cảm giác giống như các mô hình nhanh chóng phù hợp, chúng tôi có thể nhận ra một số lợi thế khi sử dụng các phiên bản cụ thể của bootstrap.
Chris

Và điều duy nhất khiến bootstrap dường như bị chậm (mặc dù nó vẫn nhanh hơn xác thực chéo, yêu cầu 100 lần lặp lại xác thực chéo 10 lần để cung cấp sự ổn định) là so sánh nó với phân tách dữ liệu duy nhất cung cấp chỉ là một ảo ảnh của sự ổn định.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.