Độc lập của phần dư trong một thí nghiệm / mô phỏng dựa trên máy tính?


17

Tôi đã tiến hành đánh giá dựa trên máy tính về các phương pháp khác nhau để phù hợp với một loại mô hình cụ thể được sử dụng trong khoa học palaeo. Tôi đã có một tập huấn luyện lớn và vì vậy tôi ngẫu nhiên (lấy mẫu ngẫu nhiên phân tầng) để dành một bộ kiểm tra. Tôi đã trang bị các phương pháp khác nhau cho các mẫu tập huấn luyện và sử dụng các mô hình kết quả tôi dự đoán đáp ứng cho các mẫu của bộ thử nghiệm và tính toán RMSEP trên các mẫu trong bộ thử nghiệm. Đây là một lần chạy duy nhất .mmm

Sau đó, tôi đã lặp lại quá trình này một số lượng lớn, mỗi lần tôi chọn một tập huấn luyện khác nhau bằng cách lấy mẫu ngẫu nhiên một bộ thử nghiệm mới.

Đã làm điều này tôi muốn điều tra xem liệu bất kỳ phương pháp có hiệu suất RMSEP tốt hơn hay kém hơn. Tôi cũng muốn làm nhiều so sánh về các phương pháp cặp đôi.m

Cách tiếp cận của tôi là phù hợp với mô hình hiệu ứng hỗn hợp tuyến tính (LME), với một hiệu ứng ngẫu nhiên duy nhất cho Run . Tôi đã sử dụng lmer()từ gói lme4 để phù hợp với mô hình và các chức năng của tôi từ gói multcomp để thực hiện nhiều so sánh. Mô hình của tôi về cơ bản là

lmer(RMSEP ~ method + (1 | Run), data = FOO)

trong đó methodmột yếu tố chỉ ra phương pháp nào đã được sử dụng để tạo dự đoán mô hình cho tập kiểm tra và Runlà chỉ báo cho mỗi lần chạy "thử nghiệm" cụ thể của tôi.

Câu hỏi của tôi liên quan đến phần còn lại của LME. Với hiệu ứng ngẫu nhiên duy nhất cho Run Tôi giả sử rằng các giá trị RMSEP cho lần chạy đó có tương quan ở một mức độ nào đó nhưng không tương quan giữa các lần chạy, trên cơ sở tương quan cảm ứng của các hiệu ứng ngẫu nhiên.

Là giả định độc lập giữa các lần chạy hợp lệ? Nếu không có cách nào để giải thích điều này trong mô hình LME hay tôi nên tìm cách sử dụng một loại phân tích thống kê khác để trả lời câu hỏi của mình?


Là phần dư có điều kiện trên các hiệu ứng ngẫu nhiên dự đoán hoặc vô điều kiện và trong các mô phỏng là các hiệu ứng ngẫu nhiên dự đoán không đổi hoặc thay đổi. Hãy nhớ thử cảm nhận điều này cho các phương thức mô phỏng mặc định trong LME4 và không thể (nhưng dự án đã bị hủy trước khi tôi sắp xếp nó ra).
phaneron

Không chắc chắn tôi tuân thủ đầy đủ, nhưng các loạt tập huấn vẽ khác nhau -> mô hình phù hợp -> tính toán RMSEP đều được thực hiện trước LME. Hiệu ứng ngẫu nhiên là để chạy vì mỗi lần chạy sẽ có một lần chặn khác nhau (RMSEP) vì các kết hợp khác nhau của các mẫu thử nghiệm được chọn, nhưng điều này là không đổi trong khi chạy. Đối với bit có điều kiện / vô điều kiện, tôi không chắc chắn / rõ ý của bạn là gì. Cảm ơn bạn đã bình luận.
Phục hồi Monica - G. Simpson

Câu trả lời:


4

Về cơ bản, bạn đang thực hiện một số hình thức xác thực chéo ở đây cho từng phương thức m của mình và sau đó muốn xem phương thức nào hoạt động tốt hơn. Kết quả giữa các lần chạy chắc chắn sẽ phụ thuộc, vì chúng dựa trên cùng một dữ liệu và bạn có sự chồng chéo giữa các bộ kiểm tra / xe lửa của mình. Câu hỏi là liệu điều này có quan trọng khi bạn đến để so sánh các phương pháp.

Giả sử bạn sẽ chỉ thực hiện một lần chạy và sẽ thấy rằng một phương pháp tốt hơn các phương pháp khác. Sau đó, bạn sẽ tự hỏi - điều này chỉ đơn giản là do sự lựa chọn cụ thể của bộ thử nghiệm? Đây là lý do tại sao bạn lặp lại thử nghiệm của mình cho nhiều bộ thử nghiệm / xe lửa khác nhau. Vì vậy, để xác định rằng một phương thức tốt hơn các phương thức khác, bạn chạy nhiều lần và trong mỗi lần chạy, hãy so sánh nó với các phương thức khác (bạn có các tùy chọn khác nhau để xem xét lỗi / xếp hạng / v.v.). Bây giờ, nếu bạn thấy rằng một phương thức làm tốt hơn trên hầu hết các lần chạy, kết quả là nó là gì. Tôi không chắc chắn sẽ hữu ích khi đưa ra giá trị p cho điều này. Hoặc, nếu bạn muốn đưa ra giá trị p, hãy tự hỏi mô hình nền ở đây là gì?


Cảm ơn những suy nghĩ của bạn. Tôi nghĩ rằng những dòng cuối cùng của bạn tổng hợp khá nhiều nơi tôi đang có. Để dự đoán phần nào điều này, tôi có một phần tiếp theo , nơi tôi hỏi về những cách thích hợp để phân tích loại dữ liệu này. Tôi cũng thích quan điểm của bạn về "nó là như vậy"; gần đây cũng đang quay cuồng trong quá trình suy nghĩ của tôi.
Phục hồi Monica - G. Simpson

Một vấn đề tôi gặp phải với phần "kết quả là nó là gì" là các RMSEP khá thay đổi từ chạy sang chạy. Vì vậy, trung bình một hoặc hai phương pháp là tốt hơn, nhưng chúng có thực sự tốt hơn với sự thay đổi trong RMSEP không? Do đó tôi đang thử một LME với hiệu ứng ngẫu nhiên cho Run. Để sửa đổi cách tiếp cận đó, tôi cần biết ai là người tương quan với mỗi bộ dữ liệu. Dường như bất kỳ bài kiểm tra thống kê nào tôi làm sẽ cần phải được sửa đổi như vậy. Do đó, tôi vẫn đấu tranh với cách diễn giải các phương tiện trong 50 lần chạy cho mỗi phương pháp & liệu tôi có thể rút ra bất kỳ kết luận nào không ...?
Phục hồi Monica - G. Simpson

1
Cách tôi nhìn thấy, đánh giá các phương thức của bạn trên tất cả các phân vùng tập huấn / kiểm tra có thể có của dữ liệu của bạn sẽ là đánh giá toàn diện nhất. Vì điều này là không thể, bạn đang ước tính điều này với các lần chạy ngẫu nhiên. Giả sử bạn có thể đánh giá tất cả các phân vùng thử nghiệm / đào tạo - bạn vẫn sẽ gặp phải câu hỏi về cách quyết định phương pháp nào tốt hơn. Vì vậy, đây là vấn đề về cách bạn xác định "tốt" là gì. Có nghĩa là điểm trung bình cao? Hoặc điều đó có nghĩa là trong nhiều lần chạy, một phương thức đạt điểm cao hơn các phương pháp khác (cá nhân tôi nghĩ rằng đây sẽ là một phiên bản tốt hơn)?
Bitwise

1

Có thể không thực sự hiểu những gì bạn đã làm nhưng

cho Run Tôi giả sử rằng các giá trị RMSEP cho lần chạy đó có tương quan ở một mức độ nào đó

Vâng, điều đó phản ánh mức độ thách thức của bộ thử nghiệm trong lần chạy đó

nhưng không tương quan giữa các lần chạy

Không, theo cách bạn đã lấy mẫu các bộ kiểm tra, một số bộ sẽ bị chồng chéo hơn các bộ khác (chắc chắn không phải là bản sao độc lập)

Bạn bằng cách nào đó sẽ phải mô hình hóa sự phụ thuộc dựa trên sự chồng chéo hoặc thiết kế đánh giá để các hoạt động là độc lập. Tôi sẽ đọc các tài liệu thống kê về xác nhận chéo ;-)


+1 Cảm ơn bạn đã trả lời. Hmm, tôi hiểu ý của bạn. Các bộ kiểm tra càng giống nhau thì giá trị RMSEP của chúng càng giống nhau. OK, đặt theo cách đó giống như khi dữ liệu tương quan không gian hoặc tạm thời. Cách tôi tạo các bộ huấn luyện / bộ kiểm tra có nghĩa là trung bình tất cả chúng đều không giống nhau. Tôi không chắc CV sẽ đưa tôi đến đây - và theo một nghĩa nào đó, tôi đang làm điều đó bằng mọi cách chỉ bằng cách tiếp cận lại. Có lẽ sẽ hỏi một Q khác về cách giải quyết vấn đề thực sự.
Phục hồi Monica - G. Simpson

Tôi sẽ để mở cho đến khi kết thúc thời kỳ tiền thưởng để xem có ai cắn không, nhưng tôi đánh giá cao suy nghĩ của bạn ở đây và sẽ chấp nhận và trao thưởng nếu không có câu trả lời nào khác.
Phục hồi Monica - G. Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.