Làm thế nào để chọn phù hợp nhất mà không cần dữ liệu quá phù hợp? Mô hình hóa phân phối lưỡng kim với N hàm thông thường, v.v.


11

Tôi có một sự phân phối rõ ràng của các giá trị, mà tôi tìm cách phù hợp. Dữ liệu có thể phù hợp tốt với 2 chức năng bình thường (bimodal) hoặc với 3 chức năng bình thường. Ngoài ra, có một lý do vật lý hợp lý để khớp dữ liệu với 3.

Càng nhiều thông số được giới thiệu, sự phù hợp sẽ càng hoàn hảo, vì với đủ hằng số, người ta có thể " phù hợp với một con voi ".

Đây là phân phối, phù hợp với tổng 3 đường cong thông thường (Gaussian):

Phân phối với

Đây là những dữ liệu cho mỗi phù hợp. Tôi không chắc chắn nên áp dụng thử nghiệm nào ở đây để xác định sự phù hợp. Dữ liệu bao gồm 91 điểm.

1 Chức năng bình thường:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • F.Test: 0,3092

2 chức năng bình thường:

  • RSS: 0,010939
  • X ^ 2: 0,053896
  • F.Test: 0.97101

3 chức năng bình thường:

  • RSS: 0,00536
  • X ^ 2: 0,02794
  • F.Test: 0,99249

Kiểm tra thống kê chính xác có thể được áp dụng để xác định trong số 3 phù hợp là tốt nhất là gì? Rõ ràng, 1 chức năng bình thường phù hợp là không đủ. Vậy làm thế nào tôi có thể phân biệt giữa 2 và 3?

Để thêm, tôi chủ yếu làm điều này với Excel và một chút Python; Tôi chưa quen với R hoặc các ngôn ngữ thống kê khác.


Có ý kiến ​​cho rằng tôi sử dụng bình phương chi giảm X ^ 2 / (Nn-1) trong đó N là số điểm dữ liệu và n là số lượng tham số được trang bị. Tuy nhiên, số tiền nhỏ (+/- 3) so với số điểm dữ liệu (91) không có vẻ như là một hình phạt đặc biệt dốc khi thêm một Gaussian khác.
MurphysLab

Bạn có thể muốn kiểm tra câu trả lời này (trong trường hợp bạn sẽ quyết định đi theo Rlộ trình). Một số tiêu chí lựa chọn mô hình được đề cập trong câu trả lời này . Cuối cùng, bạn có thể muốn xem xét các phương thức tập hợp , mà tôi trình bày ngắn gọn trong câu trả lời này , cũng chứa liên kết đến thông tin tập trung vào Python. Bạn có thể tìm thêm chi tiết về lựa chọn mô hình và tính trung bình trong câu trả lời này .
Alexanderr Blekh

Câu trả lời:


5

Dưới đây là hai cách bạn có thể tiếp cận vấn đề chọn phân phối của mình:

  1. Để so sánh mô hình, sử dụng một biện pháp xử phạt mô hình tùy thuộc vào số lượng tham số. Tiêu chí thông tin làm điều này. Sử dụng một tiêu chí thông tin để chọn mô hình nào được giữ lại, chọn mô hình có tiêu chí thông tin thấp nhất (ví dụ AIC). Nguyên tắc để so sánh nếu sự khác biệt trong AIC là đáng kể là nếu sự khác biệt trong AIC lớn hơn 2 (đây không phải là thử nghiệm giả thuyết chính thức, xem Kiểm tra sự khác biệt trong AIC của hai mô hình không lồng nhau ).

    2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. Nếu bạn muốn kiểm tra giả thuyết chính thức, bạn có thể tiến hành theo ít nhất hai cách. Cách dễ dàng hơn có thể phù hợp là phù hợp với các bản phân phối của bạn bằng cách sử dụng một phần mẫu của bạn và hơn kiểm tra nếu các bản phân phối dư có sự khác biệt đáng kể khi sử dụng phép thử Chi-squared hoặc Koleimorov-Smirnov trên phần còn lại của dữ liệu. Bằng cách này, bạn không sử dụng cùng một dữ liệu để phù hợp và kiểm tra mô hình của mình như AndrewM đã đề cập trong các nhận xét.

    Bạn cũng có thể thực hiện kiểm tra tỷ lệ khả năng với việc điều chỉnh phân phối null. Một phiên bản này được mô tả trong Lo Y. et al. (2013) "Kiểm tra số lượng thành phần trong hỗn hợp thông thường." Biometrika nhưng tôi không có quyền truy cập vào bài viết vì vậy tôi không thể cung cấp cho bạn thêm chi tiết về cách chính xác để làm điều này.

    Dù bằng cách nào, nếu thử nghiệm không đáng kể giữ lại phân phối với số lượng tham số thấp hơn, nếu nó có ý nghĩa, hãy chọn thử nghiệm có số lượng tham số cao hơn.


@Momo cảm ơn, đã thay đổi điều đó và thêm phương trình cho AIC
Chris Novak

Tôi không chắc chắn 100% nhưng AIC tiêu chuẩn có thể không hoạt động như mong đợi trong các mô hình hỗn hợp vì các cấu hình khác nhau của hỗn hợp có thể mang lại cùng một mô hình.
Cagdas Ozgenc

Điều tôi muốn nói là bạn có thể hoán đổi 2 gaussian (bằng cách đặt giá trị trung bình / phương sai của thứ 1 thành thứ 2 và thứ 2 thành thứ nhất và cho các hỗn hợp) và vẫn có được mô hình tương tự. Theo như tôi biết thì AIC không hoạt động như mong đợi trong những tình huống như vậy.
Cagdas Ozgenc

1
@CagdasOzgenc Tôi thấy quan điểm của bạn, nhưng có vẻ như AIC và BIC tiêu chuẩn đã được chứng minh là phù hợp để lựa chọn mô hình trong các mô hình hỗn hợp gaussian, ví dụ như xem dự án
Chris Novak

1
χ2χ2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.