Mức độ phù hợp cho mô hình phi tuyến


8

Chúng tôi đã trang bị một hàm phi tuyến cho dữ liệu quan sát. Bước tiếp theo sẽ là đánh giá mức độ phù hợp của chức năng này (như cho các mô hình tuyến tính).R2

Những cách thông thường để đo lường điều này là gì?

Chỉnh sửa 1:

Việc lắp được thực hiện như sau:

  1. Thực hiện hồi quy tuyến tính với các biến độc lập MộtB .
  2. Tính toán các tham số phân phối từ các tham số hồi quy. (Phân phối là phi tuyến và có biến C là đầu vào.)
  3. Đánh giá mức độ phù hợp của phân phối phi tuyến bằng cách so sánh dữ liệu ước tính với dữ liệu quan sát được.

Chỉnh sửa 2:

Ví dụ cho các bước được đề cập ở trên:

  1. Mô hình hồi quy:log(y)=β0+β1log(a)+β2log(b)
  2. ρ=β0β1 và cho phân phối phi tuyến sau: f ( một ) = ρ một - θθ=β2f(a)=ρaθ
  3. Đánh giá mức độ phù hợp của với một tập hợp các quan sát .( a , f ( a ) )f(a)(a,f(a))

5
"Mức độ phù hợp" phụ thuộc vào cách thức thực hiện sự phù hợp. Chẳng hạn, thước đo GoF thích hợp cho công cụ ước tính khả năng tối đa phải khác với thước đo GoF cho công cụ ước lượng bình phương nhỏ nhất khi thành phần ngẫu nhiên không phải là biến Bình thường phụ gia. Nếu bạn có một vấn đề cụ thể trong đầu, thì bạn có thể muốn chỉ ra cách bạn thực hiện lắp.
whuber

2
Bạn có thể quan tâm đến: Magee, L. (1990). biện pháp dựa trên các xét nghiệm ý nghĩa chung tỷ lệ Wald và khả năng chung. Nhà thống kê người Mỹ , 44 (3): 250 trừ253, và Pesaran, MH và Smith, RJ (1994). Một tiêu chí tổng quát cho các mô hình hồi quy được ước tính bằng phương pháp biến công cụ. Kinh tế lượng , 62 (3): 705 trừ710. R 2R2R2
Alexis

1
@whuber Tôi đã thêm mô tả về các bước thực hiện trong các câu hỏi trên.
Marco

@Alexis Cảm ơn bạn đã tham khảo, tôi sẽ xem xét chúng.
Marco

1
@whuber Sẽ là một cách khả thi để tính toán mối tương quan giữa và các quan sát đã cho để đánh giá mức độ phù hợp? f(a)
Marco

Câu trả lời:


2

Có thể có nhiều hơn thế, nhưng đối với tôi, dường như bạn chỉ muốn xác định mức độ phù hợp (GoF) cho một hàm f (a), được trang bị cho một tập dữ liệu cụ thể (a, f (a)). Vì vậy, câu trả lời sau chỉ trả lời câu hỏi phụ thứ ba của bạn (Tôi không nghĩ câu thứ nhất và câu thứ hai có liên quan trực tiếp đến câu hỏi thứ ba).

Thông thường, GoF có thể được xác định theo tham số (nếu bạn biết các tham số chức năng của phân phối) hoặc không tham số (nếu bạn không biết chúng). Mặc dù bạn có thể tìm ra các tham số cho hàm, vì nó có vẻ là hàm mũ hoặc gamma / Weibull (giả sử rằng dữ liệu là liên tục). Tuy nhiên, tôi sẽ tiến hành, như thể bạn không biết các thông số. Trong trường hợp này, đó là một quá trình hai bước . Trước tiên, bạn cần xác định các tham số phân phối cho tập dữ liệu của mình. Thứ hai, bạn thực hiện kiểm tra GoF cho phân phối được xác định. Để tránh lặp lại chính mình, tại thời điểm này tôi sẽ giới thiệu cho bạn câu trả lời trước đó của tôicho một câu hỏi liên quan, trong đó có một số chi tiết hữu ích. Rõ ràng, câu trả lời này có thể dễ dàng được áp dụng cho các bản phân phối, ngoài câu trả lời được đề cập trong đó.

Ngoài các thử nghiệm GoF, được đề cập ở đó, bạn có thể xem xét một thử nghiệm khác - thử nghiệm GoF chi-vuông . Không giống như các thử nghiệm KSAD , chỉ áp dụng cho các phân phối liên tục, thử nghiệm GoF chi bình phương được áp dụng cho cả các thử nghiệm rời rạcliên tục . Kiểm tra GoF chi-vuông có thể được thực hiện trong R bằng cách sử dụng một trong một số gói: statsgói tích hợp (chức năng chisq.test()) và vcdgói (chức năng goodfit()- chỉ dành cho dữ liệu rời rạc). Thêm chi tiết có sẵn trong tài liệu này .


1
Liên kết đến "câu trả lời trước đó của tôi" không còn hoạt động nữa, vì câu hỏi có lẽ đã bị xóa.
Amonet

1
@Amonet Cảm ơn bạn đã cho tôi biết. Tôi đã có thể truy cập vào Hỏi và Đáp đã bị xóa và khôi phục chúng dưới dạng Gist công khai. Vui lòng xem gist.github.com/ablekh/ . Hi vọng điêu nay co ich.
Alexanderr Blekh

0

Chà, trong Machine Learning, thứ gọi là Xác thực chéo được thực hiện khá thường xuyên cho mục đích thử nghiệm mô hình (kiểm tra xem loại mô hình đó có các tham số siêu này - như số bậc tự do hay bất cứ điều gì - phù hợp với vấn đề của bạn) - bạn chia nhỏ dữ liệu nhiều lần vào tập dữ liệu huấn luyện và kiểm tra, sau đó chạy tối ưu hóa qua tập huấn luyện và tính toán bất kỳ chất lượng nào qua dữ liệu kiểm tra. Cách bảo mật nhất là chạy cái gọi là "xác thực chéo QxT". Mã giả có thể như:

cv_values = []
for t in range(T):
    split = randomsplit(data, number_of_parst = Q)
    for test_id in range(Q):
        model.fit(split[:test_id] + split[test_id + 1:] # test on everything excepting test_id
        cv_values.append(model.test(split[test_id]))

cv_values.mean() # whatever

Cảm ơn câu trả lời của bạn. Vậy, chức năng model.test (...) của bạn trông như thế nào?
Marco
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.