Xác định hàm phù hợp đường cong phù hợp nhất với các hàm tuyến tính, hàm mũ và hàm số logarit


18

Bối cảnh:

Từ một câu hỏi về Trao đổi ngăn xếp toán học (Tôi có thể xây dựng chương trình) , ai đó có một tập hợp các điểm và muốn khớp đường cong với nó, tuyến tính, hàm mũ hoặc logarit. Phương pháp thông thường là bắt đầu bằng cách chọn một trong số này (chỉ định mô hình), sau đó thực hiện các phép tính thống kê.x-y

Nhưng điều thực sự muốn là tìm ra đường cong 'tốt nhất' từ tuyến tính, hàm mũ hoặc logarit.

Rõ ràng, người ta có thể thử cả ba và chọn đường cong phù hợp nhất trong ba theo hệ số tương quan tốt nhất.

Nhưng bằng cách nào đó tôi cảm thấy điều này không hoàn toàn hơn. Phương pháp thường được chấp nhận là chọn mô hình của bạn trước, một trong ba phương thức đó (hoặc một số hàm liên kết khác), sau đó từ dữ liệu tính toán các hệ số. Và bài thực tế chọn tốt nhất trong tất cả là chọn anh đào. Nhưng đối với tôi, dù bạn đang xác định hàm hay hệ số từ dữ liệu thì đó vẫn là điều tương tự, quy trình của bạn đang khám phá điều tốt nhất ... (giả sử rằng hàm nào là - cũng như một hệ số khác được phát hiện).

Câu hỏi:

  • Có phù hợp để chọn mô hình phù hợp nhất trong số các mô hình tuyến tính, hàm mũ và logarit, dựa trên so sánh các thống kê phù hợp?
  • Nếu vậy, cách thích hợp nhất để làm điều này là gì?
  • Nếu hồi quy giúp tìm các tham số (hệ số) trong một hàm, tại sao không thể có một tham số rời rạc để chọn nhóm nào trong ba họ đường cong tốt nhất sẽ đến từ đâu?

1
Tôi đã thêm thẻ chọn mô hình để thuận tiện cho bạn: liên kết thông qua nó sẽ tạo ra một số lượng lớn các chủ đề liên quan trực tiếp. Các thẻ khác đáng xem bao gồm aic . Cuối cùng, bạn sẽ phát hiện ra rằng tuyên bố toán học của vấn đề này thiếu hai yếu tố cơ bản: mô tả về cách thức và lý do tại sao các điểm có thể lệch khỏi đường cong lý thuyết và chỉ dẫn về chi phí không có đường cong chính xác. Thiếu các yếu tố đó, có nhiều cách tiếp cận khác nhau có thể tạo ra các câu trả lời khác nhau, cho thấy "tốt nhất" là không xác định.
whuber

1
Bạn có thể dành một phần trăm dữ liệu của mình để xác thực trên mô hình và chọn mô hình phù hợp nhất với bộ dữ liệu xác thực đó. Vì vậy, về bản chất, bạn sẽ có ba bộ riêng biệt để chia dữ liệu của mình thành 1. dữ liệu để huấn luyện một mô hình duy nhất 2. dữ liệu xác thực từng mô hình cho phép bạn chọn mô hình tốt nhất và 3. dữ liệu xác thực cuối cùng thực tế của bạn không được chạm vào .
kleineg

1
@kleineg Nghe có vẻ đúng hướng. Sự lựa chọn mô hình (ví dụ giữa lin / exp / log) giống như một siêu tham số mô hình duy nhất, theo một cách nào đó chỉ là một giai đoạn khác của các tham số thông thường, và bước vào nó bằng các giai đoạn kiểm tra / xác thực / kiểm tra riêng biệt có thể được khái quát hóa.
Mitch

Liên quan: {Một cách tinh tế để overfit] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - lựa chọn giữa nhiều chức năng mô hình (ví dụ exp vs tuyến tính vs log) chỉ là tham số khác. Bạn có thể nghĩ về nó như một siêu tham số (cần một bước xác nhận) hoặc một tham số thông thường trong một hàm kết hợp phức tạp (nơi nó sẽ được kiểm tra trong bước kiểm tra).
Mitch

Câu trả lời:


9
  • Bạn có thể muốn kiểm tra phần mềm miễn phí có tên là Eureqa . Nó có mục đích cụ thể là tự động hóa quá trình tìm kiếm cả dạng chức năng và các tham số của một mối quan hệ chức năng nhất định.
  • Nếu bạn đang so sánh các mô hình, với số lượng tham số khác nhau, thông thường bạn sẽ muốn sử dụng thước đo mức độ phù hợp để xử phạt các mô hình có nhiều tham số hơn. Có một tài liệu phong phú về biện pháp phù hợp là phù hợp nhất để so sánh mô hình và các vấn đề trở nên phức tạp hơn khi các mô hình không được lồng nhau. Tôi rất muốn nghe những gì người khác nghĩ là chỉ số so sánh mô hình phù hợp nhất với kịch bản của bạn (như một điểm phụ, gần đây đã có một cuộc thảo luận trên blog của tôi về các chỉ số so sánh mô hình trong bối cảnh so sánh các mô hình để khớp đường cong).
  • Từ kinh nghiệm của tôi, các mô hình hồi quy phi tuyến tính được sử dụng vì những lý do vượt quá sự phù hợp thống kê thuần túy với dữ liệu đã cho:
    1. Các mô hình phi tuyến tính đưa ra các dự đoán hợp lý hơn ngoài phạm vi dữ liệu
    2. Các mô hình phi tuyến tính yêu cầu ít tham số hơn cho phù hợp tương đương
    3. Các mô hình hồi quy phi tuyến tính thường được áp dụng trong các lĩnh vực có nghiên cứu và lựa chọn mô hình hướng dẫn lý thuyết trước đó.

5

Đây là một câu hỏi có giá trị trong các lĩnh vực rất đa dạng.

Mô hình tốt nhất là mô hình có thể dự đoán các điểm dữ liệu không được sử dụng trong quá trình ước tính tham số. Lý tưởng nhất là người ta sẽ tính toán các tham số mô hình với một tập hợp con của tập dữ liệu và đánh giá hiệu suất phù hợp trên tập dữ liệu khác. Nếu bạn quan tâm đến các chi tiết, hãy tìm kiếm với "xác thực chéo".

Vì vậy, câu trả lời cho câu hỏi đầu tiên, là "Không". Bạn không thể đơn giản lấy mô hình phù hợp nhất. Hình ảnh bạn đang lắp một đa thức có độ dữ liệu từ N đến N điểm. Đây sẽ là một sự phù hợp hoàn hảo, bởi vì tất cả các mô hình sẽ chính xác vượt qua tất cả các điểm dữ liệu. Tuy nhiên mô hình này sẽ không khái quát với dữ liệu mới.

Cách thích hợp nhất, theo như tôi có thể nói, là tính toán bao nhiêu mô hình của bạn có thể khái quát hóa cho các tập dữ liệu khác bằng cách sử dụng các số liệu trừng phạt đồng thời biên độ của phần dư và số lượng tham số trong mô hình của bạn. AIC và BIC là một số trong những số liệu tôi biết.


3

Vì nhiều người thường xuyên khám phá sự phù hợp của các đường cong khác nhau đối với dữ liệu của họ, tôi không biết việc đặt chỗ của bạn đến từ đâu. Cấp, có một thực tế là một bậc hai sẽ luôn phù hợp với ít nhất là một tuyến tính và một khối, ít nhất cũng như một bậc hai, vì vậy có nhiều cách để kiểm tra ý nghĩa thống kê của việc thêm một thuật ngữ phi tuyến như vậy và do đó tránh sự phức tạp không cần thiết. Nhưng thực tiễn cơ bản của thử nghiệm nhiều hình thức khác nhau của một mối quan hệ chỉ là thực hành tốt. Trong thực tế, người ta có thể bắt đầu với một hồi quy hoàng thổ rất linh hoạt để xem đâu là loại đường cong hợp lý nhất để phù hợp.


3
Việc bậc hai có phù hợp hơn hay không, sẽ phụ thuộc vào cách bạn đã vận hành phù hợp tốt. Cụ thể, nếu bạn sử dụng thước đo mức độ phù hợp để xử phạt các mô hình có nhiều tham số hơn (ví dụ: AIC), thì, ví dụ, sự phù hợp có thể tệ hơn đối với bậc hai so với tuyến tính.
Jeromy Anglim

9
@rolando, có lẽ tôi đang hiểu lầm, nhưng, thẳng thắn loại lời khuyên (không đủ tiêu chuẩn) này chính xác là loại điều mà, như các nhà thống kê, chúng tôi dành rất nhiều thời gian để "chiến đấu" chống lại. Đặc biệt, nếu OP quan tâm đến bất cứ điều gì ngoài việc phù hợp với đường cong đơn giản, ví dụ như dự đoán hoặc suy luận, điều rất quan trọng là phải hiểu ý nghĩa của phương pháp "chỉ cần thử bất cứ điều gì bạn có thể nghĩ ra" để thống kê.
Đức hồng y

2
Tôi gặp khó khăn trong việc dung hòa những nhận xét này với truyền thống của Anscombe, Tukey, Mosteller, Tufte và Cleveland, trong đó nhấn mạnh sự cần thiết phải trực quan hóa và khám phá dữ liệu và tăng kích thước hình dạng của mỗi mối quan hệ trước khi xây dựng mô hình, thiết lập các hệ thống, hoặc tạo số liệu thống kê khác.
rolando2

8
Có rất nhiều tranh cãi liên quan đến phương pháp của họ. Một cách đơn giản hóa để tóm tắt những vấn đề này là nếu bạn muốn tìm hiểu về các mẫu và thực hiện những khám phá mới cần xác nhận sau này, phân tích thăm dò là phù hợp. Nếu bạn muốn rút ra suy luận (lý do từ mẫu cụ thể đến dân số chung sử dụng giá trị P, khoảng tin cậy, v.v.) thì không quá nhiều.
Frank Harrell

4
Đây là chủ đề bình luận hiệu quả nhất mà tôi đã thấy trên CV, đặc biệt là trao đổi b / t rolando2 (3 ^) & @FrankHarrell. Tôi cũng thấy cả hai cách tiếp cận rất hấp dẫn. Giải pháp của riêng tôi là lên kế hoạch kiểm tra những gì trước đó & chỉ phù hợp / kiểm tra mô hình đó để rút ra kết luận chắc chắn, nhưng cũng tìm hiểu kỹ dữ liệu (không tin vào kết quả nhất thiết) để khám phá điều gì thể đúng & lập kế hoạch cho nghiên cứu tiếp theo . (Tôi có nên thực hiện một nghiên cứu khác và kiểm tra một cái gì đó, nó có thú vị / quan trọng không?) Điều quan trọng là niềm tin của bạn về kết quả của những phân tích này.
gung - Tái lập Monica

3

Bạn thực sự cần tìm một sự cân bằng giữa khoa học / lý thuyết dẫn đến dữ liệu và những gì dữ liệu nói với bạn. Giống như những người khác đã nói, nếu bạn để bản thân phù hợp với bất kỳ sự biến đổi nào có thể (đa thức ở bất kỳ mức độ nào, v.v.) thì bạn sẽ kết thúc quá mức và nhận được một cái gì đó vô dụng.

Một cách để thuyết phục bản thân về điều này là thông qua mô phỏng. Chọn một trong các mô hình (tuyến tính, hàm mũ, nhật ký) và tạo dữ liệu theo mô hình này (với sự lựa chọn các tham số). Nếu phương sai có điều kiện của các giá trị y là nhỏ so với mức chênh lệch của biến x thì một biểu đồ đơn giản sẽ làm rõ mô hình nào được chọn và "sự thật" là gì. Nhưng nếu bạn chọn một tập hợp các tham số sao cho không rõ ràng từ các ô (có thể là trường hợp giải pháp phân tích được quan tâm) thì hãy phân tích từng cách trong 3 cách và xem cách nào phù hợp nhất. Tôi hy vọng rằng bạn sẽ thấy rằng sự phù hợp "tốt nhất" thường không phải là sự phù hợp "thực sự".

Mặt khác, đôi khi chúng tôi muốn dữ liệu cho chúng tôi biết càng nhiều càng tốt và chúng tôi có thể không có khoa học / lý thuyết để xác định đầy đủ bản chất của mối quan hệ. Bài báo gốc của Box và Cox (JRSS B, tập 26, số 2, 1964) thảo luận về cách so sánh giữa một số biến đổi trên biến y, tập biến đổi đã cho của chúng có tuyến tính và log như trường hợp đặc biệt (nhưng không theo cấp số nhân) , nhưng không có gì trong lý thuyết của bài báo giới hạn bạn chỉ là họ biến đổi của họ, phương pháp tương tự có thể được mở rộng để bao gồm một so sánh giữa 3 mô hình mà bạn quan tâm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.