Là một mô hình phù hợp với dữ liệu hoặc dữ liệu được trang bị cho một mô hình?


20

Có sự khác biệt về khái niệm hoặc thủ tục giữa việc gắn mô hình với dữ liệu và khớp dữ liệu với mô hình không? Một ví dụ về từ ngữ đầu tiên có thể được nhìn thấy trong https://cifts.washington.edu/matlab1/ModelFmit.html và của từ thứ hai trong https://reference.wolfram.com/appluggest/eda/FmitDataToLinearModelsByLeast-SquaresT kỹ thuật.html .


7
+1 Tôi không ấn tượng bởi liên kết thứ hai, nhưng tôi được giải trí.
Laconic

Nhiều mô hình phù hợp với dữ liệu hiện tại, nhưng dữ liệu thường phù hợp với một mô hình tốt nhất
Ag tích Vasiliauskas

Câu trả lời:


35

Gần như mọi nguồn hoặc người tôi từng tương tác ngoại trừ nguồn Wolfram mà bạn liên kết đều đề cập đến quy trình như khớp một mô hình với dữ liệu . Điều này có ý nghĩa, vì mô hình là đối tượng động và dữ liệu là tĩnh (còn gọi là cố định và không đổi).

Để đưa ra quan điểm về nó, tôi thích cách tiếp cận của Larry Wasserman về vấn đề này. Theo ông, một mô hình thống kê là một tập hợp các phân phối. Ví dụ: bộ sưu tập của tất cả các bản phân phối bình thường:

{Bình thường(μ,σ):μ,σR,σ>0}

hoặc tập hợp tất cả các bản phân phối Poisson:

{Chất độc(λ):λR,λ>0}

Ghép phân phối vào dữ liệu là bất kỳ thuật toán nào kết hợp mô hình thống kê với một tập hợp dữ liệu (dữ liệu được cố định) và chọn chính xác một trong các phân phối từ mô hình làm mô hình "tốt nhất" phản ánh dữ liệu.

Mô hình là thứ thay đổi (loại): chúng tôi đang thu gọn nó từ toàn bộ bộ sưu tập các khả năng thành một lựa chọn tốt nhất. Dữ liệu chỉ là dữ liệu; không có gì xảy ra với nó cả


16

Trong lĩnh vực mô hình hóa Rasch, thông thường để phù hợp với dữ liệu cho mô hình. Mô hình được coi là chính xác và công việc của nhà phân tích là tìm dữ liệu phù hợp với nó. Các bài viết trên Wikipedia về Rasch chứa thêm chi tiết về làm thế nào và tại sao.

Nhưng tôi đồng ý với những người khác rằng nói chung trong thống kê, chúng tôi phù hợp với mô hình với dữ liệu vì chúng tôi có thể thay đổi mô hình nhưng cảm thấy đó là hình thức xấu để chọn hoặc sửa đổi dữ liệu.


7

Thông thường, dữ liệu quan sát được cố định trong khi mô hình có thể thay đổi (ví dụ: vì các tham số được ước tính), do đó, nó là mô hình được tạo ra để phù hợp với dữ liệu, không phải theo cách khác . (Thông thường mọi người có nghĩa là trường hợp này khi họ nói một trong hai biểu thức.)

Khi mọi người nói rằng họ phù hợp với dữ liệu cho một mô hình, tôi thấy mình đang cố gắng tìm ra cái quái gì họ đã làm với dữ liệu? .

[Bây giờ nếu bạn đang chuyển đổi dữ liệu , có thể cho rằng đó là 'dữ liệu phù hợp với mô hình', nhưng mọi người gần như không bao giờ nói điều đó trong trường hợp này.]


5
Loại bỏ các ngoại lệ cũng sẽ (được cho là) ​​"phù hợp với dữ liệu cho một mô hình".
Federico Poloni

1
Phrasing có thể có ý nghĩa nếu họ nghĩ về nó như là "phù hợp (dữ liệu cho một mô hình)". Đó là, bạn đang thực hiện một quy trình phù hợp và quá trình phù hợp đó bắt đầu từ dữ liệu và biến nó thành một mô hình. Tôi đồng ý rằng đó là một cách giải thích ít phổ biến / chính xác hơn so với phân tích "(khớp X) với Y", nhưng tôi đưa nó ra ngoài như một lý do căn bản về lý do tại sao một người nào đó có thể nói một cách hợp lý.
RM

1
@FedericoPoloni Outliers thường được định nghĩa độc lập với mô hình mà sau này bạn muốn sử dụng. Vì vậy, ngay cả khi chúng ta muốn gọi nó là dữ liệu phù hợp, nó sẽ không phải là một mô hình, mà là một cái gì đó khác.
BartoszKP

1
+1. Có một lý do nó được gọi là "dữ liệu" - đó là những gì được đưa ra , hãy xem nguồn gốc Latin của từ này: latindipedia.wikidot.com/verb:dare
Christoph Hanck

2

Thông thường, chúng tôi giả sử dữ liệu của chúng tôi tương ứng với "thế giới thực" và thực hiện bất kỳ sửa đổi nào có nghĩa là chúng tôi đang rời khỏi mô hình hóa "thế giới thực". Ví dụ, người ta cần cẩn thận loại bỏ các ngoại lệ vì ngay cả khi nó làm cho tính toán đẹp hơn, các ngoại lệ vẫn là một phần của dữ liệu của chúng tôi.

Khi kiểm tra mô hình hoặc ước tính các thuộc tính của công cụ ước tính bằng bootstrap hoặc các kỹ thuật lấy mẫu khác, chúng tôi có thể mô phỏng dữ liệu mới bằng mô hình ước tính và dữ liệu gốc của chúng tôi. Điều này đưa ra giả định rằng mô hình là chính xác và chúng tôi không sửa đổi dữ liệu gốc của mình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.