Trong phân tích hồi quy, sự khác biệt giữa quy trình và mô hình tạo dữ liệu là gì?


19

Trong phân tích hồi quy, sự khác biệt giữa 'quy trình tạo dữ liệu' và 'mô hình' là gì?


1
Quá trình tạo dữ liệu không bao giờ được biết đến, chúng tôi chọn mô hình với hy vọng rằng chúng tôi ước chừng đủ quy trình tạo dữ liệu. Đó là một trong những câu trả lời có thể, nó sẽ hữu ích nếu bạn cung cấp thêm ngữ cảnh, vì vậy rõ ràng hơn loại câu trả lời bạn đang tìm kiếm. Kiểm tra các cuộc trò chuyện, câu lạc bộ tạp chí hiện đang thảo luận về bài viết mà vấn đề này được nêu ra.
mpiktas

3
Các câu trả lời cho câu hỏi này sẽ khác nhau, vì chúng nên, bởi vì cả "quy trình tạo dữ liệu" và "mô hình" đều được sử dụng theo nhiều cách khác nhau bởi các tác giả khác nhau. @ Weijie, bạn có một tài liệu tham khảo cụ thể trong tâm trí?
whuber

Câu trả lời:


15

Tất cả chúng ta đều có ý thức tốt về "mô hình" có thể có nghĩa là gì, mặc dù định nghĩa kỹ thuật của nó sẽ khác nhau giữa các ngành. Để so sánh điều này với DGP, tôi đã bắt đầu bằng cách xem xét năm lần truy cập hàng đầu (tính hai lần truy cập có cùng tác giả là một) trong "quy trình tạo dữ liệu" của Google.

  1. Một bài viết về cách Không quân Hoa Kỳ thực sự tạo ra dữ liệu trong hỗ trợ hậu cần.

  2. Tóm tắt một bài báo được xuất bản trong Môi trường và Kế hoạch A liên quan đến cách thức "vi mô tổng hợp" được tạo ra thông qua "mô hình mô phỏng" của máy tính.

  3. Một trang web về "tạo dữ liệu tổng hợp"; đó là mô phỏng "để khám phá ảnh hưởng của các đặc điểm dữ liệu nhất định trên ... mô hình."

  4. Tóm tắt một bài báo hội thảo về khai thác dữ liệu, khẳng định rằng "dữ liệu trong cơ sở dữ liệu là kết quả của quá trình tạo dữ liệu cơ bản (dgp)."

  5. Một chương sách mô tả dữ liệu quan tâm là "phát sinh từ một số biến đổi của một quá trình [ngẫu nhiên] cơ bản V t ... một số hoặc tất cả [trong đó] có thể không được quan sát ..."WtVt

Các liên kết này thể hiện ba cách sử dụng hơi khác nhau nhưng có liên quan chặt chẽ với thuật ngữ "quy trình tạo dữ liệu". Phổ biến nhất là trong một bối cảnh mô phỏng thống kê. Các phương pháp khác đề cập đến các phương tiện thực tế mà dữ liệu được tạo trong tình huống đang diễn ra (hậu cần) và mô hình xác suất cho quy trình tạo dữ liệu đang diễn ra, dự định không được phân tích trực tiếp. Trong trường hợp cuối cùng, văn bản đang phân biệt một quá trình ngẫu nhiên không thể quan sát được, tuy nhiên được mô hình hóa bằng toán học, từ các con số thực tế sẽ được phân tích.

Những gợi ý này có hai câu trả lời hơi khác nhau là có thể sử dụng được:

  1. Trong bối cảnh mô phỏng hoặc tạo dữ liệu "tổng hợp" để phân tích, "quy trình tạo dữ liệu" là một cách để tạo dữ liệu cho nghiên cứu tiếp theo, thường là bằng công cụ tạo số ngẫu nhiên giả của máy tính. Phân tích sẽ ngầm áp dụng một số mô hình mô tả các tính chất toán học của DGP này.

  2. Trong bối cảnh phân tích thống kê, chúng tôi có thể muốn phân biệt một hiện tượng trong thế giới thực (DGP) với các quan sát sẽ được phân tích. Chúng tôi có các mô hình cho cả hiện tượng và các quan sát cũng như mô hình về cách hai kết nối được kết nối.

(X,Y)tôi(X1tôi,X2tôi,Giáo dục,Xptôi,Ytôi)tôi= =1,2,Giáo dục,nXjtôiYtôiYtôiXβσ2βσ


Bạn viết các từ "nguyên nhân" hoặc "liên quan". Tôi có một câu hỏi về cái này. Từ câu trả lời của bạn dường như khái niệm DGP không ngụ ý nhân quả. Tuy nhiên "mối quan hệ" này có gì khác hơn là tương quan (hoặc bất kỳ loại liên kết nào) hay không? Xem thêm câu hỏi liên quan này của tôi: stats.stackexchange.com/questions/399671/ Kẻ
markowitz

@markowitz "Tương quan", nói đúng ra, đề cập đến một khoảnh khắc thứ hai của biến ngẫu nhiên bivariate. Tôi sử dụng "liên quan" theo nghĩa rộng hơn là "không [thống kê] độc lập".
whuber

Tôi biết, và chính xác vì lý do này, tôi đã tuyên bố "hoặc bất kỳ loại liên kết [chỉ thống kê] nào". Tôi có thể lặp lại câu hỏi của mình như: Tuy nhiên "mối quan hệ" này có gì đó hơn hiệp hội hay không? Bắt đầu từ khái niệm "mô hình thực sự", đôi khi được sử dụng như một từ đồng nghĩa của DGP, có vẻ như một cái gì đó nhiều hơn. Nếu vậy, tôi không hiểu chính xác nó là gì. Liên kết trước của tôi cho một ví dụ.
markowitz

@markowitz Tôi sợ tôi không hiểu những gì bạn đang cố hỏi. Đó có thể là vì tôi không chắc ý của bạn chính xác là "mối quan hệ" hay "liên kết". Tôi đã nhìn vào liên kết của bạn, nhưng cách sử dụng tiếng Anh khác thường không truyền đạt bất cứ điều gì có ý nghĩa với tôi.
whuber

Tôi xin lỗi vì trình độ học tiếng Anh của tôi. Tôi đã cố gắng sửa đổi câu hỏi liên kết theo nghĩa rõ ràng hơn. Tôi hy vọng rằng nó là dễ hiểu.
markowitz

4

DGP là mô hình thực sự. Mô hình là những gì chúng tôi đã cố gắng, sử dụng các kỹ năng tốt nhất của chúng tôi, để thể hiện trạng thái tự nhiên thực sự. DGP bị ảnh hưởng bởi "tiếng ồn". Tiếng ồn có thể có nhiều loại:

  1. Can thiệp một lần
  2. Thay đổi cấp độ
  3. Xu hướng
  4. Thay đổi về tính thời vụ
  5. Thay đổi trong tham số mô hình
  6. Thay đổi phương sai

Nếu bạn không kiểm soát 6 mục này thì khả năng xác định DGP thực sự của bạn sẽ giảm.


4

Câu trả lời của Whuber là tuyệt vời, nhưng đáng nhấn mạnh vào thực tế là một mô hình thống kê không cần phải giống với mô hình tạo dữ liệu ở mọi khía cạnh để trở thành một mô hình thích hợp để thăm dò dữ liệu suy luận. Liu và Meng giải thích điểm đó rất rõ ràng trong bài báo phát sinh gần đây của họ ( http://arxiv.org/abs/1510.08539 ):

Quan niệm sai lầm 1. Một mô hình xác suất phải mô tả việc tạo ra dữ liệu.

θ). Không ở đâu điểm này rõ ràng hơn trong các ứng dụng liên quan đến thí nghiệm máy tính trong đó mẫu xác suất được sử dụng để mô tả dữ liệu theo mẫu xác định đã biết (nhưng rất phức tạp) (Kennedy và O'Hagan, 2001; Conti et al., 2009). Chúng ta cần một mô hình mô tả, không nhất thiết phải là một mô hình thế hệ. Xem Lehmann (1990), Breiman (2001) và Hansen và Yu (2001) để biết thêm về điểm này.


+1. Tôi đặc biệt thích sự phân biệt giữa các mô hình dữ liệu mô tảkhái quát.
whuber

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.