Trong phân tích hồi quy, sự khác biệt giữa 'quy trình tạo dữ liệu' và 'mô hình' là gì?
Trong phân tích hồi quy, sự khác biệt giữa 'quy trình tạo dữ liệu' và 'mô hình' là gì?
Câu trả lời:
Tất cả chúng ta đều có ý thức tốt về "mô hình" có thể có nghĩa là gì, mặc dù định nghĩa kỹ thuật của nó sẽ khác nhau giữa các ngành. Để so sánh điều này với DGP, tôi đã bắt đầu bằng cách xem xét năm lần truy cập hàng đầu (tính hai lần truy cập có cùng tác giả là một) trong "quy trình tạo dữ liệu" của Google.
Một bài viết về cách Không quân Hoa Kỳ thực sự tạo ra dữ liệu trong hỗ trợ hậu cần.
Tóm tắt một bài báo được xuất bản trong Môi trường và Kế hoạch A liên quan đến cách thức "vi mô tổng hợp" được tạo ra thông qua "mô hình mô phỏng" của máy tính.
Một trang web về "tạo dữ liệu tổng hợp"; đó là mô phỏng "để khám phá ảnh hưởng của các đặc điểm dữ liệu nhất định trên ... mô hình."
Tóm tắt một bài báo hội thảo về khai thác dữ liệu, khẳng định rằng "dữ liệu trong cơ sở dữ liệu là kết quả của quá trình tạo dữ liệu cơ bản (dgp)."
Một chương sách mô tả dữ liệu quan tâm là "phát sinh từ một số biến đổi của một quá trình [ngẫu nhiên] cơ bản V t ... một số hoặc tất cả [trong đó] có thể không được quan sát ..."
Các liên kết này thể hiện ba cách sử dụng hơi khác nhau nhưng có liên quan chặt chẽ với thuật ngữ "quy trình tạo dữ liệu". Phổ biến nhất là trong một bối cảnh mô phỏng thống kê. Các phương pháp khác đề cập đến các phương tiện thực tế mà dữ liệu được tạo trong tình huống đang diễn ra (hậu cần) và mô hình xác suất cho quy trình tạo dữ liệu đang diễn ra, dự định không được phân tích trực tiếp. Trong trường hợp cuối cùng, văn bản đang phân biệt một quá trình ngẫu nhiên không thể quan sát được, tuy nhiên được mô hình hóa bằng toán học, từ các con số thực tế sẽ được phân tích.
Những gợi ý này có hai câu trả lời hơi khác nhau là có thể sử dụng được:
Trong bối cảnh mô phỏng hoặc tạo dữ liệu "tổng hợp" để phân tích, "quy trình tạo dữ liệu" là một cách để tạo dữ liệu cho nghiên cứu tiếp theo, thường là bằng công cụ tạo số ngẫu nhiên giả của máy tính. Phân tích sẽ ngầm áp dụng một số mô hình mô tả các tính chất toán học của DGP này.
Trong bối cảnh phân tích thống kê, chúng tôi có thể muốn phân biệt một hiện tượng trong thế giới thực (DGP) với các quan sát sẽ được phân tích. Chúng tôi có các mô hình cho cả hiện tượng và các quan sát cũng như mô hình về cách hai kết nối được kết nối.
DGP là mô hình thực sự. Mô hình là những gì chúng tôi đã cố gắng, sử dụng các kỹ năng tốt nhất của chúng tôi, để thể hiện trạng thái tự nhiên thực sự. DGP bị ảnh hưởng bởi "tiếng ồn". Tiếng ồn có thể có nhiều loại:
Nếu bạn không kiểm soát 6 mục này thì khả năng xác định DGP thực sự của bạn sẽ giảm.
Câu trả lời của Whuber là tuyệt vời, nhưng đáng nhấn mạnh vào thực tế là một mô hình thống kê không cần phải giống với mô hình tạo dữ liệu ở mọi khía cạnh để trở thành một mô hình thích hợp để thăm dò dữ liệu suy luận. Liu và Meng giải thích điểm đó rất rõ ràng trong bài báo phát sinh gần đây của họ ( http://arxiv.org/abs/1510.08539 ):
Quan niệm sai lầm 1. Một mô hình xác suất phải mô tả việc tạo ra dữ liệu.
). Không ở đâu điểm này rõ ràng hơn trong các ứng dụng liên quan đến thí nghiệm máy tính trong đó mẫu xác suất được sử dụng để mô tả dữ liệu theo mẫu xác định đã biết (nhưng rất phức tạp) (Kennedy và O'Hagan, 2001; Conti et al., 2009). Chúng ta cần một mô hình mô tả, không nhất thiết phải là một mô hình thế hệ. Xem Lehmann (1990), Breiman (2001) và Hansen và Yu (2001) để biết thêm về điểm này.
DGP là thực tế ảo và một công thức độc đáo cho mô phỏng. Mô hình là tập hợp DGP hoặc các cách có thể mà dữ liệu có thể được tạo.
Đọc trang đầu tiên của khóa học mini này của Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_cference.pdf