Chính xác thì việc xây dựng một mô hình thống kê là gì?


15

Chính xác thì việc xây dựng một mô hình thống kê là gì?

Ngày nay khi tôi đang xin việc nghiên cứu hoặc công việc tư vấn, thuật ngữ "xây dựng mô hình" hoặc "mô hình hóa" thường xuất hiện. Thuật ngữ này nghe có vẻ hay, nhưng họ đang đề cập chính xác điều gì? Làm thế nào để bạn xây dựng mô hình của bạn?

Tôi đã tra cứu mô hình dự đoán , bao gồm hồi quy k-nn và logistic.


1
Nó khá rộng, nó có thể đề cập đến một loạt các mô hình khổng lồ - nhiều loại hồi quy, mô hình đa cấp, cây cối và các biến thể của chúng, phân cụm .... vv
Peter Flom - Rebstate Monica

Một mô hình thống kê giống như một mô hình toán học, ngoại trừ một mô hình thống kê có một biến số kế toán cho các lỗi. Mô hình toán học: Trọng lượng = Chiều cao * 2.7. Mô hình thống kê: Trọng lượng = Chiều cao * 2.7 + lỗi.
Neil McGuigan

2
Tôi muốn trích dẫn bài báo này : Mô hình thống kê: Hai nền văn hóa
user13985 15/07/13

Câu trả lời:


12

Tôi sẽ giải quyết vấn đề này mặc dù tôi không phải là một nhà thống kê bằng bất kỳ cách nào nhưng lại tiếp tục thực hiện nhiều 'mô hình hóa' - thống kê và không thống kê.

Trước tiên hãy bắt đầu với những điều cơ bản:

Mô hình chính xác là gì?

Một mô hình là một đại diện của thực tế mặc dù rất đơn giản. Hãy nghĩ về một 'mô hình' sáp / gỗ cho một ngôi nhà. Bạn có thể chạm / cảm nhận / ngửi nó. Bây giờ một mô hình toán học là một đại diện của thực tế bằng cách sử dụng các con số.

'Thực tế' này tôi nghe bạn hỏi là gì? Được chứ. Vì vậy, hãy nghĩ về tình huống đơn giản này: Thống đốc tiểu bang của bạn thực hiện một chính sách nói rằng giá của một bao thuốc lá bây giờ sẽ có giá 100 đô la cho năm tới. "Mục đích" là ngăn cản người dân mua thuốc lá do đó giảm hút thuốc, do đó làm cho người hút thuốc khỏe mạnh hơn (vì họ đã bỏ thuốc lá).

Sau 1 năm, thống đốc hỏi bạn - đây có phải là một thành công? Sao bạn lại có thể nói điều đó? Vâng, bạn nắm bắt dữ liệu như số lượng gói được bán / ngày hoặc mỗi năm, phản hồi khảo sát, bất kỳ dữ liệu có thể đo lường nào bạn có thể có trong tay có liên quan đến vấn đề. Bạn mới bắt đầu 'mô hình hóa' vấn đề. Bây giờ bạn muốn phân tích những gì 'mô hình' này nói . Đó là nơi mô hình thống kê có ích. Bạn có thể chạy một biểu đồ tương quan / phân tán đơn giản để xem mô hình 'trông như thế nào'. Bạn có thể thích thú để xác định quan hệ nhân quả, ví dụ, nếu việc tăng giá dẫn đến giảm hút thuốc hoặc có các yếu tố gây nhiễu khác khi chơi (có thể đó là một cái gì đó khác hoàn toàn và mô hình của bạn có lẽ đã bỏ lỡ?).

Bây giờ, việc xây dựng mô hình này được thực hiện bởi một 'bộ quy tắc' (giống như hướng dẫn hơn), nghĩa là những gì / không hợp pháp hoặc những gì không / không có ý nghĩa. Bạn nên biết những gì bạn đang làm và làm thế nào để giải thích kết quả của mô hình này. Xây dựng / Thi công / Phiên dịch mô hình này đòi hỏi kiến ​​thức cơ bản về thống kê. Trong ví dụ trên, bạn cần biết về các ô tương quan / phân tán, hồi quy (uni và multivariate) và các công cụ khác. Tôi khuyên bạn nên đọc niềm vui / thông tin tuyệt đối để đọc số liệu thống kê bằng trực giác: Dù sao giá trị p là một giới thiệu hài hước về thống kê và sẽ dạy bạn 'mô hình hóa' trong suốt quá trình từ đơn giản đến nâng cao (ví dụ, hồi quy tuyến tính). Sau đó, bạn có thể tiếp tục và đọc những thứ khác.

Vì vậy, hãy nhớ một mô hình là một đại diện của thực tế và rằng "Tất cả các mô hình đều sai nhưng một số mô hình hữu ích hơn các mô hình khác" . Mô hình là một đại diện đơn giản của thực tế và bạn không thể xem xét mọi thứ nhưng bạn phải biết những gì nên làm và không nên xem xét để có một mô hình tốt có thể mang lại cho bạn kết quả có ý nghĩa.

Nó không dừng lại ở đây. Bạn có thể tạo mô hình để mô phỏng thực tế quá! Đó là cách một loạt các số sẽ thay đổi theo thời gian (nói). Những con số này ánh xạ đến một số giải thích có ý nghĩa trong miền của bạn. Bạn cũng có thể tạo các mô hình này để khai thác dữ liệu của mình để xem các biện pháp khác nhau liên quan đến nhau như thế nào (ứng dụng thống kê ở đây có thể gây nghi ngờ, nhưng đừng lo lắng ngay bây giờ). Ví dụ: Bạn nhìn vào doanh số bán hàng tạp hóa cho một cửa hàng mỗi tháng và nhận ra rằng bất cứ khi nào bia được mua, đó là một gói tã (bạn xây dựng một mô hình chạy qua bộ dữ liệu và hiển thị cho bạn liên kết này). Nó có thể là lạ nhưng nó có thể ngụ ý rằng hầu hết các ông bố mua này vào cuối tuần khi em bé ngồi con của họ? Đặt tã gần bia và bạn có thể tăng doanh số bán hàng của bạn! À! Người mẫu :)

Đây chỉ là những ví dụ và không có nghĩa là một tài liệu tham khảo cho công việc chuyên nghiệp. Về cơ bản, bạn xây dựng các mô hình để hiểu / ước tính thực tế sẽ hoạt động như thế nào và thực hiện các quyết định tốt hơn dựa trên các kết quả đầu ra. Thống kê hay không, có lẽ bạn đã làm người mẫu suốt đời mà không nhận ra điều đó. May mắn nhất :)


11

Xây dựng một mô hình thống kê liên quan đến việc xây dựng một mô tả toán học của một số hiện tượng trong thế giới thực, tính đến sự không chắc chắn và / hoặc tính ngẫu nhiên liên quan đến hệ thống đó. Tùy thuộc vào lĩnh vực ứng dụng, điều này có thể bao gồm từ một thứ đơn giản như hồi quy tuyến tính hoặc kiểm tra giả thuyết cơ bản, thông qua phân tích nhân tố đa biến phức tạp hoặc khai thác dữ liệu.


5
Tôi đã ủng hộ điều này bởi vì đó là một nỗ lực dũng cảm, dũng cảm để trả lời một câu hỏi cực kỳ rộng. Tuy nhiên, tôi có một số nghi ngờ về việc "khai thác dữ liệu" có liên quan đến bất kỳ mô hình thống kê nào hay không, và sẽ đánh giá cao việc xem một ví dụ hoặc làm rõ ý nghĩa của cụm từ đó.
whuber

@whuber LASSO có lựa chọn tính năng, không phải là xây dựng mô hình hồi quy theo nghĩa nào đó sao?
dùng13985

Nói cách khác, nó giống như xây dựng một ngôi nhà chỉ bằng cách sử dụng gạch và vữa tưởng tượng? Bình luận bí truyền của tôi được nói trong jest. :)
Graeme Walsh

1
Khai thác dữ liệu có thể được sử dụng như một phần của quá trình xây dựng hoặc xác nhận một mô hình nhất định.
Dave

5

Mô hình hóa với tôi liên quan đến việc chỉ định khung xác suất cho dữ liệu được quan sát với các tham số có thể ước tính có thể được sử dụng để phân biệt các khác biệt có giá trị trong dữ liệu quan sát được khi chúng tồn tại. Đây được gọi là sức mạnh. Các mô hình xác suất có thể được sử dụng cho dự đoán hoặc suy luận. Chúng có thể được sử dụng để hiệu chỉnh máy móc, để chứng minh sự thiếu hụt trong lợi tức đầu tư, dự báo thời tiết hoặc cổ phiếu, hoặc đơn giản hóa việc ra quyết định y tế.

Một mô hình không nhất thiết phải được xây dựng. Trong một thí nghiệm biệt lập, người ta có thể sử dụng phương pháp mô hình hóa không tham số, chẳng hạn như thử nghiệm t để xác định xem có sự khác biệt đáng kể về phương tiện giữa hai nhóm hay không. Tuy nhiên, đối với nhiều mục đích dự báo, các mô hình có thể được xây dựng để phát hiện các thay đổi kịp thời. Ví dụ, các mô hình Markov dựa trên quá trình chuyển đổi có thể được sử dụng để dự đoán sự thay đổi lên xuống của giá trị thị trường đối với các khoản đầu tư, nhưng mức độ "nhúng" có thể được coi là tồi tệ hơn dự kiến? Sử dụng bằng chứng lịch sử và các yếu tố dự đoán được quan sát, người ta có thể xây dựng một mô hình tinh vi để hiệu chỉnh xem liệu các mức độ quan sát có khác biệt đáng kể so với những gì đã được duy trì trong lịch sử hay không. Sử dụng các công cụ như biểu đồ kiểm soát, biểu đồ tỷ lệ tích lũy, đường cong sinh tồn và các biểu đồ "dựa trên thời gian" khác, đó là '

Thay phiên, một số mô hình được "xây dựng" bằng cách linh hoạt để thích ứng khi dữ liệu phát triển. Twitter phát hiện xu hướng và hệ thống khuyến nghị của Netflix là ví dụ điển hình của các mô hình như vậy. Chúng có một đặc điểm chung (tính trung bình của mô hình Bayes, cho phần sau) cho phép một mô hình linh hoạt để điều chỉnh các thay đổi và xu hướng lịch sử và hiệu chỉnh lại để duy trì dự đoán tốt nhất, chẳng hạn như giới thiệu các bộ phim có tác động cao, lượng người dùng mới hấp thụ hoặc sự thay đổi đáng kể trong sở thích phim do tính thời vụ.

Một số phương pháp khai thác dữ liệu được giới thiệu bởi vì chúng rất thành thạo trong việc đạt được một số loại phương pháp dự đoán nhất định (một lần nữa, vấn đề đạt được các xu hướng hoặc giá trị "mong đợi" trong dữ liệu). K-NN là cách kết hợp dữ liệu chiều cao và suy luận xem các đối tượng có thể nhận được dự đoán đáng tin cậy chỉ đơn giản là do sự gần gũi (cho dù từ tuổi tác, thị hiếu âm nhạc, lịch sử tình dục hoặc một số đặc điểm có thể đo lường khác). Mặt khác, hồi quy logistic có thể có được một bộ phân loại nhị phân, nhưng thường được sử dụng nhiều hơn để suy luận về mối liên hệ giữa kết quả nhị phân và một hoặc nhiều mức phơi nhiễm và điều kiện thông qua một tham số gọi là tỷ lệ chênh lệch. Do các định lý giới hạn và mối quan hệ của nó với các mô hình tuyến tính tổng quát, tỷ lệ chênh lệch là các tham số rất đều đặn có lỗi loại I "được bảo tồn cao" (nghĩa là


Cảm ơn lời nói của bạn. Trong trường hợp phát hiện Netflix của Twitter, đó không phải là ít nhiều trong lĩnh vực học máy? Tôi thường không thể vẽ ranh giới giữa mô hình hóa và học máy.
dùng13985

1
Máy học thường là mô hình chiều cao. Nhiều phương pháp là trường hợp đặc biệt của các phương pháp dựa trên khả năng hiện có với hình phạt hoặc trọng số được sử dụng.
AdamO

Cảm ơn bạn đã xác thực những suy nghĩ của tôi, cho tôi biết nếu bạn muốn bất cứ điều gì khác.
dùng13985

3

Mô hình hóa là quá trình xác định một mô hình phù hợp.

Thường thì một người điều hành sẽ có một ý tưởng tốt về các biến quan trọng và thậm chí có thể có một cơ sở lý thuyết cho một mô hình cụ thể. Họ cũng sẽ biết một số sự thật về phản ứng và loại mối quan hệ chung với những người dự đoán, nhưng có thể vẫn không chắc chắn rằng ý tưởng chung của họ về một mô hình là hoàn toàn đầy đủ - ngay cả với một ý tưởng lý thuyết tuyệt vời về cách thức hoạt động của phương tiện, họ chẳng hạn, có thể không tin tưởng rằng phương sai không liên quan đến giá trị trung bình hoặc họ có thể nghi ngờ một số sự phụ thuộc nối tiếp có thể xảy ra.

Vì vậy, có thể có một chu kỳ của một số giai đoạn nhận dạng mô hình làm tham chiếu đến (ít nhất là một số) dữ liệu. Thay thế là thường xuyên có nguy cơ có các mô hình khá không phù hợp.

(Tất nhiên, nếu họ chịu trách nhiệm, họ phải tính đến việc sử dụng dữ liệu theo cách này ảnh hưởng đến suy luận của họ như thế nào.)

Quá trình thực tế khác nhau tùy theo từng khu vực và từng người, nhưng có thể tìm thấy một số người liệt kê rõ ràng các bước trong quy trình của họ (ví dụ Box và Jenkins phác thảo một cách tiếp cận như vậy trong cuốn sách về thời gian của họ). Ý tưởng về cách làm thay đổi nhận dạng mô hình theo thời gian.


0

Tôi không nghĩ có một định nghĩa chung về những gì tạo nên một mô hình thống kê. Từ kinh nghiệm của tôi trong ngành, nó dường như là một từ đồng nghĩa với những gì trong kinh tế lượng được gọi là mô hình dạng rút gọn . Tôi sẽ giải thích.

Giả sử, trong lĩnh vực của bạn có các mối quan hệ được thiết lập hoặc "luật", ví dụ như trong Vật lý, điều này sẽ là F= =md2xdt2nói rằng lực đó tỷ lệ thuận với gia tốc (hay còn gọi là "định luật cơ học thứ 2"). Vì vậy, biết luật này bạn có thể xây dựng một mô hình toán học của quỹ đạo bóng đại bác.

Mô hình này sẽ có cái mà các nhà vật lý gọi là "hằng số" hoặc "hệ số", ví dụ mật độ không khí ở nhiệt độ và độ cao nhất định. Bạn sẽ phải tìm hiểu những hệ số này là thực nghiệm. Trong trường hợp của chúng tôi, chúng tôi sẽ yêu cầu pháo bắn pháo trong nhiều điều kiện khác nhau, được kiểm soát chặt chẽ, chẳng hạn như góc, nhiệt độ, v.v.

Chúng tôi thu thập tất cả các dữ liệu và phù hợp với mô hình bằng các kỹ thuật thống kê. Nó có thể đơn giản như hồi quy tuyến tính hoặc trung bình. Khi đã có tất cả các hệ số, bây giờ chúng ta chạy mô hình toán học của mình để tạo ra các bảng bắn. Điều này được mô tả gọn gàng trong tài liệu chưa được phân loại ở đây , được gọi là "SẢN XUẤT BẢNG ĐẦU TIÊN CHO NGHỆ THUẬT CANNON".

Những gì tôi vừa mô tả không phải là một mô hình thống kê. Vâng, nó sử dụng số liệu thống kê, nhưng mô hình này sử dụng thiết lập các định luật Vật lý, đó là bản chất của mô hình. Ở đây, thống kê là một công cụ đơn thuần để xác định các giá trị của một vài tham số quan trọng. Động lực học của hệ thống được mô tả và xác định trước bởi trường.

Giả sử, chúng ta không biết hoặc không quan tâm đến các định luật Vật lý, và chỉ đơn giản là cố gắng thiết lập mối quan hệ giữa khoảng cách bay của pháo và các thông số như góc bắn và nhiệt độ bằng "mô hình thống kê". Chúng tôi sẽ tạo một tập dữ liệu lớn với một loạt các biến số hoặc tính năng và biến đổi của các biến số, có thể là chuỗi nhiệt độ đa thức, v.v. Sau đó, chúng tôi sẽ thực hiện hồi quy các loại và xác định hệ số. Các hệ số này không nhất thiết phải có các diễn giải trong lĩnh vực này. Chúng tôi gọi chúng là độ nhạy với bình phương nhiệt độ, v.v. Mô hình này thực sự có thể khá tốt trong việc dự đoán điểm cuối của những quả đạn pháo, bởi vì quá trình bên dưới khá ổn định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.