Mẹo và thủ thuật để bắt đầu với mô hình thống kê?


10

Tôi làm việc trong lĩnh vực khai thác dữ liệu và đã có rất ít trường học chính thức về thống kê. Gần đây tôi đã đọc rất nhiều công việc tập trung vào các mô hình Bayes cho việc học và khai thác, điều mà tôi thấy rất thú vị.

Câu hỏi của tôi là (trong một số phần), đưa ra một vấn đề là có một khung chung mà theo đó có thể xây dựng một mô hình thống kê không? Những điều đầu tiên bạn làm khi được cung cấp một bộ dữ liệu mà bạn muốn mô hình hóa quy trình cơ bản là gì? Có những cuốn sách / hướng dẫn tốt ngoài đó giải thích quá trình này hay đó là vấn đề kinh nghiệm? Là suy luận đi đầu trong tâm trí của bạn khi xây dựng mô hình của bạn hoặc trước tiên bạn có mục đích mô tả dữ liệu trước khi bạn lo lắng về cách sử dụng nó để tính toán?

Bất kỳ cái nhìn sâu sắc sẽ được đánh giá rất nhiều! Cảm ơn.


4
Xin chào Nick - chào mừng bạn đến với CV. Câu hỏi của bạn rất rộng; bạn có thể may mắn hơn khi nhận được câu trả lời tốt nếu bạn chia nó thành những câu hỏi nhỏ hơn (và một khi bạn làm thế, bạn có thể thấy rằng một số trong số chúng đã được trả lời ở đây). Tuy nhiên, ở mức tối thiểu, bạn nên đánh dấu câu hỏi của mình là "wiki cộng đồng". Điều đó về cơ bản có nghĩa là thay vì định dạng câu trả lời cạnh tranh thông thường ở đây, tất cả các câu trả lời nói chung sẽ được coi là Câu trả lời.
Matt Parker

1
@Matt Hộp kiểm CW không còn xuất hiện cho câu hỏi. Một mod sẽ cần đánh dấu một câu hỏi là CW khi cần thiết.

@ Nick..Tôi cũng mới. Tôi nghĩ một điều chung chung và điều quan trọng nhất mà người ta cần lưu ý là làm thế nào để bạn muốn mô tả biến đầu ra của mình..là nó liên tục, nó có phải là nhị phân không? Bởi vì vào cuối ngày bạn muốn quan sát / mô hình một biến đầu ra. Điều tiếp theo tôi sẽ nghĩ là những cách nào có thể để mô hình hóa biến được yêu cầu..những điều sẽ xảy ra sau đó là nếu biến đó là phân đôi thì quy trình là mô hình logit. nhiều vấn đề khác nhau gặp phải .. Hy vọng điều này có ý nghĩa.
ayush biyani

Câu trả lời:


6

Trong Thống kê, như trong Khai thác dữ liệu, bạn bắt đầu với dữ liệu và mục tiêu. Trong thống kê có rất nhiều sự tập trung vào suy luận, nghĩa là trả lời các câu hỏi ở cấp độ dân số bằng cách sử dụng một mẫu. Trong khai thác dữ liệu, trọng tâm thường là dự đoán: bạn tạo một mô hình từ mẫu của bạn (dữ liệu huấn luyện) để dự đoán dữ liệu thử nghiệm.

Quá trình trong thống kê là:

  1. Khám phá dữ liệu bằng cách sử dụng tóm tắt và biểu đồ - tùy thuộc vào cách thống kê dữ liệu, một số người sẽ cởi mở hơn, nhìn dữ liệu từ mọi góc độ, trong khi những người khác (đặc biệt là các nhà khoa học xã hội) sẽ xem dữ liệu qua lăng kính của câu hỏi về sự quan tâm (ví dụ, cốt truyện đặc biệt là các biến quan tâm chứ không phải các biến khác)

    1. Chọn một họ mô hình thống kê thích hợp (ví dụ: hồi quy tuyến tính cho Y liên tục, hồi quy logistic cho Y nhị phân hoặc Poisson cho dữ liệu đếm) và thực hiện lựa chọn mô hình

    2. Ước tính mô hình cuối cùng

    3. Các giả định mô hình thử nghiệm để đảm bảo chúng được đáp ứng hợp lý (khác với thử nghiệm về độ chính xác dự đoán trong khai thác dữ liệu)

    4. Sử dụng mô hình để suy luận - đây là bước chính khác với khai thác dữ liệu. Từ "giá trị p" đến đây ...

Hãy xem bất kỳ sách giáo khoa thống kê cơ bản nào và bạn sẽ tìm thấy một chương về Phân tích dữ liệu khám phá theo sau là một số phân phối (sẽ giúp chọn các mô hình xấp xỉ hợp lý), sau đó suy luận (khoảng tin cậy và kiểm tra giả thuyết) và mô hình hồi quy.

Tôi mô tả cho bạn quá trình thống kê cổ điển. Tuy nhiên, tôi có nhiều vấn đề với nó. Việc tập trung vào suy luận đã hoàn toàn thống trị các lĩnh vực, trong khi dự đoán (vốn cực kỳ quan trọng và hữu ích) gần như bị bỏ quên. Hơn nữa, nếu bạn nhìn vào cách các nhà khoa học xã hội sử dụng số liệu thống kê để suy luận, bạn sẽ thấy rằng họ sử dụng nó hoàn toàn khác nhau! Bạn có thể kiểm tra thêm về điều này ở đây


2

Theo như những cuốn sách, "Các yếu tố của học thống kê" của Hastie, Tibshirani và Friedman là rất tốt.

Toàn bộ cuốn sách có sẵn trên trang web của các tác giả ; bạn có thể muốn xem thử xem nó có phù hợp với nhu cầu của bạn không.



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.