Những lý thuyết nào mỗi nhà thống kê nên biết?


30

Tôi đang nghĩ về điều này từ quan điểm yêu cầu tối thiểu, rất cơ bản. Các lý thuyết chính mà một nhà thống kê ngành (không hàn lâm) nên biết, hiểu và sử dụng một cách thường xuyên là gì?

Một điều lớn mà tôi nghĩ đến là Luật số lượng lớn . Những gì cần thiết nhất để áp dụng lý thuyết thống kê để phân tích dữ liệu là gì?

Câu trả lời:


41

Thành thật mà nói, tôi không nghĩ rằng luật số lượng lớn có một vai trò to lớn trong ngành công nghiệp. Rất hữu ích để hiểu các biện minh tiệm cận của các thủ tục phổ biến, chẳng hạn như ước tính và kiểm tra khả năng tối đa (bao gồm cả GLM toàn năng và hồi quy logistic, đặc biệt), bootstrap, nhưng đây là các vấn đề phân phối thay vì xác suất gặp phải vấn đề mẫu xấu .

Ngoài các chủ đề đã được đề cập (GLM, suy luận, bootstrap), mô hình thống kê phổ biến nhất là hồi quy tuyến tính, vì vậy cần phải hiểu kỹ về mô hình tuyến tính. Bạn có thể không bao giờ chạy ANOVA trong cuộc sống công nghiệp của mình, nhưng nếu bạn không hiểu nó, bạn không nên được gọi là một nhà thống kê.

Có nhiều loại ngành công nghiệp khác nhau. Trong dược phẩm, bạn không thể kiếm sống nếu không có thử nghiệm ngẫu nhiên và hồi quy logistic. Trong thống kê khảo sát, bạn không thể kiếm sống nếu không có công cụ ước tính Horvitz-Thompson và điều chỉnh không đáp ứng. Trong thống kê liên quan đến khoa học máy tính, bạn không thể kiếm sống nếu không học thống kê và khai thác dữ liệu. Trong chính sách công nghĩ rằng các bể (và, ngày càng tăng, thống kê giáo dục), bạn không thể kiếm sống nếu không có ước tính hiệu quả điều trị và nguyên nhân (mà ngày càng liên quan đến các thử nghiệm ngẫu nhiên). Trong nghiên cứu tiếp thị, bạn cần có sự kết hợp giữa nền tảng kinh tế với lý thuyết đo lường tâm lý (và bạn có thể học cả hai trong một đề xuất của bộ phận thống kê điển hình). Thống kê công nghiệp hoạt động với sáu mô hình sigma đặc biệt của riêng nó, nhưng được kết nối từ xa với thống kê chính thống; một liên kết mạnh hơn có thể được tìm thấy trong thiết kế vật liệu thí nghiệm. Vật liệu của Phố Wall sẽ là kinh tế lượng tài chính, tất cả các cách tính toán ngẫu nhiên. Đây là những kỹ năng khác biệt RẤT, và thuật ngữ "công nghiệp" thậm chí còn được định nghĩa kém hơn "học thuật". Tôi không nghĩ rằng bất cứ ai cũng có thể yêu cầu biết nhiều hơn hai hoặc ba điều trên cùng một lúc.

Tuy nhiên, các kỹ năng hàng đầu sẽ được yêu cầu phổ biến trong "ngành công nghiệp" (bất cứ điều gì có thể có ý nghĩa với bạn) sẽ là quản lý thời gian, quản lý dự án và giao tiếp với các khách hàng ít hiểu biết về thống kê. Vì vậy, nếu bạn muốn chuẩn bị cho vị trí công nghiệp, hãy tham gia các lớp học ở trường kinh doanh về các chủ đề này.

CẬP NHẬT: Bài viết gốc được viết vào tháng 2 năm 2012; những ngày này (tháng 3 năm 2014), có lẽ bạn nên tự gọi mình là "nhà khoa học dữ liệu" thay vì "nhà thống kê" để tìm một công việc nóng bỏng trong ngành ... và học hỏi tốt hơn một số Hadoop để tự làm theo.


1
Câu trả lời chính xác. Cảm ơn bạn đã nhấn mạnh một số khác biệt lớn giữa các nhà thống kê trong ngành. Điều này giúp thúc đẩy câu hỏi của tôi bởi vì tôi tin rằng nhiều người có một ý tưởng khác nhau về những gì một nhà thống kê là / làm. Tôi đoán rằng tôi đã cố gắng tìm ra nơi tất cả những thứ này giao nhau từ một sự hiểu biết cơ bản. Ngoài ra, tôi thực sự đánh giá cao đoạn cuối cùng của bạn về các chủ đề kinh doanh và mức độ cần thiết của chúng. Điểm tuyệt vời nhưng tôi vẫn muốn xem liệu có ai có thể thêm vào cuộc trò chuyện trước khi chấp nhận không.
bnjmn

Tôi bối rối trước những "mô hình Six Sigma đặc biệt" này, "kết nối từ xa với Thống kê chính thống" mà bạn nói là Thống kê Công nghiệp vận hành. Nó dường như hoàn toàn chính thống đối với tôi, bỏ qua sự khác biệt về thuật ngữ được tìm thấy giữa tất cả các lĩnh vực phụ này.
Scortchi - Phục hồi Monica

4
10-9

Đủ công bằng: Tôi đã nói phân tích hệ thống đo lường (thỏa thuận giữa các nhà nghiên cứu, nghiên cứu độ lặp lại và độ lặp lại), kiểm soát quá trình thống kê, phân tích độ tin cậy (còn gọi là phân tích sinh tồn), và thiết kế giai đoạn thử nghiệm (phương pháp phân đoạn), phương pháp phản ứng bề mặt ) là đặc trưng của thống kê công nghiệp.
Scortchi - Phục hồi Monica

12

Tôi nghĩ rằng một sự hiểu biết tốt về các vấn đề liên quan đến sự đánh đổi sai lệch . Hầu hết các nhà thống kê sẽ kết thúc, tại một số điểm, phân tích một tập dữ liệu đủ nhỏ để phương sai của công cụ ước tính hoặc các tham số của mô hình đủ cao mà độ lệch là một xem xét thứ cấp.


11

Để chỉ ra một siêu rõ ràng:

Định lý giới hạn trung tâm

pp là không thể chấp nhận được. Dọc theo những dòng tương tự, nói chung, bất kỳ học viên thành công nào cũng sẽ được phục vụ để làm quen, nói chung, với

Bootstrapping


8

Tôi sẽ không nói điều này rất giống với định luật về số lượng lớn hoặc định lý giới hạn trung tâm, nhưng bởi vì suy luận về quan hệ nhân quả thường là trung tâm, hiểu công việc của Judea Pearl về việc sử dụng biểu đồ có cấu trúc để mô hình nhân quả là điều mọi người nên làm quen với. Nó cung cấp một cách để hiểu tại sao các nghiên cứu thực nghiệm và quan sát khác nhau đối với các suy luận nguyên nhân mà họ có khả năng và đưa ra các cách để đối phó với dữ liệu quan sát. Để có một cái nhìn tổng quan tốt, cuốn sách của ông là ở đây .


2
Ngoài ra còn có khung phản tác dụng của Rubin; Ngoài ra còn có mô hình phương trình cấu trúc và các kỹ thuật biến đổi kinh tế lượng ... một số được mô tả trong Kinh tế lượng vô hại nhất trong số những cuốn sách thống kê tốt nhất được viết bởi những người không thống kê.
StasK

7

Một sự hiểu biết vững chắc về vấn đề thực chất cần giải quyết cũng quan trọng như bất kỳ phương pháp thống kê cụ thể nào. Một nhà khoa học giỏi trong ngành có nhiều khả năng hơn một nhà thống kê không có kiến ​​thức như vậy để đi đến một giải pháp hợp lý cho vấn đề của họ. Một thống kê với kiến ​​thức thực chất có thể giúp đỡ.


6

Phương pháp Delta, cách tính phương sai của số liệu thống kê kỳ quái và tìm hiệu quả tương đối không có triệu chứng của chúng, để khuyến nghị thay đổi biến và giải thích tăng hiệu quả bằng cách "ước tính điều đúng". Cùng với đó, Bất bình đẳng của Jensen để hiểu GLM và các loại sai lệch kỳ lạ phát sinh trong các biến đổi như trên. Và, bây giờ sự thiên vị và phương sai được đề cập, khái niệm về sự đánh đổi sai lệch và MSE như là một thước đo khách quan về độ chính xác dự đoán.


6

Theo quan điểm của tôi, suy luận thống kê là quan trọng nhất đối với một học viên. Suy luận có hai phần: 1) Ước tính & 2) Kiểm tra giả thuyết. Kiểm định giả thuyết là một trong những quan trọng. Vì trong ước tính chủ yếu là một thủ tục duy nhất, ước tính khả năng tối đa, theo sau và nó có sẵn hầu hết các gói thống kê (vì vậy không có sự nhầm lẫn).

Các câu hỏi thường xuyên của các học viên là xung quanh việc kiểm tra đáng kể về sự khác biệt hoặc phân tích nguyên nhân. Các xét nghiệm giả thuyết quan trọng có thể được tìm thấy trong liên kết này .

Biết về các mô hình tuyến tính, GLM hoặc trong mô hình thống kê chung là cần thiết để giải thích nguyên nhân. Tôi giả định tương lai của phân tích dữ liệu bao gồm suy luận Bayes.


0

Suy luận thông thường là phải. Và làm thế nào để giải quyết vấn đề cơ bản của nó, bạn không thể quay ngược thời gian và không cho ai đó điều trị. Đọc các bài viết về rubin, câu cá của người sáng lập sinh viên thống kê hiện đại.) .... Học gì để giải quyết vấn đề này, ngẫu nhiên thích hợp và làm thế nào Luật số lượng lớn nói rằng mọi thứ được ngẫu nhiên hóa đúng, thử nghiệm giả thuyết, kết quả tiềm năng (chống lại giả định hetroscastisty và tuyệt vời với sự thiếu sót), sự phù hợp (tuyệt vời cho sự thiếu sót nhưng kết quả tiềm năng sẽ tốt hơn bởi vì nó khái quát hơn, ý tôi là tại sao học được rất nhiều điều phức tạp khi bạn chỉ có thể học một điều phức tạp), tất nhiên là thống kê Baystian , hồi quy Bayes ngây thơ, các yếu tố Bayes) và các lựa chọn thay thế không đối xứng.

Thông thường trong thực tế chỉ cần làm theo các bước chung này,

Về một nhận xét trước đó, trước tiên bạn nên bắt đầu bằng ANOVA (hiệu ứng ngẫu nhiên hoặc hiệu ứng cố định và biến đổi các loại liên tục thành thùng) sau đó sử dụng hồi quy (nếu bạn biến đổi và thay đổi đôi khi có thể tốt như ANOVA nhưng không bao giờ đánh bại nó) để xem phương pháp điều trị cụ thể nào có ý nghĩa, (được áp dụng để thực hiện nhiều thử nghiệm t và sử dụng một số hiệu chỉnh như Holm methid) sử dụng hồi quy.

Trong trường hợp bạn phải dự đoán mọi thứ, hãy sử dụng hồi quy Bayasian.

Mất tích hơn 5% sử dụng kết quả tiềm năng

Một nhánh khác của phân tích dữ liệu là máy học được giám sát phải được đề cập

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.