Trực giác thống kê / ý nghĩa dữ liệu


20

Tôi là sinh viên năm thứ hai, đang học Toán và tôi đã nói chuyện với một trong những giáo sư của tôi rất nhiều về sự khác biệt giữa khả năng toán học và khả năng thống kê. Một trong những điểm khác biệt chính mà anh ta đưa ra là "cảm giác dữ liệu" mà anh ta giải thích là sự kết hợp giữa khả năng kỹ thuật trong khi vận hành trong một tập hợp những gì tôi sẽ gọi một cách không chính thức là "hạn chế ý thức chung", tức là không đánh mất hiện thực của vấn đề giữa lúc rất nhiều lý thuyết. Đây là một ví dụ về những gì tôi đã nói, xuất hiện trên blog của Gowers:

Ở một số vùng của Vương quốc Anh, cảnh sát đã thu thập số liệu thống kê về nơi xảy ra tai nạn trên đường, xác định các điểm đen tai nạn, đặt camera tốc độ ở đó và thu thập thêm số liệu thống kê. Có một xu hướng rõ ràng là số vụ tai nạn tại các điểm đen này sẽ giảm sau khi các camera tốc độ được lắp đặt. Liệu điều này cho thấy chắc chắn rằng camera tốc độ cải thiện an toàn đường bộ?

Cùng một người tranh luận về chiến lược ngẫu nhiên trong trò chơi đàm phán về cơ bản đã biết câu trả lời cho câu hỏi này rồi. Ông nói không, vì nếu bạn chọn ra những trường hợp cực đoan thì bạn sẽ mong chúng sẽ bớt cực đoan hơn nếu bạn chạy lại thí nghiệm. Tôi quyết định tiếp tục nhanh chóng từ câu hỏi này vì không còn nhiều điều để nói. Nhưng tôi đã nói với mọi người về một kế hoạch mà tôi đã có, đó là thực hiện một thí nghiệm thần giao cách cảm không có thật. Tôi sẽ khiến họ đoán được kết quả của 20 lần tung đồng xu, mà tôi sẽ cố gắng chiếu cho họ bằng thần giao cách cảm. Sau đó tôi sẽ chọn ba người biểu diễn tốt nhất và ba người xấu nhất, và sẽ ném lại những đồng xu, lần này là hỏi những người giỏi nhất để giúp tôi đưa ra câu trả lời cho những người xấu nhất. Mọi người có thể dễ dàng thấy rằng các buổi biểu diễn sẽ được cải thiện và nó sẽ không liên quan gì đến thần giao cách cảm.

Điều tôi đang hỏi là làm thế nào để tìm hiểu thêm về "ý nghĩa dữ liệu" này , thông qua bất kỳ ấn phẩm nào về chủ đề này, nếu chúng tồn tại hoặc thông qua những gì người dùng khác thấy hữu ích trong việc phát triển kỹ năng này. Tôi xin lỗi nếu câu hỏi này cần làm rõ; Nếu vậy, xin vui lòng gửi câu hỏi của bạn! Cảm ơn.


Làm thế nào để nói dối với số liệu thống kê là một nơi tuyệt vời để bắt đầu.
MånsT

Drunkard's Walk cũng đặt số liệu thống kê trong một khung có thể truy cập được, có giá trị.
Marcus Morrisey

Câu trả lời:


10

Trước tiên tôi sẽ nói rằng chúng ta không nên học toán nhẹ. Nó là một công cụ quan trọng trong việc phát triển lý thuyết thống kê và phương pháp thống kê được chứng minh bằng lý thuyết. Lý thuyết cũng cho bạn biết điều gì là sai và những gì Techniuqes có thể tốt hơn (ví dụ hiệu quả hơn). Vì vậy, tôi nghĩ rằng kiến ​​thức và tư duy toán học là quan trọng (gần như cần thiết) để trở thành một nhà thống kê giỏi. Nhưng nó chắc chắn là không đủ. Tôi nghĩ rằng những cuốn sách tham khảo trong ý kiến ​​là tốt. Hãy để tôi cho một số người khác.

Ý thức về dữ liệu: Hướng dẫn thực tế để phân tích dữ liệu thăm dò và khai thác dữ liệu

Ý thức về dữ liệu II: Hướng dẫn thực tế về trực quan hóa dữ liệu, phương pháp khai thác dữ liệu nâng cao và ứng dụng

Tư duy thống kê: Cải thiện hiệu quả kinh doanh

Vai trò của Thống kê trong Kinh doanh và Công nghiệp

Nghề nghiệp về Thống kê: Vượt lên trên các con số

Những cuốn sách của Hahn và Snee đặc biệt có giá trị và thú vị bởi vì đây là những nhà thống kê công nghiệp nổi tiếng với các kỹ năng toán học và kinh nghiệm thực tế.


7
Cảm ơn các liên kết và bình luận. Tôi nghĩ rằng câu trả lời chung có thể được cải thiện bằng cách sử dụng đánh dấu [manuscript title](uri) liên kết . Sau một ngày dài, tôi thấy việc bắt gặp các câu trả lời với các siêu liên kết dài có thể bị chói tai trong tiềm thức, và không may có thể khiến người đọc thiên vị trước một câu trả lời hay.
jthetzel

@jthetzel Tôi có thể thấy lý do tại sao tốt hơn là có một tên thay thế url trong một liên kết. Khi có thời gian tôi sẽ học cách làm. Tôi biết nó là dễ dàng. Nhưng tôi đã đưa ra ba hoặc bốn liên kết. hầu như không mất thời gian để nhấp vào liên kết và xem nó là gì. vì vậy tôi không thực sự hiểu tại sao rất nhiều thành viên cộng đồng kiếm được nhiều tiền từ nó.
Michael R. Chernick

6

Trong ví dụ bạn đề cập, vấn đề cốt lõi là suy luận nguyên nhân. Một nơi tốt để bắt đầu cho suy luận nhân quả là cuốn sách đánh giá ba cuốn này của Andrew Gelman, và những cuốn sách được đánh giá trong đó. Ngoài việc tìm hiểu về suy luận nguyên nhân, bạn nên tìm hiểu về giá trị của phân tích dữ liệu khám phá, mô tả và dự đoán.

Tôi đã học được một lượng đáng kinh ngạc bằng cách nghe các nhà khoa học xã hội chỉ trích nghiên cứu của nhau trong các tác phẩm đã xuất bản, blog , hội thảo và trong các cuộc trò chuyện cá nhân - có rất nhiều cách để học. Theo dõi trang này và blog của Andrew Gelman.

Tất nhiên, nếu bạn muốn cảm nhận dữ liệu, bạn cần thực hành làm việc với dữ liệu thực. Có các kỹ năng cảm nhận dữ liệu chung, nhưng cũng có các kỹ năng cảm nhận dữ liệu dành riêng cho một khu vực có vấn đề, hoặc thậm chí cụ thể hơn, ý nghĩa dữ liệu cụ thể cho một tập dữ liệu cụ thể.


5

Một nguồn tài nguyên miễn phí tốt đẹp là Chance News Wiki . Nó có nhiều ví dụ được lấy từ các ví dụ thực tế cùng với thảo luận về điểm tốt và điểm xấu trong cách mọi người diễn giải dữ liệu và thống kê. Thường cũng có những câu hỏi thảo luận (một phần của động lực của thị giác là cung cấp cho giáo viên thống kê các ví dụ thực tế để thảo luận với học sinh).


5

+1 cho một câu hỏi tuyệt vời! (Và +1 cho tất cả những người trả lời cho đến nay.)

Tôi nghĩ rằng có rất nhiều thứ giống như dữ liệu, nhưng tôi không nghĩ có gì thần bí với nó. Sự tương tự tôi sẽ sử dụng là lái xe. Khi bạn đang lái xe trên đường, bạn chỉ cần biết những gì đang xảy ra với những chiếc xe khác. Ví dụ, bạn biết rằng anh chàng trước mặt bạn đang tìm kiếm biển báo đường phố nơi anh ta phải rẽ, mặc dù anh ta không sử dụng đèn báo rẽ. Bạn tự động xác định người lái xe chậm, thận trọng quá mức và dự đoán cách họ sẽ phản ứng trong các tình huống khác nhau. Bạn có thể nhận ra thiếu niên chỉ muốn đua nhanh như anh ta có thể đi. Bạn có một cảm giác dựa trên sự công nhận về những gì tất cả những chiếc xe đang làm. Điều này là chính xác giống như ý nghĩa dữ liệu. Nó đến từ kinh nghiệm, rất nhiềuKinh nghiệm. Nếu bạn biết đủ lý thuyết, bạn chỉ cần bắt đầu chơi với các bộ dữ liệu thực. Bạn có thể thích khám phá một trang web như DASL . Mặc dù vậy, một điều kiện là bạn không nên có kinh nghiệm tải dữ liệu, chạy thử và nhận giá trị p. Bạn sẽ cần khám phá dữ liệu, có thể vẽ nó theo nhiều cách khác nhau, phù hợp với một số mô hình và suy nghĩ về những gì đang diễn ra. (Lưu ý rằng EDA đã là một chủ đề phổ biến ở đây.)

Một thực tế có thể không rõ ràng về quá trình này, đó là ý nghĩa dữ liệu có thể được định vị theo một khu vực địa phương nhất định. Ví dụ: bạn có thể có nhiều kinh nghiệm làm việc với dữ liệu thử nghiệm và ANOVA, nhưng không nhất thiết phải có cảm giác tốt cho những gì đang diễn ra khi bạn xem dữ liệu chuỗi thời gian hoặc dữ liệu sinh tồn.

Hãy để tôi thêm một chiến lược mà tôi thấy rất hữu ích: Tôi nghĩ rằng nó đáng để bạn dành thời gian để học lập trình (thống kê) một chút. Bạn không cần phải cực kỳ giỏi về nó (tôi được biết đến với việc viết mã "không hiệu quả về mặt hài hước"). Tuy nhiên, một khi bạn có thể viết một số mã thủ tục cơ bản (nói và chơi với họ để hiểu ý tưởng đầy đủ hơn. Điều này cũng sẽ cung cấp cho bạn kinh nghiệm, nhưng thuộc loại hơi khác và cũng sẽ giúp bạn phát triển ý nghĩa dữ liệu của mình. R ), bạn có thể mô phỏng . Thật khó cho tôi để quá tập trung vào việc có thể tiến hành bao nhiêu ngay cả những mô phỏng rất đơn giản có thể giúp ích. Một điều bạn có thể sử dụng điều này là, trong quá trình học, bạn đọc về một số tài sản bạn có thể khám phá nó. Chẳng hạn, nếu bạn biết (một cách trừu tượng) rằng rất khó để xác định theo kinh nghiệm liệu một mô hình logit hoặc probit tốt hơn cho một tập dữ liệu, bạn có thể mã hóa các mô phỏng đơn giản về điều này


+1 Để nhấn mạnh giá trị của việc học từ các mô phỏng.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.