Khái niệm thống kê khó nhất để nắm bắt là gì?


32

Đây là một câu hỏi tương tự như câu hỏi ở đây , nhưng đủ khác nhau tôi nghĩ là đáng để hỏi.

Tôi nghĩ tôi sẽ bắt đầu như một người khởi đầu, điều mà tôi nghĩ một trong những điều khó nắm bắt nhất là.

Của tôi là sự khác biệt giữa xác suấttần số . Một là ở cấp độ "kiến thức về thực tế" (xác suất), trong khi cái còn lại ở cấp độ "thực tế" (tần số). Điều này hầu như luôn khiến tôi bối rối nếu tôi nghĩ về nó quá nhiều.

Edwin Jaynes Đặt ra một thuật ngữ gọi là "ngụy biện cho tâm trí" để mô tả việc trộn lẫn những thứ này lại.

Bất kỳ suy nghĩ về bất kỳ khái niệm khó khăn khác để nắm bắt?


(Tôi không biết đủ để đưa ra câu trả lời này, do đó thêm một nhận xét.) Tôi luôn nghĩ rằng thật lạ khi PI mọc lên trong các phương trình thống kê. Ý tôi là - PI phải làm gì với thống kê? :)
Phục hồi Monica - Tạm biệt SE

2
Tôi đồng ý (Trong tôi surprisal) - Tôi nghĩ rằng nó rằng bật lên trong nhiều phân tích toán học. Chỉ cần một lưu ý bạn có thể viết bằng các lệnh latex dưới dạng đặt trong dấu $. Tôi sử dụng trang wiki để lấy cú pháp en.wikibooks.org/wiki/LaTeX/Mathatures . Một mẹo khác là "nhấp chuột phải" vào một phương trình bạn thấy trên trang web này và chọn "hiển thị nguồn" để nhận các lệnh đã được sử dụng. ππ\pi
xác suất

@Wiki Nếu bạn chấp nhận rằng tăng lên khi bạn đi từ đo chiều dài của một đường thẳng đến độ dài của một vòng tròn, tôi không hiểu tại sao nó sẽ không xuất hiện trong khi đi từ việc đo xác suất rơi xuống xuống một đoạn để đo xác suất rơi xuống trong một vòng tròn? π
cướp girard

@Wiki Bất cứ khi nào bạn có chức năng lượng giác (sin, cosine, tiếp tuyến, v.v.), bạn có nguy cơ có bật lên. Và hãy nhớ rằng bất cứ khi nào bạn lấy được một hàm bạn thực sự tìm thấy một tiếp tuyến. Điều đáng ngạc nhiên là không xuất hiện thường xuyên hơn . ππ
Carlos Accioly

@Carlos Tôi nghi ngờ mức độ phổ biến của chủ yếu là do việc sử dụng số liệu , dẫn đến n-spheres. Trong bối cảnh đó, tôi mong chờ nó của mà phổ biến là do sự phân tích. 2π2e
Sesqu

Câu trả lời:


31

vì một số lý do, mọi người gặp khó khăn trong việc nắm bắt giá trị p thực sự là gì.


3
@shabbychef: Hầu hết mọi người nắm bắt nó theo cách tồi tệ nhất có thể tức là xác suất gây ra lỗi loại I.
suncoolsu

2
Tôi nghĩ rằng điều đó chủ yếu liên quan đến cách giải thích giá trị p trong các lớp (nghĩa là: chỉ bằng cách đưa ra định nghĩa nhanh và không chỉ định giá trị p nào là KHÔNG)
nico

Tôi nghĩ rằng điều này chủ yếu là để làm với cách nó được giới thiệu. Đối với tôi, nó là một "phần bổ sung" cho bài kiểm tra giả thuyết cổ điển - vì vậy nó xuất hiện như thể nó chỉ là một cách khác để làm bài kiểm tra giả thuyết. Vấn đề khác là nó thường chỉ được dạy đối với phân phối bình thường, trong đó mọi thứ "hoạt động tốt" (ví dụ: giá trị p thước đo bằng chứng trong việc kiểm tra giá trị trung bình bình thường). Tổng quát hóa giá trị p không dễ dàng vì không có nguyên tắc cụ thể nào để hướng dẫn khái quát hóa (ví dụ: không có thỏa thuận chung về cách giá trị p thay đổi theo kích thước mẫu & nhiều so sánh)
xác suất

@shabbychef +1 mặc dù sinh viên thường gặp khó khăn với giá trị p (đại khái là vì khái niệm trong kiểm tra tinh tế hơn một chút so với quy trình quyết định nhị phân và là nguyên nhân "đảo ngược chức năng" không dễ để hiểu). Khi bạn nói "vì một lý do nào đó", bạn có nghĩa là không rõ ràng cho bạn tại sao mọi người gặp khó khăn? PS: Nếu có thể, tôi sẽ cố gắng thống kê trên trang này về mối quan hệ giữa "là câu trả lời hàng đầu" và "nói về p-value" :). Tôi thậm chí còn tự hỏi mình liệu khái niệm thống kê khó nắm bắt nhất có thể có nhiều upvote nhất không (nếu khó nắm bắt ... :))
robin girard

1
@eduardo - có một giá trị p đủ nhỏ đủ để đặt ra nghi ngờ về giả thuyết khống: nhưng nó được tính toán trong sự cô lập hoàn toàn với một phương án. Chỉ sử dụng giá trị p, bạn không bao giờ có thể chính thức "từ chối" , vì không có sự thay thế nào được chỉ định . Nếu bạn chính thức từ chối , thì bạn cũng phải từ chối các tính toán dựa trên giả định của là đúng, điều đó có nghĩa là bạn phải từ chối tính toán giá trị p xuất phát theo giả định này (nhưng nó gây rối cho đầu của bạn, nhưng đó là cách duy nhất để lý luận nhất quán ). H0H0H0
xác suất

23

Tương tự như câu trả lời của shabbychef, thật khó để hiểu ý nghĩa của khoảng tin cậy trong thống kê thường xuyên. Tôi nghĩ trở ngại lớn nhất là khoảng tin cậy không trả lời được câu hỏi mà chúng tôi muốn trả lời. Chúng tôi muốn biết, "cơ hội nào cho giá trị thực sự nằm trong khoảng thời gian cụ thể này?" Thay vào đó, chúng ta chỉ có thể trả lời, "cơ hội mà một khoảng được chọn ngẫu nhiên được tạo theo cách này có chứa tham số thực sự là gì?" Cái sau rõ ràng là ít thỏa mãn hơn.


1
Tôi càng nghĩ về các khoảng tin cậy, tôi càng khó nghĩ về loại câu hỏi nào họ có thể trả lời ở cấp độ khái niệm không thể trả lời bằng cách hỏi "cơ hội giá trị thực nằm trong một khoảng, với trạng thái của một hiểu biết". Nếu tôi hỏi "cơ hội (có điều kiện về thông tin của tôi) là gì thì thu nhập trung bình trong năm 2010 là từ 10.000 đến 50.000?" Tôi không nghĩ rằng lý thuyết về khoảng tin cậy có thể đưa ra câu trả lời cho câu hỏi này.
xác suất


13

Xác suất có điều kiện có thể dẫn đến hầu hết các sai lầm trong kinh nghiệm hàng ngày. Tất nhiên, có rất nhiều khái niệm khó nắm bắt hơn, nhưng mọi người thường không phải lo lắng về chúng - đây là khái niệm mà họ không thể tránh khỏi và là một nguồn gây ra sai lầm tràn lan.


+1; bạn có thể thêm một hoặc hai ví dụ, yêu thích hoặc hiện tại?
chối

1
Dành cho người mới bắt đầu: P (bạn mắc bệnh | xét nghiệm dương tính)! = P (xét nghiệm dương tính | bạn mắc bệnh).
xmjx

9

Tôi nghĩ rằng rất ít nhà khoa học hiểu được điểm cơ bản này: Chỉ có thể diễn giải kết quả phân tích thống kê theo mệnh giá, nếu mỗi bước được lên kế hoạch trước. Đặc biệt:

  • Cỡ mẫu phải được chọn trước. Sẽ không ổn khi tiếp tục phân tích dữ liệu vì nhiều đối tượng được thêm vào, dừng lại khi kết quả có vẻ tốt.
  • Bất kỳ phương pháp nào được sử dụng để bình thường hóa dữ liệu hoặc loại trừ các ngoại lệ cũng phải được quyết định trước. Không thể phân tích các tập hợp con khác nhau của dữ liệu cho đến khi bạn tìm thấy kết quả mình thích.
  • Và cuối cùng, tất nhiên, các phương pháp thống kê phải được quyết định trước. Có phải là không ổn khi phân tích dữ liệu thông qua các phương pháp tham số và không tham số, và chọn kết quả bạn thích.

Phương pháp thăm dò có thể hữu ích để, tốt, khám phá. Nhưng sau đó, bạn không thể quay lại và chạy các bài kiểm tra thống kê thường xuyên và diễn giải kết quả theo cách thông thường.


5
Tôi nghĩ John Tukey có thể không đồng ý en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial

3
Tôi sẽ không đồng ý một phần ở đây. Tôi nghĩ rằng sự cảnh báo mà mọi người bỏ lỡ là các hoạt động điều hòa thích hợp rất dễ bị bỏ qua cho các loại vấn đề này. Mỗi thao tác này thay đổi các điều kiện của suy luận, và do đó, chúng thay đổi các điều kiện về tính ứng dụng của nó (và do đó thành tính tổng quát của nó). Chúng chắc chắn chỉ áp dụng cho "phân tích xác nhận", trong đó mô hình và câu hỏi được xác định rõ đã được xây dựng. Trong giai đoạn thăm dò, không tìm cách trả lời các câu hỏi xác định - tìm kiếm nhiều hơn để xây dựng một mô hình và đưa ra giả thuyết cho dữ liệu.
xác suất

Tôi đã chỉnh sửa câu trả lời của mình một chút để xem xét các bình luận của Dikran và xác suất. Cảm ơn.
Harvey Motulsky

1
Đối với tôi, "loại trừ các ngoại lệ" không sai rõ ràng như câu trả lời của bạn ngụ ý. Ví dụ, bạn chỉ có thể quan tâm đến các mối quan hệ ở một phạm vi phản hồi nhất định và loại trừ các ngoại lệ thực sự giúp loại phân tích này. Ví dụ, nếu bạn muốn mô hình hóa thu nhập "tầng lớp trung lưu", thì loại trừ những người ngoại quốc siêu giàu và nghèo khó là một ý tưởng tốt. Chỉ có các ngoại lệ trong khung suy luận của bạn (ví dụ: các quan sát của tầng lớp trung lưu "lạ") mới được áp dụng nhận xét của bạn
xác suất

2
Cuối cùng, vấn đề thực sự với các vấn đề được nêu trong câu trả lời ban đầu là chúng (ít nhất là một phần) làm mất hiệu lực giá trị p. Nếu bạn quan tâm đến việc định lượng một hiệu ứng quan sát được, người ta sẽ có thể thực hiện bất kỳ và tất cả những điều trên mà không bị trừng phạt.
russellpierce

9

Lưỡi chắc chắn trong má: Đối với những người thường xuyên, khái niệm xác suất Bayes; đối với Bayes, khái niệm xác suất thường xuyên. ; o)

Cả hai đều có giá trị tất nhiên, nhưng có thể rất khó hiểu tại sao một khung là thú vị / hữu ích / hợp lệ nếu sự hiểu biết của bạn về cái kia quá vững chắc. Xác nhận chéo là một biện pháp tốt vì đặt câu hỏi và lắng nghe câu trả lời là một cách tốt để tìm hiểu.


2
Tôi quy tắc tôi sử dụng để ghi nhớ: Sử dụng xác suất để dự đoán tần số. Khi các tần số đã được quan sát, sử dụng chúng để đánh giá xác suất bạn đã chỉ định. Điều không may là khó hiểu là, thường thì xác suất bạn chỉ định bằng với tần suất bạn đã quan sát. Một điều tôi luôn thấy kỳ lạ là tại sao những người thường xuyên thậm chí sử dụng từ xác suất? sẽ không làm cho khái niệm của họ dễ hiểu hơn nếu cụm từ "tần suất của một sự kiện" được sử dụng thay vì "xác suất của một sự kiện"?
xác suất

Thật thú vị, xác nhận chéo có thể được coi là một xấp xỉ Monte Carlo với tích phân của hàm mất trong Lý thuyết quyết định. Bạn có một tích phân và bạn ước tính nó bằng Trong đó là vectơ dữ liệu và là vectơ dữ liệu với quan sát thứ i bị xóai = n i = 1 L ( x [ n - i ] , x i ) x n x [ n - i ] x ip(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi
xác suất

8

Từ kinh nghiệm cá nhân của tôi, khái niệm về khả năng cũng có thể gây ra khá nhiều sự khuấy động, đặc biệt là đối với những người không thống kê. Như wikipedia nói, nó rất thường được trộn lẫn với khái niệm xác suất, điều này không chính xác.



6

Những bản phân phối khác nhau thực sự đại diện cho điều gì, ngoài việc chúng được sử dụng như thế nào.


3
Đây là câu hỏi tôi thấy mất tập trung nhất sau thống kê 101. Tôi sẽ gặp nhiều bản phân phối mà không có động lực nào cho chúng ngoài "tài sản" có liên quan đến các chủ đề trong tay. Phải mất nhiều thời gian không thể chấp nhận để tìm ra những gì đại diện.
Sesqu

1
"Suy nghĩ" entropy tối đa là một phương pháp giúp hiểu phân phối là gì, cụ thể là trạng thái của kiến ​​thức (hoặc mô tả về sự không chắc chắn về một cái gì đó). Đây là định nghĩa duy nhất có ý nghĩa với tôi trong mọi tình huống
xác suất

Ben Bolker cung cấp một cái nhìn tổng quan về vấn đề này trong phần 'dữ liệu phân phối' của các mô hình và dữ liệu sinh thái trong R
David LeBauer

5

Tôi nghĩ rằng câu hỏi có thể hiểu theo hai cách, sẽ đưa ra câu trả lời rất khác nhau:

1) Đối với những người nghiên cứu thống kê, đặc biệt ở cấp độ tương đối cao, khái niệm khó nhất để nắm bắt là gì?

2) Khái niệm thống kê nào bị hiểu nhầm bởi hầu hết mọi người?

Vì 1) Tôi không biết câu trả lời nào cả. Một cái gì đó từ lý thuyết đo lường, có thể? Một số loại tích hợp? Tôi không biết.

Đối với 2) giá trị p, xuống tay.


Lý thuyết đo lường không phải là một lĩnh vực thống kê cũng không khó. Một số loại tích hợp là khó, nhưng, một lần nữa, đó không phải là thống kê.
pyon

5

Khoảng tin cậy trong truyền thống phi Bayes là một điều khó khăn.


5

Tôi nghĩ rằng mọi người bỏ lỡ chiếc thuyền trên hầu hết mọi thứ lần đầu tiên. Tôi nghĩ điều mà hầu hết các sinh viên không hiểu là họ thường ước tính các tham số dựa trên các mẫu. Họ không biết sự khác biệt giữa thống kê mẫu và tham số dân số. Nếu bạn đánh bật những ý tưởng này vào đầu họ, những thứ khác sẽ dễ dàng hơn một chút. Tôi chắc chắn rằng hầu hết các sinh viên cũng không hiểu mấu chốt của CLT.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.