Làm thế nào bạn sẽ giải thích ý nghĩa thống kê cho những người không có nền tảng thống kê?


11

Bối cảnh:
Tôi đã phải thực hiện phân tích dữ liệu cho một khách hàng (một loại luật sư), người mới bắt đầu tuyệt đối trong thống kê. Anh ấy hỏi tôi thuật ngữ "ý nghĩa thống kê" nghĩa là gì và tôi thực sự đã cố gắng giải thích nó ... nhưng vì tôi không giỏi giải thích những điều tôi thất bại;)

Câu trả lời:


15

Sự khác biệt xảy ra là kết quả của cơ hội.

Khi chúng tôi tin rằng một cái gì đó có ý nghĩa thống kê, chúng tôi tin rằng sự khác biệt lớn hơn có thể được giải thích một cách hợp lý là một sự tình cờ.


Tôi thích việc sử dụng cơ hội, nhưng nghĩ rằng điều đó rất sai lệch về cách kiểm tra ý nghĩa thường được sử dụng. Ví dụ, cỡ mẫu lớn có nghĩa là bạn hầu như sẽ luôn nhận được ý nghĩa do sự khác biệt cơ bản "cơ hội". Nó được chấp nhận rộng rãi rằng những kết quả đó có thể được gọi là "có ý nghĩa thống kê" mặc dù được giải thích hợp lý là tình cờ.
Flask

@Flask: theo nghĩa nào là những khác biệt cơ bản do tình cờ?
Scortchi - Phục hồi Monica

@Scortchi Nếu ngẫu nhiên đã được thực hiện thì sự khác biệt có thể là do cơ hội. Xem ở đây . Ngay cả khi nó đã được thực hiện một cái gì đó có thể giới thiệu thiên vị sau này. Xem ở đây . Nếu ngẫu nhiên không được thực hiện thì đó có thể là do sai lệch cơ hội hoặc điều tra viên hoặc bất kỳ lý do nào.
15/12/13

1
Câu trả lời hữu ích ngoại trừ việc nó chỉ áp dụng cho các thử nghiệm về sự khác biệt.
rolando2

2
+1 Đây là một câu trả lời tuyệt vời vì nó tránh được arcana của giá trị p, xác suất, phân phối, giả thuyết null, v.v., và đi thẳng vào vấn đề áp dụng cho hầu hết các luật sư sẽ giải quyết. Rằng nó có thể không toàn diện nằm bên cạnh điểm: các chi tiết và biến thể có thể được xử lý sau. Nếu được nhấn để cải thiện điều này, thay đổi chính tôi sẽ làm là nhấn mạnh rằng niềm tin về ý nghĩa thống kê dựa trên dữ liệu : điều đó sẽ phân biệt mô tả này với, nói, niềm tin thần học.
whuber

3

LƯU Ý: điều tôi muốn nhấn mạnh trong câu trả lời này là ý nghĩa thống kê là một công cụ hữu ích, nhưng cũng khác với sự thật.

Lấy một gói 52 thẻ. Nếu khách hàng của tôi vô tội thì đó là một gói thẻ bình thường, 13 trái tim. Nếu khách hàng của tôi nói dối thì đó là một gói cố định và tất cả 52 thẻ là trái tim.

Tôi rút lá bài đầu tiên và đó là một trái tim. Aha, có tội! Chà, rõ ràng lẽ thường đã nói với chúng ta rằng đó không phải là trường hợp: có một trong bốn khả năng điều này sẽ xảy ra ngay cả khi anh ta vô tội. Chúng tôi không có ý nghĩa thống kê chỉ từ việc nhìn vào một thẻ.

Vì vậy, chúng tôi rút ra một thẻ thứ hai. Một trái tim khác. Hhhmmm ... chắc chắn có tội rồi! Chà, vẫn còn 12 trái tim trong 51 lá bài còn lại, nên không phải là không thể. Các toán học (13/52 * 12/51 = 0,0588) cho chúng ta biết điều này xảy ra khoảng 6% thời gian ngay cả khi vô tội. Đối với hầu hết các nhà khoa học, điều này vẫn sẽ không được tính.

Rút một lá bài thứ ba, một trái tim khác! Ba lần liên tiếp. Cơ hội của điều này xảy ra là (13/52 * 12/51 * 11/50 = 0,01294), vì vậy chỉ hơn 1% thời gian điều này có thể xảy ra một cách tình cờ.

Trong phần lớn khoa học, 5% được sử dụng làm điểm giới hạn. Vì vậy, nếu bạn không có bằng chứng nào khác ngoài ba thẻ đó, bạn có kết quả có ý nghĩa thống kê rằng anh ta có tội.

Điểm quan trọng là bạn càng được phép nhìn vào thẻ càng nhiều thì bạn càng tự tin vào cảm giác tội lỗi của mình, đó là một cách khác để nói rằng ý nghĩa thống kê càng cao.

LƯU Ý: bạn không bao giờ có bằng chứng về tội lỗi của anh ta trừ khi bạn được phép xem 14 thẻ. Với một gói thẻ bình thường, về mặt lý thuyết có thể vẽ 13 trái tim liên tiếp, nhưng 14 là không thể. [Bên cạnh các giáo viên: hãy giả sử các số trên thẻ không hiển thị; tất cả các thẻ là một trong bốn bộ quần áo có thể, và đó là nó.]

LƯU Ý: bạn có bằng chứng về sự ngây thơ của anh ấy ngay khi bạn rút bất kỳ lá bài nào khác ngoài trái tim. Điều này là do chỉ có hai gói có thể: bình thường hoặc tất cả trái tim. Cuộc sống thực phức tạp hơn và toán học cũng trở nên phức tạp hơn.

Nhân tiện, nếu khách hàng của bạn không phải là người chơi bài, hãy thử Monopoly: mọi người đều quay gấp đôi sáu lần; nhưng nếu ai đó lăn hai sáu lần mỗi khi bạn nghi ngờ. Thống kê chỉ cho phép chúng tôi đưa ra một con số chính xác về mức độ đáng ngờ của chúng tôi.


3

Lời khuyên của riêng tôi là không nói về những điều sau đây:

  1. giá trị p,
  2. thống kê kiểm tra,
  3. khả năng xảy ra tình cờ một mình.

Đừng quá khó khăn với bản thân về luật sư. Đây là một người có học thức, người đã dành ít nhất một học kỳ trong lớp Thống kê của trường đại học, và không một chút gì bị mắc kẹt với anh ta. Đó là câu chuyện tương tự cho hầu hết mọi nhà phi khoa học khác mà tôi từng làm việc - ý nghĩa thống kê không dính vào . Đó chỉ là một khái niệm quá không tự nhiên.

Tôi khuyến khích bạn giải thích ý nghĩa thống kê về mặt bằng chứng . Các nhà thống kê cổ điển đã mã hóa bằng chứng theo thang điểm từ 0 đến 1, trong đó các giá trị nhỏ hơn tạo thành nhiều bằng chứng hơn và 0,05 là nơi đường được vẽ theo quy ước.


imo ý tưởng của sig. có thể gắn bó với những người không phải là nhà khoa học; những gì thường được coi là không tự nhiên là định nghĩa kỹ thuật, nếu mọi người đi xa đến thế. Theo như bằng chứng, tất nhiên đây là về bằng chứng: câu hỏi là làm thế nào một người đối phó với bằng chứng thống kê để đi đến quyết định về sig.
rolando2

Tôi thích sự lạc quan của bạn, nhưng tôi không đồng ý rằng một người điển hình cho rằng ý nghĩa thống kê là tất cả về bằng chứng. Tôi nghĩ rằng họ xem nó như một loại công tắc nào đó khi bộ dữ liệu của bạn đủ lớn và tất cả các số được tính toán bằng cách nào đó "hợp lệ". Bạn đang khẳng định rằng điều quan trọng đối với giáo dân là biết bằng chứng được định lượng như thế nào, vì vậy hãy sẵn sàng nói về xác suất được tính toán theo một giả thuyết mà bạn có thể không tin là đúng ngay từ đầu.
Ben Ogorek

À nhưng nếu bạn nói về bằng chứng, bạn vào vùng đất Bayes.
Arthur B.

1
Tôi không nghĩ Bayes sở hữu "bằng chứng" (khái niệm), mặc dù họ chắc chắn đã chính thức hóa nó. Tôi sẽ lập luận rằng một giá trị p nhỏ là bằng chứng của một cái gì đó.
Ben Ogorek

1

"Có ý nghĩa thống kê" có nghĩa là một cái gì đó có thể chỉ xảy ra ngẫu nhiên, nhưng điều đó là không thể. Thay vào đó, có nhiều khả năng là có một số loại nguyên nhân. Bạn nên làm điều này cụ thể hơn với một ví dụ có liên quan đến khách hàng của bạn, vì lời giải thích đó rất trừu tượng.

Ví dụ: nếu luật sư Anne thắng nhiều trung bình hơn Bill, thì điều này có thể xảy ra ngẫu nhiên. Tuy nhiên, nếu Anne thắng một vụ án có ý nghĩa thống kê nhiều hơn thì nhiều khả năng có một điều gì đó có thể giúp giải thích tại sao Anne lại thắng nhiều vụ hơn Bill. Chúng tôi không biết nguyên nhân. Có lẽ Anne là một luật sư giỏi hơn hoặc Bill cố tình chọn những trường hợp khó khăn hơn.


0

Giữ cho nó đơn giản và súc tích!

Giá trị p được định nghĩa là xác suất nhận được kết quả cực kỳ cao hơn so với giá trị mà chúng tôi quan sát thấy giả sử null là đúng. Nếu giá trị p đủ nhỏ, null có thể không đúng. Chúng tôi tùy ý chọn một điểm giới hạn cho những gì chúng tôi coi là "đủ nhỏ" (alpha) và đối với tất cả các giá trị p nằm dưới alpha, chúng tôi từ chối null.

Đó là cách tôi giải thích nó với lớp thống kê giới thiệu của mình.


Nhưng điều gì sẽ xảy ra nếu bạn không có cách nào để chọn một giả thuyết null hợp lý (nghĩa là không có hai nhóm người nào giống nhau chính xác, nhưng bạn cũng không có đủ thông tin để dự đoán bất cứ điều gì tốt hơn mean1 = mean2)? Giải thích ý nghĩa thống kê mà không đề cập đến những hạn chế có thể gây hại.
Flask

0

Tôi sẽ thử.

Trước tiên, bạn tính giá trị p dựa trên dữ liệu trung bình và mức độ biến đổi của dữ liệu. Càng nhiều biến, càng ít có khả năng nhận được giá trị p nhỏ. Mặt khác, nếu, ví dụ, nếu bạn đang so sánh hai nhóm, sự khác biệt giữa mức trung bình của chúng càng lớn, giá trị p càng nhỏ.

Ngoài ra, tính biến thiên của dữ liệu có thể bị hủy bỏ phần nào bằng cách có thêm dữ liệu. Hình ảnh hai bộ dữ liệu có cùng mức chênh lệch giữa hai mức trung bình và cùng một lượng biến thiên. Trong trường hợp này, tập hợp có cỡ mẫu lớn hơn sẽ có giá trị p nhỏ hơn.

Phần kiểm tra chỉ xem giá trị p thấp hơn một số. Thông thường mọi người sử dụng 0,05, nhưng đây là tùy chỉnh xã hội tùy ý. Rất nhiều người nghĩ rằng việc sử dụng một con số tùy ý là vô nghĩa, nhưng nó rất phổ biến vì những lý do lịch sử.

Ngoài ra, hãy nhớ rằng chỉ vì bài kiểm tra quan trọng của bạn nói rằng có sự khác biệt giữa hai nhóm không có nghĩa là bạn biết tại sao có sự khác biệt đó. Mặt khác, nếu thử nghiệm cho biết không có sự khác biệt đáng kể, thì điều này có thể là do độ biến thiên của bạn quá lớn và bạn không có đủ dữ liệu để có giá trị p thấp, điều đó không có nghĩa là không có sự khác biệt thực sự.

Biên tập:

Tóm lại, giá trị p thấp hơn có nghĩa là nhiều bằng chứng chống lại dự đoán:

Sự khác biệt so với kết quả dự đoán -> Giảm giá trị p

Thêm dữ liệu -> Xuống giá trị p

Nhiều thay đổi hơn -> Lên giá trị p

Giá trị p giảm có nghĩa là nhiều bằng chứng cho biết dự đoán là sai. Mọi dự đoán trong lịch sử đã được hiển thị sai đến một số thập phân.


0

Ý nghĩa thống kê là một khái niệm được sử dụng để cung cấp sự biện minh cho việc chấp nhận hoặc bác bỏ một giả thuyết nhất định. Đưa ra một tập hợp dữ liệu, một nhà phân tích có thể tính toán số liệu thống kê và xác định mức độ quan hệ khác nhau giữa các biến khác nhau.

Công việc của thống kê là xác định xem dữ liệu có đủ bằng chứng để cho phép bạn kết luận rằng số liệu thống kê hoặc mối quan hệ được tính toán giữa các biến có thể được hiểu là báo cáo đúng hay không nếu kết quả quan sát được trong dữ liệu mẫu của bạn chỉ là do tình cờ. Điều này được thực hiện bằng cách xác định một số thống kê mẫu sẽ thể hiện một số đặc điểm nhất định nếu giả thuyết null là đúng nhưng không phải nếu giả thuyết null là sai. Càng nhiều thống kê mẫu có liên quan xuất hiện để thể hiện các đặc điểm dự kiến ​​theo giả thuyết null, bằng chứng thống kê cho thấy giả thuyết null càng chính xác. Tương tự như vậy, thống kê mẫu càng ít xuất hiện để thể hiện các đặc điểm được mong đợi theo giả thuyết null, bằng chứng thống kê càng yếu thì giả thuyết null là chính xác.

Số tiền mà thống kê mẫu thể hiện các đặc điểm dự kiến ​​theo giá trị null là vấn đề mức độ, nhưng để kết luận rằng giả thuyết null được chấp nhận hoặc từ chối phải có một số điểm cắt tùy ý. Như vậy, một giá trị ngưỡng được chọn. Nếu thống kê mẫu nằm trong hoặc một bên của giá trị ngưỡng thì nó được cho là phù hợp với các đặc điểm dự kiến ​​theo giả thuyết khống, và do đó, kết quả có thể được coi là có ý nghĩa thống kê đối với giá trị ngưỡng đã cho (ví dụ ở mức 5% alpha cấp độ). Nếu thống kê mẫu có liên quan rơi vào phía bên kia của giá trị ngưỡng thì nó được cho là không phù hợp với các đặc điểm dự kiến ​​theo giả thuyết null, và do đó kết quả không được coi là có ý nghĩa thống kê đối với giá trị ngưỡng đã cho.


Nhưng mức độ thường xuyên là có thực sự là một nét đặc trưng xác định trước rằng kết quả có nghĩa vụ phải áp dụng cho. Thông thường, một đối số được đưa ra để áp dụng kết quả vượt ra ngoài dân số chính xác được nghiên cứu, đó là một mẫu duy nhất. Bao nhiêu sự độc đáo này của các đối tượng / bất cứ vấn đề gì vẫn chưa được biết trong nhiều trường hợp. Một ngoại lệ có thể là kiểm soát chất lượng sản xuất, nhưng thử nghiệm ý nghĩa được sử dụng rộng rãi hơn thế nhiều. Tôi chỉ có nghĩa là nhấn mạnh những hạn chế của thủ tục, được bỏ qua từ giáo dục của riêng tôi.
15/12/13

@Flask đó là một điểm tốt. Tôi đã chỉnh sửa câu trả lời của mình để thử và làm cho nó chung chung hơn.
tjnel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.