Điều khoản thống kê khó hiểu nhất


47

Các nhà thống kê chúng tôi sử dụng nhiều từ theo những cách hơi khác so với cách mọi người khác sử dụng chúng. Điều này gây ra nhiều vấn đề khi chúng ta dạy hoặc giải thích những gì chúng ta đang làm. Tôi sẽ bắt đầu một danh sách (và bây giờ tôi sẽ thêm một số định nghĩa, cho mỗi bình luận):

  • Sức mạnh là khả năng bác bỏ chính xác một giả thuyết null sai. Thông thường, điều này có nghĩa là nói chính xác "một cái gì đó đang xảy ra".
  • Xu hướng - một thống kê bị sai lệch nếu nó khác biệt một cách có hệ thống với tham số dân số liên quan đến nó.
  • Ý nghĩa - kết quả có ý nghĩa thống kê ở một số phần trăm (thường là 5%) trong tình huống sau: Nếu dân số mà mẫu xuất phát có hiệu lực thực sự bằng 0, thì thống kê ít nhất là cực đoan như một mẫu nhận được từ mẫu 5% thời gian.
  • Tương tác - Hai biến độc lập tương tác nếu mối quan hệ giữa biến phụ thuộc và một biến độc lập khác nhau ở các mức khác nhau của biến độc lập khác

Nhưng phải có nhiều người khác!


5
Tôi sẽ đề nghị mọi người thêm một số bối cảnh lớn hơn vào câu trả lời của họ là tốt. Các ví dụ có thể là cùng một từ được sử dụng khác nhau trong các lĩnh vực khác nhau (hiệu ứng cố định Gelman, 2005 ) hoặc các từ có ý nghĩa khác nhau trong các bối cảnh khác nhau (ý nghĩa so với ý nghĩa thống kê Bushway et al., 2006 ).
Andy W

5
Sẽ tốt hơn nếu người trả lời có thể giải thích trong một hoặc hai câu thuật ngữ "kỹ thuật" thực sự có nghĩa là gì, hoặc điều gì có thể khiến nó được coi là có ý nghĩa khác.
chl

Tôi sẽ hoàn thành câu trả lời của mình theo nhận xét của bạn sau này ;-)
ocram

1
... Và "tương quan"!
Stéphane Laurent

1
Đối với "mẫu", hãy xem các nhận xét về stats.stackexchange.com/questions/20945/ .
whuber

Câu trả lời:


21

"Đáng kể" là từ lớn nhất mà tôi gặp phải, bởi vì nó có cả ý nghĩa sử dụng tiếng Anh thông dụng ý nghĩa đó sẽ xuất hiện trong cuộc thảo luận về kết quả nghiên cứu. Tôi thậm chí còn thấy mình trộn lẫn vào "ý nghĩa" có nghĩa là quan trọng trong cùng một câu mà tôi đã nói về kết quả thống kê.

Đó là cách nói dối điên rồ.


Đúng, nhưng không có từ nào tốt hơn cho "Tôi khá chắc chắn rằng nó đáng kể, nhưng tôi đã không thực hiện bất kỳ thử nghiệm nào trên đó, và sẽ không, bởi vì nó rõ ràng / không thể được thực hiện / bất cứ điều gì"
naught 101

17

Tôi sẽ đề nghị thêm tuyến tính vào danh sách.

YXYY^=aX+babE[(YaXb)2]

"Tôi hơi khó chịu với ngôn ngữ của bạn, vì tôi sợ rằng cách sử dụng từ" tuyến tính "này có thể dẫn đến sự hiểu lầm phổ biến rằng lý do tại sao hồi quy tuyến tính trong gọi là hồi quy tuyến tính là do người ta phù hợp với một dòng. sau đó thấy khó hiểu khi một nhà thống kê khẳng định rằng người ta đang thực hiện hồi quy tuyến tính khi người ta khớp với parabola hoặc sóng hình sin, v.v. "

Vì vậy, những gì làm hồi quy tuyến tính trung bình để một nhà thống kê?


5
Câu hỏi liên quan trên trang web liên quan đến câu trả lời này, tuyến tính có nghĩa gì trong hồi quy tuyến tính?
Andy W

1
@AndyW Vậy bạn có nói rằng tuyến tính thuộc danh sách mà Peter Flom bắt đầu hay không?
Dilip Sarwate

1
vâng tôi đồng ý nó phù hợp với hóa đơn cho danh sách này. (+1)
Andy W

4
Nó phù hợp với danh sách, nhưng vì một lý do bất thường: ý nghĩa của thuật ngữ "tuyến tính" được thiết lập tốt và được sử dụng nhất quán trên nhiều lĩnh vực định hướng toán học. Sự nhầm lẫn tiềm ẩn liên quan đến phần nào của công thức là tuyến tính.
whuber

Bạn có thể đưa ra một ví dụ về cách bạn phù hợp với một parabola và vẫn gọi nó là một mô hình tuyến tính?
oneloop

14

xác suất

Dường như với tôi, hầu hết các vấn đề liên quan đến diễn giải các bài kiểm tra giả thuyết và khoảng tin cậy đều xuất phát từ việc áp dụng định nghĩa "xác suất" của Bayes khi thủ tục dựa trên quy trình thường xuyên. Ví dụ, giá trị p là xác suất giả thuyết null là đúng, khi AFAICS không có xác suất nào có thể được liên kết với sự thật của một giả thuyết cụ thể trong một thiết lập thường xuyên.


4
Có vẻ như sự cân nhắc tương tự sẽ được áp dụng cho những người được sử dụng để nói rằng tham số (đúng) có 95% cơ hội nằm giữa xx và xx, khi nói về / diễn giải các khoảng tin cậy.
chl

1
chắc chắn rồi!
Dikran Marsupial

1
+1 Tôi sẽ cụm từ câu cuối cùng của bạn hơi khác nhau, tuy nhiên. Trong cài đặt thường xuyên nhất, xác suất giả thuyết null là đúng là 1 hoặc 0, nhưng bạn không biết điều đó . (Nói đúng ra, điều này không hoàn toàn đúng, bởi vì 'xác suất' là tần số tương đối dài hạn và 'tần suất dài' không thực sự được áp dụng. Tuy nhiên, khi nói theo cách này mọi người có thể hiểu những gì được nói / cách chúng ta hiểu tình huống chúng ta gặp phải. Ví dụ, mọi người nhận ra rằng bạn không thể sử dụng giá trị p giả thuyết null làm xác suất cho giả thuyết null là đúng.)
gung - Tái lập Monica

2
"bởi vì" xác suất "là một tần suất tương đối dài hạn" Rất nhiều nhà xác suất sẽ tranh chấp kịch liệt tuyên bố đó
Dilip Sarwate

14

"Sự tự tin"

Rất khó để can ngăn những người không thống kê rằng khoảng tin cậy của họ không phải là (trực tiếp) một tuyên bố về độ tin cậy của các giá trị tham số khác nhau.

Để có sự tự tin, về ý nghĩa kỹ thuật của thuật ngữ này, chúng ta cần tưởng tượng một số tập hợp các thí nghiệm lặp đi lặp lại, mỗi thí nghiệm tính toán một khoảng theo một số cách được chỉ định trước. Để có khoảng tin cậy 95%, 95% các cách sử dụng công thức này sẽ bẫy tham số quan tâm có liên quan.

ab

(Tất nhiên có những tình huống khi hai khái niệm đồng ý, hoặc xấp xỉ hoặc chính xác. Nhưng nói chung, họ không đồng ý và thỏa thuận bằng số không loại bỏ vấn đề lạm dụng các thuật ngữ kỹ thuật.)


10

"Khả năng" - đồng nghĩa với "xác suất" trong lời nói hàng ngày, nhưng trong Thống kê, nó có một ý nghĩa đặc biệt: đó là chức năng của các tham số của mô hình thống kê, có giá trị là xác suất của kết quả quan sát được giả định rằng các tham số bằng với các giá trị tham số.


8

Lỗi.

Trong thống kê, "lỗi" là độ lệch của giá trị dữ liệu thực tế so với dự đoán của mô hình.

Trong cuộc sống thực, một lỗi là một mánh lới giật gân hoặc những kẻ ngốc khác.


Không phải là một lỗi chính tả chỉ là một sai lệch so với giá trị thực tế (dự định) của phương tiện truyền thông? Tôi thực sự không thấy đây là một từ khác như thế nào, chỉ là nó được sử dụng trong một bối cảnh khác (nhưng không xung đột). Tôi cảm thấy khó tin rằng đó sẽ là tất cả những gì khó hiểu với một người mới vào lĩnh vực này.
ness101

2
Một lý do tại sao một giá trị có thể khác với dự đoán là người thí nghiệm đã nhầm lẫn. Điều đó giống như một lỗi chính tả. Nhưng tại sao cân nặng của bạn lại khác với cân nặng trung bình của tất cả những người thuộc giới tính và độ tuổi của bạn? Tại sao thu nhập của bạn khác với thu nhập trung bình? Trong thống kê, độ lệch so với giá trị trung bình là "lỗi" nhưng đó không phải là lỗi, chỉ là biến thể.
Harvey Motulsky

Đúng, nhưng nó phụ thuộc vào cách bạn nhìn vào nó, tôi nghĩ. nếu bạn nhìn vào cách đánh vần của một từ trong mẫu của trường tiểu học, bạn sẽ bị biến đổi, gây ra bởi con người, vâng, nhưng cũng không phải do người thí nghiệm gây ra. Bạn có thể nhìn vào điều tương tự bằng cách viết bằng tiếng Anh từ các độ tuổi khác nhau. Tôi nghĩ bạn sẽ thấy rằng tiếng Anh ban đầu có độ biến thiên cao hơn rất nhiều :)
naught101

@HarveyMotulsky: hóa phân tích sử dụng lỗi theo cả hai cách. Chúng tôi nói về lỗi hệ thống, lỗi ngẫu nhiên và lỗi thô. Sách giáo khoa: "lỗi tổng có thể tránh được".
cbeleites hỗ trợ Monica

8

"Sự suy luận"

βb

Một phần quan trọng khác về suy luận là định lý giới hạn trung tâm. Khi bạn nhận ra rằng bạn chỉ đơn giản là lấy mẫu từ dân số - mặc dù lấy mẫu là một tính năng phức tạp khác gần giống với suy luận - thì bạn hiểu rằng ngay cả khi mẫu có nghĩa là giữ một giá trị, thì giá trị đó không nhất thiết giống như trong dân số .

Có lẽ tôi đã hiểu một cách tương đối lỏng lẻo về câu hỏi của bạn, nhưng một khi ai đó hiểu được suy luận hoặc sự khác biệt giữa một mẫu và dân số thì toàn bộ số liệu thống kê sẽ mở ra cho họ.


7

Đối với chúng tôi (hoặc ít nhất là tôi), "tính ngẫu nhiên" của một "mẫu" cho thấy rằng nó là đại diện cho "dân số".

Đối với người khác, "sự ngẫu nhiên" đôi khi ngụ ý rằng một người / vật là bất thường.


1
Tôi đã không gặp phải sự nhầm lẫn về "tính ngẫu nhiên". Nhưng nếu bạn có, thì rõ ràng nó tồn tại.
Peter Flom - Tái lập Monica

3
Chính xác hơn, nó đã tồn tại
Thomas Levine

1
Việc sử dụng "ngẫu nhiên" sau này có vẻ khá gần đây đối với tôi. Tôi thấy hơi khó chịu vì lý do đó (chỉ khiến mọi người khó hiểu hơn). Thậm chí còn khó chịu hơn khi tôi nghe thấy bản thân mình sử dụng nó theo nghĩa đó ..
naught 101

5

Tôi nghĩ người ta nên phân biệt giữa các thuật ngữ gây nhầm lẫn cho công chúng và các thuật ngữ gây nhầm lẫn cho các nhà thống kê. Các đề xuất trên, hầu hết là các thuật ngữ được các nhà thống kê hiểu rõ và (có thể) bị công chúng hiểu lầm. Tôi muốn thêm vào danh sách một số thuật ngữ được các nhà thống kê hiểu:

  • Bayesian: Ban đầu được gọi là Bayes chủ quan (còn gọi là epistemia, De-Finetti). Ngày nay, thuật ngữ này sẽ được sử dụng bất cứ lúc nào quy tắc Bayes xuất hiện, hiếm khi trong bối cảnh niềm tin chủ quan, được coi là lý thuyết quyết định.
  • Empirical Bayes: Ban đầu đề cập đến một thiết lập thường xuyên với một tham số không tham số trước. Ngày nay, thông thường sẽ có nghĩa là các tham số của tham số (mục tiêu) trước được ước tính và không được biết đến a-prori. Tức là, thứ từng được gọi là khả năng tối đa loại II.
  • Không tham số: Đôi khi đề cập đến "mô hình miễn phí". Đôi khi để "phân phối miễn phí". Thực tế đã trở nên không chính xác trong những ngày các mô hình "tham số" có thể bao gồm hàng triệu tham số.
  • Lỗi loại III: đôi khi đề cập đến một lỗi dấu hiệu. Đôi khi đề cập đến một lỗi chính tả của mô hình.

Khi tôi hỏi, tôi dự định "các điều khoản gây nhầm lẫn cho công chúng" nhưng chắc chắn các điều khoản gây nhầm lẫn cho các nhà thống kê cũng có giá trị niêm yết
Peter Flom - Rebstate Monica

Điều này có lẽ nên được chia thành các câu trả lời riêng biệt.
ness101

4

Sinh thái, thường được sử dụng để chỉ các hệ thống sinh học, nhưng cũng là một ngụy biện thống kê. Từ Wikipedia:

Sai lầm sinh thái (hay sai lầm suy luận sinh thái) là một lỗi trong việc giải thích dữ liệu thống kê trong một nghiên cứu sinh thái, theo đó suy luận về bản chất của các cá nhân cụ thể chỉ dựa trên số liệu thống kê tổng hợp được thu thập cho nhóm mà các cá nhân đó thuộc về. Sai lầm này giả định rằng các thành viên cá nhân của một nhóm có các đặc điểm trung bình của nhóm nói chung.


3

"Khảo sát" là một loại toán học ("lấy mẫu khảo sát") hay một mảnh giấy ("bảng câu hỏi")?

Tôi đã không thực hiện một cuộc khảo sát về vấn đề này, nhưng tôi nghi ngờ rằng phần lớn công chúng coi "cuộc khảo sát" là cuộc khảo sát. Tôi nghi ngờ thêm rằng họ không nghĩ về cái trước.


2
Không phải khảo sát được thực hiện bởi các nhà khảo sát? ;)
zbicyclist

3

"Tải trọng", "Hệ số" và "Trọng lượng"; khi nói về Phân tích thành phần chính.

Tôi thường thấy mọi người khá đặc biệt khi sử dụng chúng, sử dụng chúng thay thế cho nhau mà không xác định rõ ràng ý nghĩa của chúng và tôi thực sự bắt gặp các bài báo đề cập đến "tải vectơ" và đôi khi có nghĩa là chính PC và các lần khác là "trọng lượng" liên kết với một PC cụ thể.

Có lẽ thực tế là tài liệu tham khảo tuyệt vời của Jollifee về các Thành phần chính nêu ở cuối phần 1.1 "Một số tác giả phân biệt giữa thuật ngữ 'tải' và 'hệ số', tùy thuộc vào ràng buộc chuẩn hóa được sử dụng, nhưng chúng sẽ được sử dụng thay thế cho nhau trong cuốn sách này." chỉ khiến mọi người nghĩ rằng họ có một lượt miễn phí để trộn và kết hợp thuật ngữ theo ý thích của họ ....


1

Mô hình phụ gia. Vẫn không thực sự chắc chắn điều này có nghĩa là gì. Tôi nghĩ rằng nó đề cập đến một mô hình mà không có điều khoản tương tác. Nhưng sau đó tôi sẽ bắt gặp một bài báo trong đó họ đang sử dụng nó để đề cập đến một thứ khác, tức là một mô hình spline.


0

Một trong những thuật ngữ mà tôi thấy khó hiểu nhất là "ma trận nhầm lẫn". Tất nhiên, thuật ngữ được sử dụng chính nó là khó hiểu, không phải là khái niệm.

Tôi đã cố gắng theo dõi lịch sử của thuật ngữ và nó cũng khá thú vị. Ma trận nhầm lẫn được phát minh vào năm 1904 bởi ( http://en.wikipedia.org/wiki/Karl_Pearson ). Ông đã sử dụng thuật ngữ http://en.wikipedia.org/wiki/Contingency_table . Nó xuất hiện tại Karl Pearson, FRS (1904). Đóng góp toán học cho lý thuyết tiến hóa (PDF). Dulau và Công ty http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Trong Thế chiến 2, h ttps: //en.wikipedia.org/wiki/Detection_theory được phát triển như một cuộc điều tra về mối quan hệ giữa kích thích và phản hồi. Ma trận nhầm lẫn đã được sử dụng ở đó.

Do lý thuyết phát hiện, thuật ngữ này đã được sử dụng một tâm lý học. Từ đó thuật ngữ đạt đến máy học.

Có vẻ như mặc dù khái niệm này đã được phát minh ra trong các số liệu thống kê, một hồ sơ rất liên quan đến học máy, nó đã đạt đến học máy sau một đường vòng trong khoảng thời gian 100 năm.

Đối với một số tài liệu tham khảo về việc sử dụng thuật ngữ này, hãy xem: Nguồn gốc của ma trận nhầm lẫn là gì?


-4

"Số liệu thống kê"

Đối với công chúng, một sự thay thế cho "bây giờ tôi sắp nói dối bạn và nói theo cách bạn không hiểu."

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.