Những thuật ngữ thống kê sử dụng sai có giá trị sửa chữa?


103

Thống kê ở khắp mọi nơi; Tuy nhiên, việc sử dụng phổ biến các thuật ngữ thống kê thường không rõ ràng.

Các thuật ngữ xác suấttỷ lệ cược được sử dụng thay thế cho nhau trong tiếng Anh mặc dù các biểu thức toán học được xác định rõ ràng và khác nhau.

Không tách biệt khả năng thuật ngữ với xác suất thường xuyên gây nhầm lẫn cho các bác sĩ cố gắng định lượng xác suất ung thư vú khi chụp nhũ ảnh dương tính, Hồi Oh, thật vô nghĩa. Tôi không thể làm điều này. Bạn nên kiểm tra con gái tôi; cô ấy đang học ngành y.

Truyền bá công bằng là việc sử dụng tương quan thay vì liên kết . Hoặc tương quan ngụ ý nhân quả .

Trong bộ phim tài liệu nổi tiếng của Al Gore, An Inconvenient Truth , một slide minh họa mối tương quan giữa lõi băng và nhiệt độ, khiến công việc kỹ thuật hơn để chứng minh nguyên nhân ra khỏi cuộc thảo luận:CO2

nhập mô tả hình ảnh ở đây

CÂU HỎI: Những thuật ngữ thống kê nào đặt ra vấn đề giải thích khi được sử dụng mà không có sự chặt chẽ về toán học, và do đó, có đáng để sửa không?


4
Tỷ lệ so với xác suất giữa các giáo dân dường như không phải là vấn đề đối với tôi vì dù sao cư sĩ sẽ không tính toán được họ, họ sẽ chỉ nói rằng các giá trị thấp hoặc cao, và hai giá trị này có mối tương quan trực tiếp với nhau.
Mehrdad

@Mehrdad Tôi đồng ý. Trên thực tế, đây là điểm ... có bất kỳ tình huống sử dụng sai những từ này, đã được thông qua và kỹ thuật trong giới hạn của số liệu thống kê, dẫn đến các vấn đề. Ví dụ, rõ ràng có một cơ quan nghiên cứu quan trọng đằng sau sự thay đổi khí hậu, nhưng trong nhiều trường hợp khác, những tuyên bố sai lầm có thể được đưa ra bằng cách cho rằng mối tương quan tương đương với quan hệ nhân quả. Trong trường hợp tỷ lệ cược và xác suất, có thể chuyển đổi sang tỷ lệ khác, vì vậy rủi ro duy nhất là hiểu nhầm tiền cược của bạn.
Antoni Parellada

3
@Mehrdad Quan điểm về tỷ lệ cược là một điều thú vị, nhưng tôi nghĩ nó phức tạp hơn nhiều so với mắt. Khi cư sĩ nói về tỷ lệ cược, họ thường có nghĩa là tỷ lệ cược cờ bạc và những điều này rất thường được thể hiện ở định dạng "tỷ lệ cược chống lại". Vì vậy, trong hệ thống mà hầu hết mọi người đều quen thuộc, giá trị cao cho tỷ lệ cược có liên quan đến xác suất thấp , mặc dù đối với tỷ lệ cược cao theo thống kê có liên quan đến xác suất cao. Do đó, điều này khá chín muồi cho sự nhầm lẫn: xem thêm bài đăng của chúng tôi về Odds Made Simple
Silverfish

5
Có lẽ đáng để nhớ rằng một số thuật ngữ này đã có từ trước trong tiếng Anh (với nghĩa lỏng lẻo), trước khi bị chiếm đoạt bởi các số liệu thống kê và đưa ra các định nghĩa kỹ thuật nghiêm ngặt. Đó là một chút cô đọng để lấy từ, thay đổi ý nghĩa và sau đó chạy xung quanh đổ lỗi cho người khác đã sử dụng sai khi họ chỉ sử dụng nó với định nghĩa cũ hơn, phi kỹ thuật.
RM

Tôi thực sự không thích gọi các bài kiểm tra "post hoc" ngay cả khi chúng được lên kế hoạch trước. Tôi nghĩ rằng điều này đã bắt đầu với một số gói stat nhưng bây giờ nó phổ biến.
David Lane

Câu trả lời:


101

Nó có thể là vô ích để chiến đấu chống lại sự thay đổi trong ngôn ngữ. Nhưng

tham số không có nghĩa là biến

Trong thống kê cổ điển, trong trường hợp này bắt đầu chính xác với RA Fisher, người đầu tiên sử dụng thuật ngữ này với ý nghĩa này, một tham số là một hằng số không xác định được ước tính, có nghĩa là một ý nghĩa dân số hoặc tương quan. Trong toán học, có những ý nghĩa liên quan nhưng không giống nhau, như khi một đường cong được đưa ra một cách tham số. Trong nhiều ngành khoa học, tham số chỉ là một từ khác để đo lường (bản thân nó là một thuật ngữ dày đặc với ý nghĩa toán học), tính chất hoặc biến, nói độ dài hoặc độ dẫn hoặc độ xốp hoặc đức tính, tùy từng trường hợp. Đương nhiên, chiều dài hoặc đức tính của một cá nhân là không xác định trước khi nó được đo. nhưng những người có đầu óc thống kê có thể bị lưỡng lự khi sử dụng nó cho một tập hợp các phép đo như vậy. Trong cách nói thông thường hoặc thô tục, tham số(hầu như luôn luôn là số nhiều) thường có nghĩa là giới hạn của một cái gì đó, nói một mối quan hệ cá nhân hoặc một chính sách chính trị, có lẽ xuất phát từ một số nhầm lẫn ban đầu với chu vi . Với xác suất trước cao, người ta cho rằng người Bayes sẽ tự nói về việc sử dụng của họ (gật đầu biết ơn với @conjugatep Warrior).

xiên không có nghĩa là thiên vị

Trong một thế kỷ trở lên, độ lệch đã có ý nghĩa thống kê cụ thể khi đề cập đến sự bất cân xứng của các phân phối, cho dù được đánh giá bằng đồ họa, đo lường bằng số, hoặc được coi là lý thuyết là vấn đề của niềm tin hay hy vọng. Trong thời gian dài hơn, hoặc có thể đoán được, sai lệch trung bình có nghĩa là sai, miễn là chúng ta biết sự thật, có nghĩa là một giá trị đúng hoặc đúng - có thể được định lượng là lỗi hệ thống. Xiên trong ngôn ngữ thông thường có một ý nghĩa phổ biến là bị biến dạng hoặc biến dạng, và do đó là không chính xác, sai và do đó cũng thiên vị. Ý nghĩa đó (theo như tôi đã nhận thấy, chỉ mới gần đây) đã bắt đầu lọc trở lại các cuộc thảo luận thống kê, do đó, ý nghĩa ban đầu của sự sai lệch có nguy cơ bị mờ hoặc chìm.

tương quan không có nghĩa là thỏa thuận

Tương quan đã thu hút một số giác quan chính xác trong thống kê, trong đó có một ý tưởng chung về mối quan hệ hai biến hoàn hảo theo một số ý nghĩa chính xác: các trường hợp hàng đầu là mối quan hệ tuyến tính và đơn điệu. Nó thường bị pha loãng, ngay cả trong các cuộc thảo luận thống kê, có nghĩa là hầu hết mọi loại mối quan hệ hoặc liên kết. Sự tương quan không có nghĩa là gì, nhất thiết, là sự đồng ý: do đó ngụ ý tương quan Pearson của hoặc miễn là , nhưng thỏa thuận yêu cầu điều kiện rất nghiêm ngặt .y=a+bx11b0y=xa=0,b=1

độc đáo không có nghĩa là khác biệt

Điều khá phổ biến để nói về các giá trị riêng biệt của dữ liệu là duy nhất , nhưng duy nhất vẫn được bảo tồn tốt hơn là ý nghĩa chỉ xảy ra một lần duy nhất. Tôi đoán là một số lỗi được bắt nguồn từ tiện ích Unix [sic] uniqvà bộ bắt chước của nó, làm giảm các giá trị có thể lặp lại thành một tập hợp trong đó mỗi giá trị thực sự là duy nhất. Việc sử dụng, theo phỏng đoán này, kết hợp đầu vào và đầu ra của một chương trình. (Ngược lại, nếu chúng ta nói về các bản sao trong dữ liệu, chúng ta hiếm khi tự giới hạn mình trong các cặp đôi xảy ra chính xác hai lần. Thuật ngữ sao chépsẽ có ý nghĩa hơn về mặt ngôn ngữ nhưng đã được ưu tiên cho việc sao chép có chủ ý các điều khiển trong các thí nghiệm; các giá trị phản hồi kết quả thường không hoàn toàn giống nhau, đó là phần lớn của điểm.)

mẫu hiếm khi lặp lại

Trong thống kê, một mẫu bao gồm một số giá trị và lấy mẫu lặp lại là một ưu điểm lý thuyết cao, nhưng hiếm khi được thực hành, ngoại trừ bằng mô phỏng, đó là thuật ngữ thông thường của chúng tôi cho bất kỳ loại giả mạo nào trong silico . Trong nhiều ngành khoa học, một mẫu là một vật thể duy nhất, bao gồm một cục, khối hoặc khối nước, đất, trầm tích, đá, máu, mô hoặc các chất khác thay đổi từ hấp dẫn qua lành tính đến kinh tởm; không phải là ngoại lệ, lấy nhiều mẫu có thể cần thiết cho bất kỳ phân tích nghiêm trọng nào. Ở đây thuật ngữ của mọi lĩnh vực có ý nghĩa hoàn hảo với người dân của nó, nhưng đôi khi cần dịch thuật.

lỗi thường không có nghĩa là sai lầm; như Harold Jeffreys đã chỉ ra, ý nghĩa chính là thất thường, không sai lầm.

Tuy nhiên, chúng ta nên cảnh giác với tội lỗi của mình hoặc các thuật ngữ của thuật ngữ:

hồi quy không đi lùi

văn phòng phẩm không có nghĩa là bất động hoặc cố định

sự tự tin không liên quan gì đến trạng thái tinh thần hay tâm lý của bất kỳ ai

ý nghĩa đôi khi chỉ có ý nghĩa hàng ngày của nó

chính xác thường là một thuật ngữ danh dự, đề cập đến một giải pháp hoặc tính toán thuận tiện hơn là một giải pháp phù hợp với vấn đề

phân phối lệch phải cho nhiều người nhìn lệch trái, và ngược lại

các lognormal được gọi như vậy vì nó là một exponentiated bình thường

nhưng lognatural bình thường hơn bình thường

các Gaussian được phát hiện bởi De Moivre

Poisson đã không khám phá ra Poisson , chứ đừng nói đến hồi quy Poisson

các bootstrap sẽ không giúp bạn với giày dép của bạn

các dao nhỏ bỏ túi không cắt

Kurtosis không phải là một điều kiện y tế

lô thân và lá không đề cập đến thực vật

một biến giả là hữu ích, không vô nghĩa hay ngu ngốc

Ai trên trái đất (hoặc bất cứ nơi nào khác) nghĩ rằng tính không đồng nhất thực sự là một thuật ngữ thích hợp hơn so với sự biến đổi không đồng đều ?

mạnh mẽ hiện có ít nhất hai ý nghĩa kỹ thuật chính cho các nhóm khác nhau, không có ý nghĩa nào ngăn cản việc sử dụng thường xuyên của nó, ngay cả trong các cuộc thảo luận kỹ thuật, chỉ có nghĩa là một cái gì đó như "được khẳng định là hành xử tốt"

IV hiện có ít nhất hai ý nghĩa chính cho các nhóm khác nhau

yếu tố hiện có ít nhất hai ý nghĩa chính cho các nhóm khác nhau

chuẩn hóatiêu chuẩn hóa có vô số ý nghĩa (chúng ta thực sự cần phải tiêu chuẩn hóa ở đó)

so với mô tả biểu đồ có nghĩa là biến dọc so với biến ngang , trừ khi nó có nghĩa ngược lại

và (cuối cùng nhưng không kém phần quan trọng, để thống kê một cụm từ) thống kê có ít nhất ba ý nghĩa chính.

Ghi chú:

  1. Mặc dù có vẻ ngoài trái ngược, tôi nghĩ đây là một câu hỏi hay, nghiêm túc.

  2. Thời trang thay đổi. Bước vào thế kỷ XX, dường như nhiều người (không có tên, không có máy khoan, nhưng có thể đề cập đến Karl Pearson) chỉ có thể phát minh ra các thuật ngữ bằng cách tiếp cận từ điển Hy Lạp và Latinh của họ. (Sẽ không công bằng nếu không cho anh ta tín dụng cho âm mưu phân tán .) Nhưng RA Fisher đã chiếm đoạt nhiều từ tiếng Anh có sẵn, bao gồm phương sai , đầy đủ , hiệu quảkhả năng . Gần đây, JW Tukey là một bậc thầy trong việc sử dụng các thuật ngữ giản dị, nhưng ít ai cảm thấy đau khổ vì những mảnh vụn và sự xấu xa không bắt kịp.

  3. Một nhận xét dựa trên hồi ức của "Cuộc sống là [...] Nhân thay vì phụ gia: phân phối bình thường của nhật ký là bình thường hơn so với bình thường." Anon. 1962. Quy tắc làm việc của Bloggins. Trong Good, IJ (Ed.) Nhà khoa học suy đoán: một tuyển tập các ý tưởng được nướng một phần. Luân Đôn: Heinemann, 212-213 (trích dẫn trên tr.213).


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
whuber

Heteroscedasticity hoàn toàn đá hộp mèo! "Biến thiên bất bình đẳng?" [Phuagh!]) (+1 rất tốt nếu không;)
Alexis

1
Có thể đáng để thêm rằng kiểm tra hồi quy thường được sử dụng trong bối cảnh phát triển phần mềm, trong đó, nói rộng ra, nó đề cập đến việc đi ngược lại.
Konrad

@Konrad Thú vị, nhưng sau đó (sửa tôi nếu tôi sai) (a) đó sẽ không phải là sự lạm dụng của từ này và (b) từ đó không có ý nghĩa thống kê.
Nick Cox

@NickCox Đúng.
Konrad

33

Một số điều tôi gặp phải:

  1. Coi mức độ quan trọng và xác suất bảo hiểm CI là có thể hoán đổi cho nhau, để mọi người cuối cùng làm những việc như nói về "ý nghĩa 95%".

    [Điều tồi tệ hơn là khi những người mắc lỗi như vậy chỉ vào ghi chú bài giảng của họ - hoặc thậm chí là sách giáo khoa - là hỗ trợ cho việc này; nói cách khác, lỗi không phải là của họ, nhưng đang bị gộp lại hàng trăm hoặc nhiều nghìn lần, và tệ hơn nữa, ngay cả khi họ hiểu đúng, dù sao họ cũng có thể phải lặp lại lỗi để vượt qua chủ đề.]

  2. Cũng có một xu hướng chung là nghĩ rằng "ý nghĩa" bằng cách nào đó tồn tại bên ngoài một giả thuyết / câu hỏi cụ thể (dẫn đến các câu hỏi như "dữ liệu của tôi có ý nghĩa" mà không có bất kỳ khái niệm rõ ràng nào về câu hỏi sẽ được giải quyết). [Một vấn đề liên quan là "tôi nên sử dụng thử nghiệm nào cho những dữ liệu này?" như thể đó là dữ liệu - chứ không phải là câu hỏi cần trả lời - đó là động lực của sự lựa chọn phân tích. (Mặc dù "thiết kế" của nghiên cứu có thể tác động đến các thử nghiệm cụ thể được sử dụng, câu hỏi quan tâm là quan trọng hơn - ví dụ: nếu bạn có sẵn ba nhóm nhưng câu hỏi về mối quan tâm của bạn chỉ liên quan đến so sánh hai trong số đó, thực tế là bạn có ba không buộc bạn phải thực hiện phân tích loại một chiều thay vì so sánh thẳng giữa hai nhóm lợi ích ... miễn là lựa chọn phân tích của bạn không xuất phát từ những gì dữ liệu hiển thị. Lý tưởng nhất là bạn lên kế hoạch cho các câu hỏi và phân tích của mình trước khi có dữ liệu, thay vì ném phân tích vào dữ liệu và xem những gì gậy, có vẻ như câu hỏi phân tích hậu hoc - bao gồm "tôi nên sử dụng thử nghiệm nào cho những dữ liệu này?" - có xu hướng dẫn đến.)

  3. Một xu hướng thỉnh thoảng đề cập đến sự bổ sung của giá trị p như một loại "niềm tin vào" hoặc "xác suất" thay thế.

  4. "Dữ liệu không theo mẫu"; một cuốn khác không may được tìm thấy trong một vài cuốn sách (và thật đáng buồn, trong một bài viết có mục đích sửa lỗi phổ biến) cuốn này xuất hiện thường xuyên đến nỗi trong danh sách ngắn các bình luận được tạo tự động của tôi (bắt đầu "Dữ liệu không phải là tham số cũng không phải là tham số không đối xứng; đó là những tính từ áp dụng cho các mô hình hoặc kỹ thuật ... ") (cảm ơn Nick Cox đã nhắc nhở tôi về lỗi này đặc biệt)

    Thông thường những gì được dự định là "dữ liệu không bình thường" nhưng tham số không ngụ ý bình thường và việc có tính quy phạm gần đúng không có nghĩa là chúng ta cần các thủ tục tham số. Tương tự, tính không quy tắc không có nghĩa là chúng ta cần các thủ tục không tham số. Đôi khi, những gì được dự định là "dữ liệu thứ tự" hoặc "dữ liệu danh nghĩa" nhưng trong cả hai trường hợp không có nghĩa là các mô hình tham số hữu hạn là không phù hợp.

  5. Một xu hướng phổ biến để hiểu sai ý nghĩa của "tuyến tính" trong "mô hình tuyến tính" theo cách không phù hợp với việc sử dụng thuật ngữ "tuyến tính" trong "mô hình tuyến tính tổng quát". Đây là một phần lỗi của cách chúng tôi sử dụng thuật ngữ.

  6. kết hợp loại độ lệch trung bình trung bình với độ lệch của giây thứ ba và kết hợp một số 0 ở một trong hai (hoặc thậm chí cả hai) với tính đối xứng. Cả hai lỗi thường được tìm thấy trong các văn bản cơ bản được sử dụng rộng rãi trong một số lĩnh vực ứng dụng cụ thể. [Có một lỗi liên quan đến việc điều trị độ lệch bằng 0 và độ nhiễu không quá mức như ngụ ý tính quy tắc]

  7. cái này rất phổ biến, thật khó để gọi nó là một lỗi nữa (một phần do những nỗ lực của một chương trình cụ thể) - gọi kurtosis dư thừa chỉ đơn giản là "kurtosis"; một sai lầm khá nhiều đảm bảo dẫn đến các vấn đề giao tiếp.


2
+1. Tôi muốn nhắc bạn về "dữ liệu không tham số" kỳ cục, thuộc về danh sách này tốt hơn trong danh sách của tôi. Kurtosis dư thừa là một anh chị em xấu xí của Kurtosis thô.
Nick Cox

@Nick Cảm ơn, tôi đã ngồi đây nhìn chằm chằm vào danh sách của mình nói rằng "có một thứ khác thực sự làm tôi khó chịu mà tôi biết thuộc về đây". Đó là một.
Glen_b

3
Một câu hỏi khác là "kiểm tra thống kê" được mở rộng đến mức nó trở thành câu hỏi mở đầu: tôi nên áp dụng thử nghiệm nào cho dữ liệu của mình? thường tin rằng sẽ có một câu trả lời duy nhất ở dạng "Student's t", "Mann-Whitney" hoặc "chi-vuông". Câu trả lời của tôi thường hơn, có lẽ không có gì cả, hoặc chúng tôi phải xem xét kỹ dữ liệu của bạn và thảo luận câu hỏi thực sự của bạn là gì trước khi chúng tôi có thể nghĩ về điều đó.
Nick Cox

@nick Cái đó liên quan mật thiết đến mục của tôi 2. Tôi tự hỏi liệu có cách nào tốt để mở rộng mục đó không.
Glen_b

1
Tôi sợ rằng nhiều văn bản thống kê (xuất hiện) khuyến khích suy nghĩ như vậy.
Nick Cox

31

" Dữ liệu " là số nhiều . (Số ít là "mốc").


2
Bạn có thực sự nói về một mốc thời gian? Thông thường hơn, điểm đó ... giá trị đó ..., quan sát đó ..., ít nhất là ở đây.
Nick Cox

5
Dữ liệu cũng là một Android đơn lẻ, giúp đồng hóa dữ liệu về con người mà anh ta quan sát được để đi đến kết luận dữ liệu dựa trên dữ liệu, thường mang lại hiệu quả hài hước.
Matthew Drury

2
Bạn sẽ phải đi một chặng đường dài để nghe điều đó.
Nick Cox

5
Dữ liệu số nhiều không chỉ yêu cầu sự đồng ý của động từ - "dữ liệu là" chứ không phải "dữ liệu là", mà là của bộ lượng hóa - "nhiều dữ liệu" thay vì "nhiều dữ liệu", "ít dữ liệu" hơn là "ít dữ liệu". Vì vậy, rất ít người quản lý để được nhất quán rằng nó dường như là một nguyên nhân bị mất.
Scortchi

5
Mặc dù nhiều năm (nay là nhiều thập kỷ) chiến đấu với điều này (các giáo viên Latin của tôi sẽ hài lòng), tôi đã có một quan điểm tương tự như @ Scortchi. Nhưng tôi cố gắng sử dụng bộ dữ liệu từ nếu có thể, bị ảnh hưởng đặc biệt bởi các thực tiễn của StataCorp. Điều đó giải quyết một số khó khăn.
Nick Cox

14

Mặc dù không hoàn toàn là một thuật ngữ thống kê, tôi bỏ phiếu để nghỉ hưu tính nội sinh . Nó được sử dụng để chỉ tất cả mọi thứ từ quan hệ nhân quả ngược thông qua bối rối đến lựa chọn và thiên vị máy va chạm, khi tất cả mọi người thực sự muốn làm là nói: "Hiệu ứng đó không được xác định".


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
Glen_b

13

"Hồi quy theo giá trị trung bình" không có nghĩa là nếu chúng ta quan sát thấy một số mẫu iid nhất định dưới giá trị mong đợi, các mẫu iid tiếp theo có thể sẽ cao hơn giá trị mong đợi.


3
+1 Điều này rất quan trọng. Những người đáng chú ý đã bị nhầm lẫn đặc biệt bởi điều này. Chẳng hạn, cuốn sách nổi tiếng của Peter Bernstein về phân tích rủi ro, Chống lại các vị thần . đặc trưng cho hồi quy với giá trị trung bình theo nhiều cách khác nhau - không một trong số chúng đúng.
whuber

10

Tỷ lệ phần trăm so với tỷ lệ phần trăm : Nếu một cái gì đó tăng từ 1% đến 2%, nó tăng 100%. Hoặc: bạn có thể nói rằng nó tăng thêm 1 điểm phần trăm.

Nói rằng mức tăng là 1% là rất sai lệch.


7

Tôi thấy các chữ viết tắt không được chỉ định rõ ràng là một vấn đề thực sự. Ví dụ, tôi thấy những thứ như GLM và không nơi nào được chỉ định nếu điều này có nghĩa là mô hình tuyến tính tổng quát hoặc mô hình tuyến tính tổng quát. Một lần thường có thể tìm ra những gì đang được tham chiếu sau khi đào sâu vào bối cảnh, nhưng tôi thấy điều này đặc biệt rắc rối đối với những sinh viên mới bắt đầu tìm hiểu về các mô hình thống kê.

Một ví dụ khác về điều này là IV. Điều này có nghĩa là biến công cụ hoặc biến độc lập? Thông thường, nó không được làm rõ cho đến khi bạn kiểm tra bối cảnh.

Một cái gì đó khác tôi thấy nhầm lẫn là "người điều hành" và "tương tác." Ngoài ra, dân số (như trong dân số nói chung) và dân số quan tâm dường như gây nhầm lẫn cho sinh viên mới trừ khi nó được làm rất rõ ràng.


5
Tôi cũng đã thấy GLM từng có nghĩa là "Mô hình tuyến tính toàn cầu" bởi một số người trong đám đông học máy. Chỉ để thêm vào sự nhầm lẫn về một thuật ngữ đã quá tải
Glen_b 22/03/2016

1
Tôi một phần ủng hộ câu trả lời / quan sát này. Tôi nghĩ "Tổng quát hóa" (dù đó là gì) nên được viết tắt tốt hơn là Gz, không phải là G. Chẳng hạn như GzLM (mô hình tuyến tính tổng quát).
ttnphns 22/03/2016

2
@ttnphns: một số người trong chúng ta viết chung chung với một s
Henry

Tôi tò mò @ttnphns, phần nào của câu trả lời này bạn không ủng hộ và tại sao? Hoàn toàn có thể tôi có sự hiểu lầm về một cái gì đó, vì vậy tôi muốn biết thêm nếu bạn có bất cứ điều gì để cung cấp thêm. Cảm ơn!
StatsStudent

1
Huh, tôi nghĩ IV có nghĩa là trong ống nghiệm. = P
Mehrdad

7

Một thứ phổ biến trong ngôn ngữ hàng ngày:

Trung bình cộng

Đối với người bình thường ngoài kia (mỉa mai cay đắng hoàn toàn dự định), giá trị trung bình, trung bình, chế độ và giá trị kỳ vọng của bất cứ điều gì dường như là như nhau. Họ có xu hướng tự nhiên để thực hiện ước tính điểm, với giả định vô thức và không thể chấp nhận được rằng có một phân phối bình thường cơ bản. Và giả định vô thức như nhau của một phương sai rất nhỏ. Niềm tin rằng ước tính 1) như vậy tồn tại và 2) sẽ rất hữu ích cho họ, bởi vì họ có thể coi nó như một công cụ dự đoán thực tế, đã ăn sâu đến mức về cơ bản là không thể thuyết phục được họ.

Đối với một ví dụ trong thế giới thực, hãy thử nói chuyện với một đầu bếp đang hỏi "khoai tây có kích thước trung bình là bao nhiêu", hoàn toàn chắc chắn rằng nếu bạn nói với anh ta một số, anh ta sẽ có thể sử dụng số này cho bất kỳ công thức nào chỉ định một số khoai tây, và nó đi ra hoàn hảo mọi lúc. Và tức giận với bạn vì đã cố nói với anh ta "không có con số đó". Đáng buồn thay, nó xảy ra trong các tình huống với cổ phần cao hơn nhiều so với nấu súp.


3
Tôi nghĩ rằng điều này là một chút cường điệu. Ví dụ, hàng triệu người, nếu không phải hàng tỷ người dường như có chút khó khăn với mức trung bình trong thể thao.
Nick Cox

1
@NickCox nó chắc chắn phụ thuộc vào ngữ cảnh. Đặc biệt là việc tính toán trung bình số học cho dữ liệu đã cho là không có vấn đề. Tôi đã thấy những rắc rối cụ thể trong các trường hợp tôi mô tả, trong đó họ cần ước tính điểm và cho rằng "trung bình" là một điểm rất chính xác. Ngoài ra, họ cho rằng "trung bình" này được tính như một giá trị trung bình, nhưng nếu bạn yêu cầu họ giải thích ý nghĩa của chúng trung bình, thì họ mô tả đại khái một chế độ.
rumtscho

@rumtscho, bạn nói đúng. Joe Average có thể có xu hướng nghĩ trung bình là chế độ, hoặc điển hình.
Mark L. Stone

Khi mọi người nói về giá nhà "trung bình" ở Anh, họ không thể cho tôi biết loại trung bình họ đang sử dụng, hoặc nếu loại trừ tiền đã bị loại trừ.
Ian Ringrose

1
Không có gì có nghĩa là không thể được tính toán cho các bản phân phối đa phương thức, chỉ là nó thường không phải là biện pháp tốt nhất để mô tả phân phối. Ngoài ra, tôi không chắc chắn sẽ làm những điều tuyệt vời cho hình ảnh của các nhà thống kê để nói với mọi người "Bạn không biết từ trung bình có nghĩa là gì!" và sau đó khi họ trỏ đến một định nghĩa từ điển, chúng tôi trả lời "Chà, từ điển cũng không!"
Vách đá AB

7

Kurtosis không đo lường "đỉnh cao."

Z4|Z||Z|

* Trừ 3 hoặc không; nó không làm cho sự khác biệt đến thời điểm này


1
ZZ

1
Tôi đã có một giáo sư thống kê Hy Lạp-Cypriot, người đã dạy chúng tôi rằng leptokurtic, trong tiếng Hy Lạp, có nghĩa là "vai hẹp" hoặc "lưng gù". Do đó, phân bố leptokurtic (ví dụ: Laplace hoặc lũy thừa kép) có khối lượng nhỏ hơn Gaussian (có phương sai bằng nhau) trong khu vực "vai" của nó - và khối lượng tương ứng nhiều hơn ở vùng đầu và đuôi. Ngược lại, một phân phối thú mỏ vịt (ví dụ, đồng phục) có khối lượng lớn hơn ở vai và khối lượng ít hơn ở vùng đầu và đuôi, so với bình thường.
Mico

2
Giải thích tốt về các từ, nhưng trong thực tế, chúng không liên quan gì đến thống kê kurtosis mà Pearson đã phát triển. Pearson đã sai, nhưng bằng cách sử dụng những từ Hy Lạp nghe có vẻ lạ mắt đó, anh ta đã khiến người khác nghĩ rằng anh ta đang nói điều gì đó sâu sắc. Đáng buồn thay, lỗi của ông đã làm tổn hại đến giáo dục thống kê và xóa mù chữ trong hơn 100 năm. Xem bài viết của tôi để biết các bản phân phối nhọn ("lepto") trong đó phân bố nhỏ và phân bố phẳng ("platy") trong đó mức độ tổn thương gần vô hạn. Kurtosis của Pearson không cho bạn biết gì về "lepto" hay "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall

5

Phương tiện tuyến tính:

  • y=a+bxy=a+bx+cx2y=axb

  • y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • Tuyến tính có nghĩa là đối lập của năng động . Như trong bất cứ điều gì một biến phụ thuộc là một hàm của, nó không phải là một hàm của các giá trị trước đó của chính nó. Về mặt này, phi tuyến có nghĩa là những thứ như và .yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

Trong đó là biến phụ thuộc, là biến độc lập và và là các tham số trong tất cả các ví dụ trên.x một , b , c , d θyxa,b,c,dθ


5

Câu hỏi là về việc sử dụng các thuật ngữ thống kê mà chúng ta nên CHĂM SÓC để sửa chữa. Tôi đã sửa chữa cho những đứa trẻ hàng ngàn năm của tôi 'sử dụng thuật ngữ' ngẫu nhiên 'để có nghĩa là những điều trái ngược với ngẫu nhiên trong 10 năm nay. Xem xét có bao nhiêu thực tập sinh của tôi đấu tranh để tạo ra một mẫu dữ liệu ngẫu nhiên thực sự ngẫu nhiên, điều này đã xảy ra ngay cả trước khi sử dụng từ này, sự xáo trộn của thuật ngữ này trong tiếng lóng hàng ngày là một khủng hoảng.

Từ OnlineSlangDixi:

Definition of random


random

adjective
  • bất ngờ và ngạc nhiên
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • bất ngờ tuyệt vời.
    The party was totally random.
    

4

Đã có quá nhiều ví dụ tuyệt vời được đề cập bởi Glen và Nick ... không còn nhiều!

Một số khía cạnh của hồi quy

  • thuật ngữ lỗi và phần dư (điều này hơi buồn cười khi mọi người tự hào rằng phần dư của họ không tương thích với các biến hồi quy)

  • dự đoán và ước tính (chúng ta thậm chí có nên ngừng phân biệt khi chúng về các hiệu ứng ngẫu nhiên dự đoán không?)

  • dự đoán / khoảng dự báo so với khoảng tin cậy. Tôi nghĩ rằng có một xác suất> 0,5 để trích dẫn sai.

  • hồi quy (cột trong ma trận thiết kế) so với covariable et al. Đặc biệt là trong các tình huống kỹ thuật mà sự khác biệt là cần thiết, nhiều người (bao gồm cả bản thân tôi) có xu hướng không chính xác.


Xin lỗi tôi đang bối rối. Có sự khác biệt giữa dự đoán và ước tính? Bạn có thể giải thích thêm về hai điểm cuối cùng của bạn không? Cảm ơn!
yuqian 30/03/2016

3

Trong môi trường bảo hiểm, đặc biệt, người ta thường sử dụng phương sai để chỉ bất kỳ loại khác biệt nào, thay vì trung bình của sự khác biệt bình phương giữa mỗi điểm dữ liệu và giá trị trung bình của tập dữ liệu.


6
Tôi cũng đã gặp phương sai được sử dụng theo nghĩa khác này, nhưng lưu ý rằng phương sai là một từ tiếng Anh hiện có khi RA Fisher chiếm đoạt nó cho mục đích này vào năm 1918. Vì vậy, đây là một cách sử dụng khác; người thống kê không thể yêu cầu quyền sở hữu của ý nghĩa thực sự.
Nick Cox

3

Bayes

Học sinh học nó có thể không gặp khó khăn khi nói với bạn liệu thứ gì đó "có vẻ" Bayesian, nhưng yêu cầu họ giải quyết vấn đề bằng cách tiếp cận thường xuyên và theo cách tiếp cận của Bayes và họ có thể sẽ thất bại.

Theo kinh nghiệm của tôi, các sinh viên cuối cùng được dạy rằng đó chỉ là một sự khác biệt về triết học, không có ví dụ cụ thể nào cho thấy cùng một vấn đề bị tấn công với cả hai phương pháp.

Bây giờ hãy hỏi họ tại sao một người nào đó có thể sử dụng cách tiếp cận thường xuyên trong ví dụ của họ; rất có thể lời giải thích tốt nhất của họ sẽ là một cái gì đó như "tốt, trở lại thời xưa, máy tính không tồn tại ..."


Bạn có thể chia sẻ lời giải thích của bạn tại sao một người nào đó có thể có một cách tiếp cận thường xuyên? Cảm ơn!
yuqian 30/03/2016

4
@yuqian: Vâng. Đối với tôi, phần quan trọng là bạn làm điều đó khi bạn muốn mọi người đồng ý khách quan với bạn. Phương pháp tiếp cận Bayes yêu cầu phân phối trước, vốn chủ quan và trong các vấn đề trong thế giới thực, không có chính xác khách quan nào trước đó ... điều đó có nghĩa là hai người có thể tính toán các câu trả lời khác nhau cho cùng một vấn đề tùy thuộc vào những gì họ nghĩ là linh mục của họ. Với cách tiếp cận thường xuyên, không có sự mơ hồ như vậy, và điều đó giúp bạn có thể so sánh kết quả của bạn với những người khác một cách khách quan.
Mehrdad

2

Rủi ro

Rủi ro không có nghĩa là xác suất

Rủi ro là tổng chi phí của tất cả các kết quả, mỗi chi phí này nhân với xác suất xảy ra.

Rủi ro thường được cân nhắc với phần thưởng là lợi ích mà chúng ta đang tìm kiếm để đạt được.

Đây là một ví dụ: Kilowatt của bạn chết người như thế nào . Ở đây, rủi ro - số người chết vì các nguồn năng lượng khác nhau - được cân nhắc với phần thưởng - hàng giờ năng lượng được tạo ra bởi các nguồn năng lượng này.

Vì vậy, ví dụ: nguy cơ năng lượng hạt nhân không phải là xác suất xảy ra sự tan vỡ; đó là xác suất xảy ra một cuộc khủng hoảng, nhân với số người chết vì nó, tổng cộng với số người chết vì các hoạt động bình thường nhân với xác suất hoạt động vẫn bình thường.


4
"Rủi ro" không có định nghĩa tiêu chuẩn được chấp nhận rộng rãi. Nhưng, "tổng chi phí [tổn thất] của tất cả các kết quả, mỗi chi phí [tổn thất] nhân với xác suất xảy ra" là định nghĩa của chi phí dự kiến ​​[tổn thất]. Mặt khác, rủi ro thường đề cập đến những sai lệch (bất lợi) so với tổn thất dự kiến. Vì vậy, định nghĩa của bạn là kỳ vọng, trong khi tôi nghĩ các định nghĩa điển hình về đối phó rủi ro với sự phân tán.
A. Webb

Ví dụ, khi chúng tôi mua bảo hiểm, mục đích là để giảm rủi ro (giảm tác động của các sự kiện không thể xảy ra), nhưng chi phí dự kiến thực tế cao hơn cho người được bảo hiểm, sự khác biệt là chi phí và lợi nhuận của công ty bảo hiểm. Các khoản lỗ cực lớn ở đuôi đã được giao dịch với chi phí ổn định hơn cho phí bảo hiểm.
A. Webb

3
@ A.Webb FWIW, Hiệp hội phân tích rủi ro (quốc tế) định nghĩa rủi ro là "Khả năng nhận ra các hậu quả bất lợi, không mong muốn đối với cuộc sống, sức khỏe, tài sản hoặc môi trường của con người; ước tính rủi ro thường dựa trên giá trị dự kiến ​​của xác suất có điều kiện của sự kiện xảy ra nhân với hậu quả của sự kiện đã xảy ra. " Do đó, rủi ro dường như có một định nghĩa chuẩn - và nó cho thấy bạn có quyền phân biệt rủi ro với cách ước tính hoặc đo lường.
whuber

1
P(A)/t

2

Hiệu ứng cố địnhhiệu ứng ngẫu nhiên có thể có nghĩa là những thứ khác nhau cho những người khác nhau. Trong kinh tế lượng, các hiệu ứng cố định thực sự là ngẫu nhiên và khi bạn nghĩ về nó, mọi hiệu ứng trong thống kê là ngẫu nhiên, vì vậy việc đặt tên một cái gì đó ngẫu nhiên không cung cấp bất kỳ thông tin bổ sung có ý nghĩa nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.