Có phải phương sai chỉ hoạt động trên dữ liệu phân phối thông thường (như một thước đo phân tán)?


7

Nó nói trong wikipedia

Vai trò của phân phối chuẩn trong định lý giới hạn trung tâm một phần chịu trách nhiệm cho sự phổ biến của phương sai trong xác suất và thống kê.

Tôi hiểu điều này
khi chúng ta sử dụng phương sai / SD làm thước đo độ phân tán, chúng ta thực sự đang tìm kiếm "tham số tỷ lệ" của phân phối bình thường, vì một biến ngẫu nhiên ngẫu nhiên có khả năng tuân theo phân phối bình thường cho CLT.

Trong trường hợp dữ liệu không được phân phối bình thường, phương sai / SD có còn là thước đo phân tán hợp lý không?

Giả sử dữ liệu được phân phối đồng đều, độ lệch tuyệt đối trung bình dường như là thước đo phân tán tốt hơn phương sai, bởi vì nó có thể được xem là "tham số tỷ lệ" cho phân bố đồng đều, phải không?



Ý tôi là cập nhật , giả sử tôi có hai bộ mẫu, một bộ {1,1,1,-1,-1,-1}và mẫu kia được lấy từ phân phối bình thường , phương sai của chúng là cả 1. Hai bộ sẽ được coi là có cùng mức độ phân tán nếu chúng ta sử dụng phương sai làm thước đo.N(0,1)

Nhưng có cảm giác như chúng ta đang đối xử mạnh mẽ với cả hai như Gaussian sau đó tìm ra các tham số phân phối và nói "vâng, chúng bằng nhau về độ phân tán".


1
Theo cách bạn có nghĩa là "làm việc" trong tiêu đề? Làm việc gì? Trong việc ước tính phương sai dân số, hay cái gì khác? Đo như thế nào? Theo nghĩa nào bạn có ý định từ "tốt hơn" trong đoạn cuối? Chính xác hơn là gì? Nếu bạn theo ước tính chênh lệch thấp về chênh lệch trong phân phối đồng đều liên tục chung, tôi sẽ không sử dụng độ lệch tuyệt đối trung bình, nhưng một số chức năng của phạm vi.
Glen_b -Reinstate Monica 2/12/2016

@Glen_b Tôi không chắc có thể hoạt động như một thước đo độ phân tán / độ lệch / chênh lệch, có thể tốt hơn theo nghĩa là quy mô phân phối đồng đều với SD không lớn gấp đôi so với phân phối đồng đều với SD , không phải độ lệch tuyệt đối trung bình chỉ là một chức năng của phạm vi? σ0.5σ
dontloo

Đối với đồng phục, độ lệch tuyệt đối trung bình dân số và độ lệch chuẩn dân số là cả hai chức năng của phạm vi dân số (và ngược lại - nếu bạn biết bất kỳ ai trong số họ bạn biết tất cả những người khác), nhưng độ lệch tuyệt đối trung bình mẫu, sd mẫu và phạm vi mẫu không tốt như nhau trong việc ước tính chúng. Ví dụ: nếu số đo "làm việc" / "lòng tốt" của bạn là phương sai của công cụ ước tính, thì - ít nhất là trong các mẫu lớn - bội số của phạm vi mẫu là cách tốt nhất để ước tính cả ba. Nhưng nếu tiêu chí của bạn cho những gì "tốt" là thay đổi, một cái gì đó khác có thể làm tốt hơn.
Glen_b -Reinstate Monica

1
@Glen_b cảm ơn bạn đã trả lời, tôi nhận thấy rằng "phương sai chỉ là những gì nó được xác định và nó không nhất thiết phải liên quan đến một phân phối cụ thể", ý tôi là, khi nó được sử dụng như một thước đo phân tán, có vẻ như không phải là sự lựa chọn tốt nhất cho các bản phân phối không phải Gaussian (hoặc tương tự).
dontloo

1
Có thể bạn đã liên kết độ lệch chuẩn và phương sai với Gaussian vì mức độ phơi sáng mạnh đầu tiên của bạn là với phân phối Gaussian và các biến đổi của nó, chẳng hạn như phân phối t của Student. Có thể tốt hơn khi nghĩ về phương sai như một đặc điểm như mũi là một đặc điểm của động vật. Nếu nó không có mũi, nó có thể là một cái cây. Chiều cao là một tính năng. Một cái cây có thể cao năm feet, khi nó còn nhỏ, và một con người có thể cao năm feet. Nó là một mô tả của một phân phối, nhưng không phải là mô tả duy nhất của một phân phối.
Dave Harris

Câu trả lời:


6

Câu hỏi của bạn hơi mơ hồ, nhưng không, phương sai không được sử dụng vì sự liên quan của nó với phân phối bình thường. Hầu hết các bản phân phối có ít nhất một giá trị trung bình và phương sai. Một số không có phương sai. Một số có thể có hoặc không có phương sai. Một số không có ý nghĩa và vì vậy không có phương sai.

Chỉ để làm rõ về mặt tinh thần, nếu một bản phân phối có ý nghĩa thì nhưng nếu nó không thì . Đó là nó hấp dẫn không nơi nào và bất kỳ tính toán nào chỉ trôi nổi xung quanh dòng số thực. Nó không có nghĩa gì cả. Điều tương tự cũng đúng nếu bạn tính độ lệch chuẩn cho phân phối không có phân phối. Nó không có ý nghĩa.x¯μ,x¯nothing

Phương sai là một tài sản của một phân phối. Bạn đúng ở chỗ nó có thể được sử dụng để mở rộng vấn đề, nhưng nó sâu sắc hơn thế. Trong một số khung lý thuyết, nó là thước đo cho sự thiếu hiểu biết của chúng ta, hay chính xác hơn là sự không chắc chắn. Ở những người khác, nó đo lường mức độ lớn của một cơ hội hiệu ứng có thể có đối với kết quả.

Mặc dù phương sai là một khái niệm của sự phân tán, nhưng nó là một khái niệm không đầy đủ. Cả hai xiên và kurtosis giải thích thêm về cách phân tán hoạt động trên một vấn đề.

Đối với nhiều vấn đề trong khung suy nghĩ giả thuyết khống, Định lý giới hạn trung tâm làm cho việc thảo luận các vấn đề trở nên đơn giản hơn và do đó, không có gì liên quan giữa phân phối bình thường, với các thuộc tính phân phối được xác định rõ và sử dụng độ lệch chuẩn. Tuy nhiên, điều này đúng với các vấn đề đơn giản hơn những vấn đề phức tạp. Điều này cũng ít đúng với các phương pháp Bayes không sử dụng giả thuyết null và không phụ thuộc vào phân phối lấy mẫu của công cụ ước tính.

Độ lệch tuyệt đối trung bình là một công cụ có giá trị trong các phương pháp miễn phí tham số và phân phối miễn phí, nhưng ít có giá trị hơn cho phân phối đồng đều. Nếu bạn thực sự có phân phối đồng đều giới hạn, thì giá trị trung bình và phương sai được biết đến.

Hãy để tôi cung cấp cho bạn một vấn đề phân phối thống nhất có thể không đơn giản như bạn nghĩ. Hãy xem xét rằng một chiếc xe tăng chiến đấu của kẻ thù mới đã xuất hiện trên chiến trường. Bạn không biết họ có bao nhiêu, chứ đừng nói rằng họ tồn tại. Bạn muốn ước tính tổng số xe tăng.

Xe tăng có số sê-ri trên động cơ của họ, hoặc được sử dụng trước khi ai đó phát hiện ra điều này. Xác suất bắt được bất kỳ một số sê-ri cụ thể nào là trong đó là tổng số xe tăng. Tất nhiên bạn không biết , vì vậy đây là một vấn đề thú vị. Bạn cần biết N. Bạn chỉ có thể thấy phân phối số sê-ri bị bắt và không biết liệu số lớn nhất bị bắt cũng là chiếc xe tăng cuối cùng được chế tạo. Có lẽ là không.1/NNN

Trong trường hợp đó, độ lệch trung bình và độ lệch chuẩn cung cấp các công cụ mạnh nhất để giải quyết vấn đề, mặc dù trực giác rằng độ lệch chuẩn là một công cụ ước tính xấu.

Nó sẽ đúng rằng nó là một công cụ ước tính xấu cho một số vấn đề nhất định, nhưng bạn cần tìm hiểu chúng theo từng trường hợp.

Các công cụ thống kê được lựa chọn dựa trên nhu cầu, quy tắc toán học và sự đánh đổi giữa chi phí và giới hạn trong thế giới thực và yêu cầu của vấn đề. Đôi khi đó là phương sai, nhưng đôi khi không. Điều tốt nhất để làm là tìm hiểu lý do tại sao các quy tắc được thiết kế theo cách của họ và đó là quá dài cho một bài đăng ở đây.

Tôi muốn giới thiệu một cuốn sách thực hành tốt về thống kê phi tham số và nếu bạn đã tính toán một cuốn sách thực hành giới thiệu tốt về phương pháp Bayes.


1
Liên quan đến Vấn đề xe tăng Đức, trong trường hợp ai đó thích cả lịch sử, xe tăng và số liệu thống kê: en.wikipedia.org/wiki/German_tank_probols
Beyer

cảm ơn bạn rất nhiều vì câu trả lời, chỉ là tôi đã không làm theo cách SD của các mẫu giúp ích trong vấn đề xe tăng Đức? Tôi chỉ thấy việc sử dụng SD của ước tính (từ liên kết ở trên).
dontloo

4
  1. Trước tiên, chúng ta cần phải rõ ràng về sự khác biệt giữa thước đo độ biến thiên của phân phối (chẳng hạn như độ lệch chuẩn hoặc độ lệch trung bình hoặc phạm vi của nó) và cách tốt nhất để ước tính số đo đó từ một mẫu. Ví dụ: nếu phân phối của bạn là đồng nhất, ước tính mẫu tốt nhất về độ lệch trung bình dân số so với giá trị trung bình không phải là độ lệch trung bình mẫu - thực ra một phần của phạm vi thường tốt hơn nhiều.

    (Tất nhiên nếu bạn thực sự không biết phân phối nào bạn có thể xử lý, những cân nhắc như vậy có thể không giúp ích nhiều.)

  2. Vậy tại sao đo lường sự thay đổi dân số theo phương sai?

    Phương sai (và thông qua nó, độ lệch chuẩn) có một thuộc tính rất đặc biệt không được chia sẻ bởi các biện pháp biến đổi khác, đây là một hình thức rất đơn giản cho phương sai của tổng (và nói chung là kết hợp tuyến tính) của các biến.

    Khi bạn có sự độc lập, hình thức đơn giản sẽ trở nên đơn giản hơn nhiều.

    Cụ thể, dưới tính độc lập, và do đó độ lệch chuẩn cũng khá đơn giản về hình thức. Trường hợp không độc lập không phức tạp hơn nhiều.Var(X+Y)=Var(X)+Var(Y)

    Các biện pháp khác của tính biến đổi không có một tài sản đơn giản như vậy.

    Điều này làm cho phương sai (và do đó độ lệch chuẩn) rất hấp dẫn để đo lường mức độ biến đổi của phân phối.

  3. Lý do thứ hai là giá trị trung bình (thường được xem là thước đo vị trí tự nhiên) là vị trí giảm thiểu hàm mất lỗi vuông - và khi bạn giảm thiểu nó, bạn có được phương sai. Nhiều người thấy hàm mất lỗi vuông là tự nhiên hoặc hữu ích, và trong trường hợp đó, phương sai lần lượt trở thành thước đo biến đổi tự nhiên.


Nhưng tôi luôn hiểu ý nghĩa thống kê của mất lỗi bình phương là tối đa hóa khả năng ghi nhật ký theo giả định nhiễu Gaussian, một lần nữa xuất phát từ CLT.
dontloo

Vì vậy, sự phổ biến của phương sai chủ yếu là vì sự thuận tiện toán học của nó?
dontloo

1
@dontloo Để trả lời một câu hỏi theo cách đó sẽ đòi hỏi sự đầu cơ, tính linh hoạt là một lý do để sử dụng phương sai. Bạn đang yêu cầu tôi đưa ra yêu cầu mà tôi không có đủ bằng chứng (có nhiều lý do - bao gồm cả một số lý do tôi chưa liệt kê, chẳng hạn như mức độ sai lệch hiện trạng - nhưng để khẳng định đó là nguyên nhân chính nguyên nhân sẽ yêu cầu bằng chứng tôi không sở hữu). Tôi đoán rằng những lý do 2 và 3 ở trên là những lý do mạnh mẽ cho sự phổ biến và những lý do đủ khả năng.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.