Các giá trị tương đối của dữ liệu Winsorizing so với cắt tỉa là gì?

31

Winsorizing data có nghĩa là thay thế các giá trị cực đoan của một tập dữ liệu bằng một giá trị phần trăm nhất định từ mỗi đầu, trong khi Cắt xén hoặc Cắt xén liên quan đến việc loại bỏ các giá trị cực đoan đó.

Tôi luôn thấy cả hai phương pháp được thảo luận là một lựa chọn khả thi để giảm bớt ảnh hưởng của các ngoại lệ khi tính toán các số liệu thống kê như độ lệch trung bình hoặc độ lệch chuẩn, nhưng tôi không hiểu tại sao người ta có thể chọn cái khác.

Có bất kỳ lợi thế hoặc bất lợi tương đối để sử dụng Winsorizing hoặc Cắt tỉa? Có những tình huống nhất định trong đó một phương pháp sẽ được ưa thích hơn? Là một người được sử dụng thường xuyên hơn trong thực tế hoặc về cơ bản chúng có thể thay thế cho nhau?

— Brian
nguồn

2

Thuật ngữ ở đây là sai lệch. Cắt tỉa có nghĩa là bỏ qua các giá trị cực đoan, một số phần trong mỗi đuôi. Điều đó không bao hàm việc xóa hoặc giảm các giá trị trong các đuôi, không chỉ bởi vì bạn có thể, và thường nên đưa chúng vào các phân tích khác. Thuật ngữ cắt ngắn được dành riêng cho các ý nghĩa khác. Xem ví dụ: en.wikipedia.org/wiki/Truncation_(statistic)

— Nick Cox

11

Trong một câu hỏi khác, nhưng có liên quan về việc cắt tỉa mà tôi vừa vấp phải, một câu trả lời có cái nhìn sâu sắc hữu ích sau đây về lý do tại sao người ta có thể sử dụng chiến thắng hoặc cắt tỉa:

Nếu bạn thực hiện phân phối được cắt xén, bạn tuyên bố rõ ràng: Tôi không quan tâm đến các ngoại lệ / đuôi của phân phối. Nếu bạn tin rằng "ngoại lệ" thực sự là ngoại lệ (nghĩa là chúng không thuộc về phân phối, nhưng thuộc "loại khác") thì hãy cắt tỉa. Nếu bạn nghĩ rằng chúng thuộc về phân phối, nhưng bạn muốn có một phân phối ít sai lệch hơn, bạn có thể nghĩ về chiến thắng.

Tôi tò mò nếu có một cách tiếp cận dứt khoát hơn, nhưng logic trên có vẻ hợp lý.

— Brian
nguồn

4

Một câu hỏi hay được đối mặt rất thường xuyên trong tất cả các lĩnh vực! Trong cả hai trường hợp, bạn đang loại bỏ chúng khỏi bộ dữ liệu.

Tôi biết đó là một thực tế phổ biến khi cố gắng tìm một xu hướng đồ họa để sử dụng một hình thức cắt ngắn: sử dụng toàn bộ tập dữ liệu cho mục đích vẽ, nhưng sau đó loại trừ các giá trị cực đoan cho việc giải thích.

Vấn đề với 'winorizing' là các phần bạn thêm vào sẽ tự điền, nghĩa là chúng bắt nguồn từ chính tập dữ liệu và vì vậy chỉ cần hỗ trợ nó. Có những vấn đề tương tự nếu bạn nhìn vào công việc xác thực / phân loại chéo trong học máy, khi quyết định sử dụng tập dữ liệu kiểm tra và huấn luyện.

Tôi đã không bắt gặp một cách tiếp cận tiêu chuẩn hóa trong mọi trường hợp - đó luôn là dữ liệu cụ thể. Bạn có thể thử tìm hiểu phần trăm dữ liệu của bạn (các ngoại lệ) đang gây ra một tỷ lệ phần trăm biến động / st nhất định. độ lệch và tìm sự cân bằng giữa việc giảm độ biến động đó nhưng giữ lại càng nhiều dữ liệu càng tốt.

— n1k31t4
nguồn

6

Như trong nhận xét của tôi ở trên, "loại bỏ chúng khỏi tập dữ liệu" quá mạnh ở đây. Cắt xén hoặc Winsorizing chỉ có nghĩa là những gì nó làm, bỏ qua hoặc thay thế như có thể, cho một tính toán nhất định. Bạn không bắt buộc phải xóa các giá trị đuôi khỏi bộ dữ liệu, như thể bạn đang ném trái cây thối. Ví dụ, đối mặt với các ngoại lệ có thể xảy ra, bạn có thể thực hiện phân tích dữ liệu khi chúng đến và phân tích dựa trên việc cắt xén và xem sự khác biệt của nó.

— Nick Cox

-1

Đây là một câu hỏi hay, và tôi đã phải đối mặt. Trong trường hợp bạn có một tập dữ liệu lớn hoặc chính xác hơn là một tập dữ liệu khác nhau, trong đó thiểu số các giá trị dữ liệu khác nhau trên một phạm vi rộng (tuy nhiên bắt buộc phải được hiển thị) và phần lớn các tập dữ liệu nằm trong một dải hẹp, sao cho nếu dữ liệu được vẽ như hiện tại, các chi tiết bị mất phần lớn dữ liệu bị mất và chuẩn hóa hoặc tiêu chuẩn hóa không hiển thị sự khác biệt đầy đủ (ít nhất là về mặt trực quan), hoặc thay vào đó là dữ liệu thô, sau đó cắt hoặc thắng giá trị dữ liệu cực giúp hình dung dữ liệu tốt hơn.

— khách
nguồn

Đó là một câu hỏi hay, nhưng bạn không trả lời nó. Bạn chỉ cần nói rằng cắt ngắn hoặc Winsorizing có thể giúp hình dung.

— Nick Cox

-2

$O(n \log n)$ $O(n)$ $(1,2,3,4,4)$ $(2+2+3+4+4)/5$ $(2+3+4)/3$ $(2+3+4+4)/4$

— Đánh dấu Lakata
nguồn

1

Đây không phải là trường hợp bạn cần sắp xếp tất cả dữ liệu để tính toán trung vị (đúng như trung bình như bạn muốn), cũng không đúng vì đó là một

O (n \log n)

$O(n\log n)$ tính toán để tìm nó. Có các thuật toán để tìm trung vị

O (n)

$O(n)$ (trường hợp xấu nhất). [Hơn nữa, nếu chọn nhanh có thể tìm thấy phần trăm thứ 25 và 75 trong O (n) như bạn nói, tại sao chọn nhanh không thể tìm phần trăm thứ 50 theo cùng một thứ tự?]

— Glen_b -Reinstate Monica

Bạn nói đúng. Tôi nhập sai bài viết gốc của tôi. Đôi khi các ngón tay gõ và não không đồng bộ. Tôi muốn nói để tính toán chính xác một trung bình rút gọn thực sự , bạn cần sắp xếp tất cả các yếu tố dữ liệu. Tôi tin rằng điều này vẫn đúng. Tôi đã cập nhật bằng câu trả lời.

— Đánh dấu Lakata

2

Điều này dường như ngụ ý rằng Winsorizing có nghĩa là Winsorizing 25% ở mỗi đuôi. Bạn có thể Winsorize nhiều hoặc ít như có vẻ phù hợp.

— Nick Cox