Làm thế nào tôi có thể giải thích một âm mưu của tỷ lệ phần trăm so với cắt tỉa có nghĩa là?


12

Đối với một phần của câu hỏi bài tập về nhà, tôi được yêu cầu tính trung bình cắt cho một tập dữ liệu bằng cách xóa quan sát nhỏ nhất và lớn nhất, và để giải thích kết quả. Giá trị trung bình cắt thấp hơn giá trị trung bình chưa được đánh giá.

Giải thích của tôi là điều này là do phân phối cơ bản bị lệch dương, do đó đuôi bên trái dày hơn đuôi phải. Do sự sai lệch này, việc loại bỏ một mốc dữ liệu cao sẽ kéo giá trị trung bình xuống nhiều hơn là loại bỏ mức thấp đẩy nó lên, bởi vì, nói một cách không chính thức, có nhiều dữ liệu thấp hơn "đang chờ để thay thế". (Điều này có hợp lý không?)

Sau đó, tôi bắt đầu ngạc nhiên như thế nào tỷ lệ cắt tỉa ảnh hưởng này, vì vậy tôi đã tính toán tỉa bình cho nhiều k = 1 / n , 2 / n , ... , ( nx¯tr(k)k= =1/n,2/n,Giáo dục,(n2-1)/nÂm mưu của tỷ lệ phần trăm cắt so với trung bình cắt;  tạo thành một đường cong lõm trông gần như parabol

kn= =11

Là loại biểu đồ này có một tên, hoặc nó thường được sử dụng? Thông tin nào chúng ta có thể lượm lặt được từ biểu đồ này? Có một giải thích tiêu chuẩn?


Để tham khảo, dữ liệu là: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

Câu trả lời:


11

@gung và @kjetil b. halvorsen đều đúng.

Tôi đã tìm thấy các biểu đồ như vậy trong

Rosenberger, JL và M. Gasko. 1983. So sánh các công cụ ước tính vị trí: Phương tiện cắt xén, trung vị và trimean. Trong Hiểu mạnh mẽ và phân tích dữ liệu thăm dò , biên soạn. DC Hoaglin, F. Mosteller và JW Tukey, 297 Từ338. New York: Wiley.

Davison, AC và DV Hinkley. 1997. Phương pháp Bootstrap và ứng dụng của chúng. Cambridge: Nhà xuất bản Đại học Cambridge.

và cho thêm ví dụ trong

Cox, NJ 2013. Cắt tỉa theo sở thích. Tạp chí Stata 13: 640 Từ666. http://www.stata-journal.com/article.html?article=st0313 [truy cập miễn phí vào pdf]

trong đó thảo luận về nhiều khía cạnh của phương tiện cắt tỉa.

Theo tôi biết, biểu đồ không có tên riêng biệt. Một cái tên khác biệt cho mọi cốt truyện có thể thực sự sẽ là một cơn ác mộng nhỏ: thuật ngữ đồ họa đã là một mớ hỗn độn khủng khiếp. Tôi chỉ gọi nó là một âm mưu có nghĩa là cắt bớt so với số, phần hoặc phần trăm được cắt bớt (do đó đảo ngược cách diễn đạt của OP).

Để biết thêm những bình luận nhỏ về "so với", hãy xem câu trả lời của tôi trong Heteroscedasticity in Regression

EDIT: Để biết thêm về so với (chỉ ngôn ngữ ngôn ngữ), xem tại đây .


10

Tôi chưa bao giờ nghe về biểu đồ này, nhưng tôi nghĩ nó khá gọn gàng; có lẽ ai đó đã làm điều này trước đây Những gì bạn có thể làm với nó là xem mức độ dịch chuyển trung bình và / hoặc ổn định nếu bạn coi các tỷ lệ khác nhau của dữ liệu của mình là ngoại lệ. Lý do mà bạn có được hình dạng parabol là phân phối (ban đầu) của bạn bị lệch hoàn toàn, nhưng mức độ lệch không giống nhau ở trung tâm phân phối. Để so sánh, hãy xem xét các ô mật độ hạt nhân dưới đây.

nhập mô tả hình ảnh ở đây

Bên trái là dữ liệu của bạn khi chúng được cắt từng cái một. Bên phải là những dữ liệu này : y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416), là các lượng tử của phân phối logic bất thường tiêu chuẩn được lấy từ các phần trăm cách đều nhau và nhân với 20 để làm cho phạm vi của các giá trị tương tự nhau.

Dữ liệu của bạn bắt đầu bị lệch phải, nhưng ở hàng 5, chúng bị lệch trái, do đó, việc cắt xén nhiều dữ liệu hơn sẽ mang lại giá trị trung bình. Dữ liệu bên phải duy trì độ lệch tương tự khi quá trình cắt tỉa tiếp tục.

Dưới đây là âm mưu của bạn cho dữ liệu logic và dữ liệu thống nhất ( z = 1:11, không bị lệch - đối xứng hoàn hảo).

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây


4

Tôi không nghĩ loại biểu đồ này có tên, nhưng những gì bạn đang làm là hợp lý, và tôi nghĩ, hợp lệ. Tôi nghĩ những gì bạn đang làm có liên quan đến chức năng Ảnh hưởng của Hampel, xem https://en.wikipedia.org/wiki/Robust_statistic#Empirical_influence_feft, đặc biệt là phần về chức năng ảnh hưởng theo kinh nghiệm. Và cốt truyện của bạn chắc chắn có thể liên quan đến một số đo độ lệch của dữ liệu, vì, nếu dữ liệu của bạn đối xứng hoàn hảo, cốt truyện sẽ phẳng. Bạn nên điều tra mà!

            EDIT     

Một phần mở rộng của âm mưu này là cũng cho thấy hiệu quả của việc sử dụng các cách cắt khác nhau ở bên trái và bên phải. Vì điều này không được thực hiện trong meanhàm thông thường với đối số trimtrong R, tôi đã viết hàm trung bình được cắt xén của riêng tôi. Để có được một âm mưu mượt mà hơn, tôi sử dụng phép nội suy tuyến tính khi phần cắt xén ngụ ý loại bỏ một số điểm không nguyên. Điều này cung cấp cho chức năng:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Sau đó, tôi mô phỏng một số dữ liệu và hiển thị kết quả dưới dạng một đường viền:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

đưa ra kết quả này:

biểu đồ đường viền cho thấy hiệu quả của việc cắt tỉa

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.