Làm thế nào để sử dụng các ô vuông để tìm điểm mà các giá trị có nhiều khả năng đến từ các điều kiện khác nhau?


7

Tôi đã vẽ một số dữ liệu bằng cách sử dụng các ô vuông. Tôi đang so sánh các giá trị Điều kiện 1 (trái) và Điều kiện 2 (Phải). Mục đích của tôi là tìm một điểm mà tại đó chúng tôi đưa ra quyết định trong đó giá trị thay đổi từ điểm Điều kiện 1 sang Điều kiện 2.

Kết luận này có hợp lý không, nếu tôi nói nếu tôi làm lại thí nghiệm và nhận được bất kỳ giá trị nào so với trung vị của Điều kiện 1, thì có khả năng giá trị đó sẽ là Điều kiện 2?

Hoặc có cách nào khác để tôi có thể trình bày dữ liệu này để đưa ra kết luận rằng nếu tôi nhận được giá trị ngẫu nhiên tôi có thể nói nếu đó là từ điều kiện 1 hoặc điều kiện 2 không?

Dữ liệu được trình bày dưới dạng mã cho đầu vào R:

Cond.1 <- c(2.9, 3.0, 3.1, 3.1, 3.1, 3.3, 3.3, 3.4, 3.4, 3.4, 3.5, 3.5, 3.6, 3.7, 3.7,
            3.8, 3.8, 3.8, 3.8, 3.9, 4.0, 4.0, 4.1, 4.1, 4.2, 4.4, 4.5, 4.5, 4.5, 4.6,
            4.6, 4.6, 4.7, 4.8, 4.9, 4.9, 5.5, 5.5, 5.7)
Cond.2 <- c(2.3, 2.4, 2.6, 3.1, 3.7, 3.7, 3.8, 4.0, 4.2, 4.8, 4.9, 5.5, 5.5, 5.5, 5.7,
            5.8, 5.9, 5.9, 6.0, 6.0, 6.1, 6.1, 6.3, 6.5, 6.7, 6.8, 6.9, 7.1, 7.1, 7.1,
            7.2, 7.2, 7.4, 7.5, 7.6, 7.6, 10, 10.1, 12.5)

Mỗi điều kiện có 39 giá trị.

boxplot của dữ liệu

Câu trả lời:


12

@NickCox đã trình bày một cách tốt để trực quan hóa dữ liệu của bạn. Tôi lấy nó mà bạn muốn tìm một quy tắc để quyết định khi nào nên phân loại một giá trị là condition1 so với condition2.

Trong phiên bản trước của câu hỏi của bạn, bạn tự hỏi liệu bạn có nên gọi bất kỳ giá trị nào lớn hơn giá trị trung bình của điều kiện1 là thành viên của điều kiện2 không. Đây không phải là một quy tắc tốt để sử dụng. Lưu ý rằng theo định nghĩa, phân phối nằm trên trung vị. Do đó, bạn nhất thiết sẽ phân loại sai số thành viên condition1 thực sự. Dựa trên dữ liệu của bạn, tôi tập hợp bạn cũng sẽ phân loại sai thành viên điều kiện2 thực sự của bạn. 50%50%18%

Một cách để suy nghĩ về giá trị của một quy tắc như của bạn là hình thành một ma trận nhầm lẫn . Trong R, bạn có thể sử dụng ? ConfMaxMatrix trong gói caret . Dưới đây là một ví dụ sử dụng dữ liệu của bạn và quy tắc được đề xuất của bạn:

library(caret)

dat  = stack(list(cond1=Cond.1, cond2=Cond.2))
pred = ifelse(dat$values>median(Cond.1), "cond2", "cond1")
confusionMatrix(pred, dat$ind) 
# Confusion Matrix and Statistics
# 
#           Reference
# Prediction cond1 cond2
#      cond1    20     7
#      cond2    19    32
# 
#                Accuracy : 0.6667          
# ...       
#                                           
#             Sensitivity : 0.5128          
#             Specificity : 0.8205          
#          Pos Pred Value : 0.7407          
#          Neg Pred Value : 0.6275          
#              Prevalence : 0.5000          
#          Detection Rate : 0.2564          
#    Detection Prevalence : 0.3462          
#       Balanced Accuracy : 0.6667          

Tôi cá là chúng ta có thể làm tốt hơn.

Một cách tiếp cận tự nhiên là sử dụng mô hình GIỎ HÀNG ( cây quyết định ), mà (khi chỉ có một biến) chỉ đơn giản là tìm thấy sự phân chia tối ưu. Trong R, bạn có thể làm điều đó với ? Ctree từ gói tiệc .

library(party)

cart.model = ctree(ind~values, dat)
windows()
  plot(cart.model)

Cốt truyện (cây quyết định)

Bạn có thể thấy rằng mô hình sẽ gọi một giá trị là "condition1" nếu nó là và "condition2" nếu không (lưu ý rằng trung vị của điều là ). Đây là ma trận nhầm lẫn: 5.73.9

confusionMatrix(predict(cart.model), dat$ind)
# Confusion Matrix and Statistics
# 
#           Reference
# Prediction cond1 cond2
#      cond1    39    15
#      cond2     0    24
#     
#                Accuracy : 0.8077          
# ...       
#                                           
#             Sensitivity : 1.0000          
#             Specificity : 0.6154          
#          Pos Pred Value : 0.7222          
#          Neg Pred Value : 1.0000          
#              Prevalence : 0.5000          
#          Detection Rate : 0.5000          
#    Detection Prevalence : 0.6923          
#       Balanced Accuracy : 0.8077          

Quy tắc này mang lại độ chính xác , thay vì . Từ cốt truyện và ma trận nhầm lẫn, bạn có thể thấy rằng các thành viên condition1 thực sự không bao giờ bị phân loại sai thành condition2. Điều này rơi ra khỏi việc tối ưu hóa tính chính xác của quy tắc và giả định rằng cả hai loại phân loại sai đều xấu như nhau; bạn có thể điều chỉnh quy trình điều chỉnh mô hình nếu điều đó không đúng. 0.80770.6667


Mặt khác, tôi sẽ cảm thấy hối hận nếu tôi không chỉ ra rằng một bộ phân loại nhất thiết phải loại bỏ rất nhiều thông tin và thường không tối ưu (trừ khi bạn thực sự cần phân loại). Bạn có thể muốn mô hình hóa dữ liệu để có thể có xác suất giá trị sẽ là thành viên của điều kiện2. Hồi quy logistic là sự lựa chọn tự nhiên ở đây. Lưu ý rằng vì condition2 của bạn trải rộng hơn nhiều so với condition1, tôi đã thêm một thuật ngữ bình phương để cho phép phù hợp với đường cong:

lr.model = glm(ind~values+I(values^2), dat, family="binomial")
lr.preds = predict(lr.model, type="response")
ord      = order(dat$values)
dat      = dat[ord,]
lr.preds = lr.preds[ord]

windows()
  with(dat, plot(values, ifelse(ind=="cond2",1,0), 
                 ylab="predicted probability of condition2"))
  lines(dat$values, lr.preds)

dự đoán xác suất của điều kiện 2

Điều này rõ ràng cung cấp cho bạn nhiều hơn, và tốt hơn, thông tin. Bạn không nên bỏ đi thông tin bổ sung trong xác suất dự đoán của mình và phân chia chúng thành các phân loại, nhưng để so sánh với các quy tắc ở trên, tôi có thể chỉ cho bạn ma trận nhầm lẫn xuất phát từ mô hình hồi quy logistic của bạn:

lr.class = ifelse(lr.preds<.5, "cond1", "cond2")
confusionMatrix(lr.class, dat$ind)
# Confusion Matrix and Statistics
# 
#           Reference
# Prediction cond1 cond2
#     cond1    36     8
#     cond2     3    31
# 
#                Accuracy : 0.859           
# ...
# 
#             Sensitivity : 0.9231          
#             Specificity : 0.7949          
#          Pos Pred Value : 0.8182          
#          Neg Pred Value : 0.9118          
#              Prevalence : 0.5000          
#          Detection Rate : 0.4615          
#    Detection Prevalence : 0.5641          
#       Balanced Accuracy : 0.8590          

Độ chính xác bây giờ là , thay vì . 0.8590.8077


@gung Đó là phản hồi tuyệt vời, tôi chỉ không hiểu biểu đồ xác suất cuối cùng tức là "xác suất dự đoán của điều kiện2". Bạn có thể vui lòng cho tôi biết về nó không
Umar

@Umar, đó chỉ là một âm mưu của dữ liệu của bạn và dự đoán từ mô hình hồi quy logistic. Nếu bạn không quen thuộc với w / LR, nó sẽ tìm thấy xác suất dự đoán rằng phản hồi là điều kiện2 cho mỗi giá trị đầu vào có thể. Bạn có thể đọc thêm về LR trong các chủ đề được gắn thẻ theo logistic ; một số câu trả lời của tôi có thể giúp bạn là 1 , 23 .
gung - Phục hồi Monica

Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
gung - Phục hồi Monica

11

nhập mô tả hình ảnh ở đây

Đây là một trong nhiều khả năng. Trở lại năm 1979, Emanuel Parzen đề nghị lai ghép âm mưu lượng tử và âm mưu hộp. Một số tài liệu tham khảo được đưa ra dưới đây. Rõ ràng, hộp của ô hộp hiển thị trung vị và tứ phân, chỉ là các lượng tử chính. Hiển thị tất cả dữ liệu, cụ thể là tất cả các số liệu thống kê lượng tử hoặc thứ tự, hoàn toàn có thể, ít nhất là với một số lượng nhỏ các nhóm (như trong chuỗi này) và số lượng quan sát nhỏ hoặc vừa phải (như trong luồng này). Trong thực tế, thiết kế mở rộng khá tốt đến kích thước mẫu lớn hơn. Các ngoại lệ, độ chi tiết, mối quan hệ, nhóm và khoảng cách (bất kỳ cách nào bạn muốn nghĩ về các tính năng như vậy) luôn luôn rõ ràng cũng như mức độ chung, sự lây lan và hình dạng. Biểu đồ không chịu sự tạo tác hoặc tác dụng phụ của các quy tắc ngón tay cái tùy ý như những gì có hoặc không nằm trong 1,5 IQR của phần tư gần hơn. Ngược lại,

Thật hợp lý khi chỉ ra rằng các ô lượng tử chỉ là các ô phân phối tích lũy với các trục được đảo ngược, mặc dù chúng thường được hiển thị dưới dạng các mẫu điểm hơn là các đường được kết nối.

Cox (2012) đã báo cáo một triển khai Stata và stripplot(người dùng Stata có thể tải xuống từ SSC) cung cấp một triển khai khác. Việc thực hiện nên không quan trọng trong bất kỳ phần mềm thống kê hoặc toán học chính nào.

Tôi nghĩ loại màn hình này cung cấp nhiều chi tiết hơn so với cốt truyện hộp thông thường, ở đây không khai thác triệt để không gian có sẵn. Một biểu đồ hộp thông thường có thể hữu ích cho 10 - 100 nhóm hoặc biến, trong đó có thể cần giảm dữ liệu nghiêm trọng, nhưng nó đưa ra cấu trúc tốt có thể thú vị cho trường hợp vài nhóm hoặc vài biến chung.

Một ưu điểm quan trọng khác của biểu đồ này là nó lặp lại thực tế cơ bản nhưng cơ bản là chỉ bằng một nửa giá trị bên trong hộp, do đó, một nửa giá trị nằm ngoài hộp (và thường là một nửa thú vị nhất hoặc quan trọng hơn). Tôi đã từng nhìn thấy những người thống kê có kinh nghiệm bị đánh lừa bởi sự tương phản rõ rệt giữa hộp mỡ và râu ria mỏng. Hình minh họa cổ điển của điều này là bất kỳ phân phối hình chữ U hoặc bất kỳ phân phối nào có hai cụm lớn có kích thước xấp xỉ bằng nhau. Hộp sau đó sẽ dài và mập và râu ria ngắn và mỏng. Mọi người thường bỏ lỡ thực tế rằng những người râu ria như vậy đang che giấu mật độ cao nhất. Tukey (1977) đã đưa ra một ví dụ về điều này với dữ liệu của Rayleigh.

Trong trường hợp này và trong nhiều trường hợp khác, thang logarit được sử dụng. Về nguyên tắc, biểu đồ hộp lượng tử dễ dàng tương thích với bất kỳ phép biến đổi đơn điệu nào, vì phép biến đổi của các lượng tử giống hệt với các lượng tử của các giá trị được biến đổi. (Có một số bản in nhỏ đủ điều kiện, phát sinh vì trung bình và các phần tư có thể được tạo ra bằng cách lấy trung bình các thống kê đơn hàng liền kề, thường không cắn.)

Tôi không cung cấp bất kỳ loại thay thế đồ họa nào cho một bài kiểm tra quan trọng. Đây là một thiết bị thăm dò.

Cox, NJ 2012. Thực hành trục hoặc những gì diễn ra trên biểu đồ. Tạp chí Stata 12 (3): 549-561. .pdf có thể truy cập tại đây

Parzen, E. 1979a. Mô hình dữ liệu thống kê phi trắc nghiệm. Tạp chí, Hiệp hội Thống kê Hoa Kỳ 74: 105-121.

Parzen, E. 1979b. Một phối cảnh hàm mật độ - lượng tử về ước lượng mạnh mẽ. Trong Launer, RL và GN Wilkinson (Eds) Sự mạnh mẽ trong thống kê. New York: Nhà xuất bản học thuật, 237-258.

Parzen, E. 1982. Mô hình hóa dữ liệu bằng các hàm lượng tử và mật độ - lượng tử. Trong Tiago de Oliveira, J. và Epstein, B. (Eds) Một số tiến bộ gần đây trong thống kê. Luân Đôn: Báo chí học thuật, 23-52.

Tukey, Phân tích dữ liệu khám phá JW . Đọc, MA: Addison-Wesley.


chúng tôi có thể sao chép phân tích (nghĩa là cốt truyện) mà bạn đã tạo không? (bạn có thể bao gồm mã nếu bạn đã vẽ trong R hoặc phần mềm tương tự)
Umar

Cốt truyện được sản xuất với stripplotStata. Tôi không biết nếu bạn cho rằng "tương tự" R. @Glen_b rõ ràng đã sử dụng R cho cùng một loại cốt truyện trong câu trả lời của anh ấy cho stats.stackexchange.com/questions/114744/iêu
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.