Tôi đang cố gắng để hiểu đầu ra của hàm kiểm tra Kolmogorov-Smirnov (hai mẫu, hai mặt). Đây là một bài kiểm tra đơn giản.
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
Có một vài điều tôi không hiểu ở đây.
Từ sự giúp đỡ , dường như giá trị p đề cập đến giả thuyết
var1=var2
. Tuy nhiên, ở đây có nghĩa là thử nghiệm nói (p<0.05
):a. Không thể nói rằng
X = Y
;b. Có thể nói rằng
X = Z
;c. Không thể nói rằng
X = X
(!)
Bên cạnh việc xuất hiện rằng x khác với chính nó (!), Nó cũng khá lạ đối với tôi x=z
, vì hai bản phân phối không hỗ trợ chồng chéo. Làm thế nào là có thể?
Theo định nghĩa của thử nghiệm,
D
nên là sự khác biệt tối đa giữa hai phân phối xác suất, nhưng trong trường hợp(x,y)
đó phải làD = Max|P(x)-P(y)| = 4
(trong trường hợp khiP(x)
,P(y)
không được chuẩn hóa) hoặcD=0.3
(nếu chúng được chuẩn hóa). Tại sao D khác với điều đó?Tôi đã cố tình làm một ví dụ với nhiều mối quan hệ , vì dữ liệu tôi đang làm việc có rất nhiều giá trị giống hệt nhau. Tại sao điều này gây nhầm lẫn trong bài kiểm tra? Tôi nghĩ rằng nó đã tính toán phân phối xác suất không bị ảnh hưởng bởi các giá trị lặp lại. Bất kỳ ý tưởng?