Xác suất mà điểm ngẫu nhiên trong các kích thước có thể phân tách tuyến tính là gì?


24

Cho điểm dữ liệu, mỗi điểm có tính năng, được gắn nhãn là , khác được gắn nhãn là . Mỗi tính năng lấy một giá trị từ cách ngẫu nhiên (phân phối đồng đều). Xác suất mà tồn tại một siêu phẳng có thể phân chia hai lớp là gì?ndn/20n/2[ 0 , 1 ]1[0,1]

Trước tiên hãy xem xét trường hợp dễ nhất, tức là .d= =1


3
Đây là một câu hỏi thực sự thú vị. Tôi nghĩ rằng điều này có thể được điều chỉnh lại về việc liệu vỏ lồi của hai loại điểm có giao nhau hay không - mặc dù tôi không biết liệu điều đó có làm cho vấn đề trở nên đơn giản hơn hay không.
Don Walpola

Đây rõ ràng sẽ là một chức năng của cường độ tương đối của & . Hãy xem xét trường hợp dễ nhất w / , nếu , sau đó w / dữ liệu thực sự liên tục (nghĩa là không làm tròn đến bất kỳ vị trí thập phân nào), xác suất chúng có thể được phân tách tuyến tính là . OTOH, . d d = 1 n = 2 1 lim n Pr (tuyến tính tách) 0ndd= =1n= =21limn  Pr (tách tuyến tính)0
gung - Phục hồi Monica

Bạn cũng nên làm rõ nếu siêu phẳng cần phải được 'phẳng' (hoặc nếu nó có thể là, ví dụ, một parabol trong một 2d tình -type). Dường như với tôi rằng câu hỏi ngụ ý mạnh mẽ về sự bằng phẳng, nhưng điều này có lẽ nên được nêu rõ ràng.
gung - Phục hồi Monica

4
@gung Tôi nghĩ từ "siêu phẳng" rõ ràng ngụ ý "độ phẳng", đó là lý do tại sao tôi chỉnh sửa tiêu đề để nói "tách tuyến tính". Rõ ràng bất kỳ tập dữ liệu nào mà không trùng lặp về nguyên tắc có thể tách rời.
amip nói rằng Phục hồi lại

1
@gung IMHO "siêu phẳng" là một màng phổi. Nếu bạn cho rằng "siêu phẳng" có thể bị cong, thì "phẳng" cũng có thể bị cong (theo một số liệu thích hợp).
amip nói rằng Phục hồi lại

Câu trả lời:


4

Giả sử không có sự trùng lặp tồn tại trong dữ liệu.

Nếu , xác suất là .nd+1Pr= =1

Đối với các kết hợp khác của , xem biểu đồ sau:(n,d)

nhập mô tả hình ảnh ở đây

Tôi đã tạo ra âm mưu này mô phỏng dữ liệu đầu vào và đầu ra như được chỉ định trong OP. Khả năng phân tách tuyến tính được định nghĩa là sự thất bại của sự hội tụ trong mô hình hồi quy logistic, do hiệu ứng Hauck-Donner .

Chúng ta có thể thấy xác suất giảm khi tăng . Trên thực tế, chúng ta có thể điều chỉnh một mô hình liên quan đến đến và đây là kết quả:nn,dp

P(n,d)= =11+e-(5,82944-4,58261×n+1.37271×d-0,0235785×n×d)

nhập mô tả hình ảnh ở đây


Mã cho cốt truyện (trong Julia):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

Mã cho mô hình liên quan đến (trong Julia):(n,d)p

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))

+1. Tại sao log (n) mà không phải n? Ranh giới màu vàng-đen trông giống như một đường thẳng với tôi trên hình trên, nhưng xuất hiện uốn cong trên hình thứ hai. Có lẽ vì log (n)? Không chắc.
amip nói phục hồi Monica

p= =1p= =0
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.