Cách chọn giữa các thuật toán học tập

21

Tôi cần triển khai một chương trình sẽ phân loại các bản ghi thành 2 loại (đúng / sai) dựa trên một số dữ liệu đào tạo và tôi đã tự hỏi nên xem xét thuật toán / phương pháp nào. Dường như có rất nhiều trong số chúng để lựa chọn - Mạng thần kinh nhân tạo, Thuật toán di truyền, Học máy, Tối ưu hóa Bayes, v.v., và tôi không chắc bắt đầu từ đâu. Vì vậy, câu hỏi của tôi là: Tôi nên chọn thuật toán học như thế nào cho vấn đề của mình?

Nếu điều này có ích, đây là vấn đề tôi cần giải quyết.

Dữ liệu đào tạo: Dữ liệu
đào tạo bao gồm nhiều hàng như thế này:

Precursor1, Precursor2, Boolean (true/false)

Việc chạy
tôi sẽ được cung cấp một loạt các tiền chất.
Sau đó,

Tôi chọn một thuật toán A từ các thuật toán khác nhau (hoặc tự động tạo ra một thuật toán) và áp dụng nó cho mọi kết hợp có thể có của các tiền chất này và thu thập các "bản ghi" được phát ra. "Bản ghi" bao gồm một số cặp khóa-giá trị *.
Tôi áp dụng một số thuật toán tuyệt vời và phân loại các bản ghi này thành 2 loại (đúng / sai).
Tôi sẽ tạo một bảng có cùng định dạng với dữ liệu tàu:
Precursor1, Precursor2, Boolean

Và toàn bộ chương trình được tính dựa trên số lượng tôi đúng / sai.

*: "Bản ghi" sẽ trông như thế này (hy vọng điều này có ý nghĩa)

Record         [1...*] Score
-Precursor1             -Key
-Precursor2             -Value

Chỉ có một số hữu hạn các Khóa có thể. Các bản ghi chứa tập hợp con khác nhau của các khóa này (một số bản ghi có key1, key2, key3 ... các bản ghi khác có key3, key4 ... vv).

Tôi thực sự cần 2 học tập. Một là cho bước 1. Tôi cần phải có một mô-đun nhìn vào các cặp Tiền thân, v.v. và quyết định áp dụng thuật toán nào để phát ra một bản ghi để so sánh. Một cách khác là cho bước 2. Tôi cần một mô-đun phân tích bộ sưu tập các bản ghi và phân loại chúng thành 2 loại (đúng / sai).

Cảm ơn bạn trước!

— Enno Shioji
nguồn

16

Có một gói cho " R " được gọi là " caret ", viết tắt của "phân loại và kiểm tra hồi quy". Tôi nghĩ rằng đó sẽ là một nơi tốt để bạn bắt đầu, vì nó sẽ dễ dàng cho phép bạn áp dụng hàng tá thuật toán học tập khác nhau cho dữ liệu của mình và sau đó xác thực chúng để ước tính mức độ chính xác của từng loại.

Dưới đây là một ví dụ mà bạn có thể sửa đổi với dữ liệu của riêng bạn / các phương thức khác:

install.packages('caret',dependencies = c('Depends','Suggests'))
library(caret)

set.seed(999)
Precursor1 <- runif(25)
Precursor2 <- runif(25)
Target <- sample(c('T','F'),25,replace=TRUE)
MyData <- data.frame(Precursor1,Precursor2,Target)
str(MyData)

#Try Logistic regression
model_Logistic <- train(Target~Precursor1+Precursor2,data=MyData,method='glm')

#Try Neural Network
model_NN <- train(Target~Precursor1+Precursor2,data=MyData,method='nnet',trace=FALSE)

#Try Naive Bayes
model_NB <- train(Target~Precursor1+Precursor2,data=MyData,method='nb')

#Try Random Forest
model_RF <- train(Target~Precursor1+Precursor2,data=MyData,method='rf')

#Try Support Vector Machine
model_SVM<- train(Target~Precursor1+Precursor2,data=MyData,method='svmLinear')

#Try Nearest Neighbors
model_KNN<- train(Target~Precursor1+Precursor2,data=MyData,method='knn')

#Compare the accuracy of each model
cat('Logistic:',max(model_Logistic$results$Accuracy))
cat('Neural:',max(model_NN$results$Accuracy))
cat('Bayes:',max(model_NB$results$Accuracy))
cat('Random Forest:',max(model_RF$results$Accuracy))
cat('Support Vector Machine:',max(model_SVM$results$Accuracy))
cat('Nearest Neighbors:',max(model_KNN$results$Accuracy))

#Look at other available methods
?train

Một ý tưởng khác là chia dữ liệu của bạn thành tập huấn luyện và tập kiểm thử, sau đó so sánh cách mỗi mô hình thực hiện trên tập kiểm tra. Nếu bạn thích, tôi có thể chỉ cho bạn cách làm điều đó.

— Zach
nguồn

8

$T$ $X$ $Y$ $I$

$Y$

P (Y | T, X, tôi)

$P(Y|T,X,I)$

Bây giờ chúng ta có thể sử dụng bất kỳ quy tắc nào của lý thuyết xác suất để vận dụng điều này thành những thứ mà chúng ta biết cách tính toán. Vì vậy, sử dụng định lý Bayes, bạn nhận được:

P (Y | T, X, tôi) = = \frac{P (Y | T, tôi) P (X | Y, T, tôi)}{P (X | T, tôi)}

$P(Y|T,X,I)=\frac{P(Y|T,I)P(X|Y,T,I)}{P(X|T,I)}$

$P(Y|T,I)$ $Y$ $Y$

$P(X|Y,T,I)$ $P(X|T,I)$ $Y$ $\overline{Y}$ $Y$

Ôi (Y | T, X, tôi) = = \frac{P (Y | T, X, tôi)}{P (\bar{Y} | T, X, tôi)} = = \frac{P (Y | T, tôi)}{P (\bar{Y} | T, tôi)} \frac{P (X | Y, T, tôi)}{P (X | \bar{Y}, T, tôi)}

$O(Y|T,X,I)=\frac{P(Y|T,X,I)}{P(\overline{Y}|T,X,I)}=\frac{P(Y|T,I)}{P(\overline{Y}|T,I)}\frac{P(X|Y,T,I)}{P(X|\overline{Y},T,I)}$

$Y$

$P(X|Y,T,I)$ $\theta_{Y}$

P (X | Y, T, tôi) = = \int P (X, θ_{Y} | Y, T, tôi) d θ = = \int P (X | θ_{Y}, Y, T, tôi) P (θ_{Y} | Y, T, tôi) d θ_{Y}

$P(X|Y,T,I)=\int P(X,\theta_{Y}|Y,T,I) d\theta = \int P(X|\theta_{Y},Y,T,I)P(\theta_{Y}|Y,T,I) d\theta_{Y}$

$P(X|\theta_{Y},Y,T,I)=P(X|\theta_{Y},Y,I)$ $T$ $P(\theta_{Y}|Y,T,I)$ là phân phối sau cho các tham số trong mô hình - đây là phần mà dữ liệu huấn luyện sẽ xác định. Và đây có lẽ là nơi mà hầu hết các công việc sẽ đi.

$\theta_{Y}$ $M_i$ $\theta^{(i)}_{Y}$

P (X | Y, T, tôi) = = \underset{tôi}{Σ} P (M_{tôi} | Y, T, tôi) \int P (X | θ_{Y}^{(tôi)}, M_{tôi}, Y, T, tôi) P (θ_{Y}^{(tôi)} | M_{tôi}, Y, T, tôi) d θ_{Y}^{(tôi)}

$P(X|Y,T,I)= \sum_{i}P(M_{i}|Y,T,I)\int P(X|\theta_{Y}^{(i)},M_{i},Y,T,I)P(\theta_{Y}^{(i)}|M_{i},Y,T,I) d\theta_{Y}^{(i)}$

P (M_{tôi} | Y, T, tôi) = = P (M_{tôi} | Y, tôi) \int P (θ_{Y}^{(tôi)} | M_{tôi}, Y, tôi) P (T | θ_{Y}^{(tôi)}, M_{tôi}, Y, tôi) d θ_{Y}^{(tôi)}

$P(M_{i}|Y,T,I)=P(M_{i}|Y,I)\int P(\theta_{Y}^{(i)}|M_{i},Y,I)P(T|\theta_{Y}^{(i)},M_{i},Y,I) d\theta_{Y}^{(i)}$

$M_i$

Bây giờ, cho đến thời điểm này, tất cả các kết quả đều chính xác và tối ưu (đây là tùy chọn 2 - áp dụng một số thuật toán tuyệt vời cho dữ liệu). Nhưng đây là một nhiệm vụ khó khăn để thực hiện. Trong thế giới thực, toán học yêu cầu có thể không khả thi trong thực tế - vì vậy bạn sẽ phải thỏa hiệp. bạn nên luôn luôn "thực hiện" các phương trình chính xác, đối với bất kỳ phép toán nào bạn có thể đơn giản hóa sẽ giúp bạn tiết kiệm thời gian tại PC. Tuy nhiên, bước đầu tiên này rất quan trọng, bởi vì điều này đặt ra "mục tiêu" và nó làm cho nó rõ ràng những gì cần phải làm. Nếu không, bạn sẽ bị bỏ lại (như bạn dường như) với một loạt các tùy chọn tiềm năng không có gì để lựa chọn giữa chúng.

Bây giờ ở giai đoạn này, chúng ta vẫn đang ở trong thế giới "logic biểu tượng", nơi không có gì thực sự có ý nghĩa. Vì vậy, bạn cần liên kết những vấn đề này với vấn đề cụ thể của bạn:

$P(M_{i}|Y,I)$
$P(\theta_{Y}^{(i)}|M_{i},Y,I)$
$P(T|\theta_{Y}^{(i)},M_{i},Y,I)$
$P(\theta_{Y}^{(i)}|T,M_{i},Y,I)$
$P(M_{i}|Y,T,I)$

$\overline{Y}$

$P(M_{j}|Y,T,I)\approx 1$

P (X | Y, T, tôi) \approx P (X | θ_{Y}^{(j)}, M_{j}, Y, T, tôi)_{θ_{Y}^{(j)} = = {\hat{θ}}_{Y}^{(j)}}

$P(X|Y,T,I)\approx P(X|\theta_{Y}^{(j)},M_{j},Y,T,I)_{\theta_{Y}^{(j)}=\hat{\theta}_{Y}^{(j)}}$

Đó là cách tiếp cận "tiêu chuẩn" cho loại vấn đề này.

— xác suất
nguồn