Thống kê và dữ liệu lớn machine-learning

1

Làm thế nào để giảm độ dốc ngẫu nhiên có thể tiết kiệm thời gian so với độ dốc gốc tiêu chuẩn?

Tiêu chuẩn Gradient Descent sẽ tính toán độ dốc cho toàn bộ tập dữ liệu đào tạo. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Đối với số lượng epoch được xác định trước, trước tiên, chúng tôi tính toán vectơ gradient …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

Độ chính xác của máy tăng cường độ dốc giảm khi số lần lặp tăng

Tôi đang thử nghiệm thuật toán máy tăng cường độ dốc thông qua caretgói trong R. Sử dụng một bộ dữ liệu tuyển sinh đại học nhỏ, tôi đã chạy đoạn mã sau: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Một số câu hỏi phỏng vấn tốt cho các ứng cử viên phát triển thuật toán thống kê là gì?

Tôi đang phỏng vấn mọi người cho vị trí nhà phát triển / nhà nghiên cứu thuật toán trong bối cảnh khai thác dữ liệu / máy học / thống kê. Tôi đang tìm kiếm các câu hỏi để xác định, cụ thể, sự quen thuộc, hiểu biết và tính …

15 machine-learning probability distributions

2

Lý thuyết học PAC có nghĩa là gì?

Tôi là người mới trong học máy. Tôi đang học một khóa học về máy học (Đại học Stanford) và tôi không hiểu ý nghĩa của lý thuyết này là gì và tiện ích của nó là gì. Tôi tự hỏi nếu ai đó có thể chi tiết lý thuyết …

15 machine-learning probability pac-learning

3

Trong làm mịn Kneser-Ney, những từ không nhìn thấy được xử lý như thế nào?

Từ những gì tôi đã thấy, công thức làm mịn Kneser-Ney (bậc hai) theo cách này hay cách khác được đưa ra như P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} với hệ số chuẩn hóa được cho làλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) …

15 machine-learning natural-language naive-bayes smoothing language-models

1

Từ điển đồng nghĩa và thuật ngữ học máy

Có tồn tại bất kỳ luận điểm tham khảo cho thống kê và thuật ngữ học máy? Tôi biết rằng các bài viết trên Wikipedia thường chứa các từ đồng nghĩa, nhưng tôi muốn có một từ điển đồng nghĩa mà tôi có thể đi qua dễ dàng (so với …

15 machine-learning terminology

3

Gợi ý học tập nhạy cảm với chi phí trong môi trường mất cân bằng cao

Tôi có một bộ dữ liệu với vài triệu hàng và ~ 100 cột. Tôi muốn phát hiện khoảng 1% các ví dụ trong bộ dữ liệu, thuộc về một lớp chung. Tôi có một ràng buộc chính xác tối thiểu, nhưng do chi phí rất bất đối xứng, tôi …

15 machine-learning classification unbalanced-classes precision-recall

1

Trực giác đằng sau các mẫu trao đổi theo giả thuyết null là gì?

Các thử nghiệm hoán vị (còn gọi là thử nghiệm ngẫu nhiên, thử nghiệm ngẫu nhiên lại hoặc thử nghiệm chính xác) rất hữu ích và có ích khi giả định phân phối bình thường theo yêu cầu, t-testkhông được đáp ứng và khi chuyển đổi các giá trị theo …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Ý nghĩa của các điều khoản đầu ra trong gói gbm?

Tôi đang sử dụng gói gbm để phân loại. Như mong đợi, kết quả là tốt. Nhưng tôi đang cố gắng để hiểu đầu ra của phân loại. Có năm điều khoản trong đầu ra. `Iter TrainDeviance ValidDeviance StepSize Improve` Bất cứ ai cũng có thể giải thích ý nghĩa …

15 r machine-learning

3

Trộn dữ liệu là gì?

Thuật ngữ này xuất hiện thường xuyên trong các chủ đề liên quan đến phương pháp . Là pha trộn một phương pháp cụ thể trong khai thác dữ liệu và học thống kê? Tôi không thể nhận được một kết quả có liên quan từ google. Có vẻ như …

15 machine-learning data-mining unsupervised-learning statistical-learning

5

Những tác động nào làm tăng dữ liệu đào tạo có độ chính xác của hệ thống?

Ai đó có thể tóm tắt cho tôi với các ví dụ có thể, trong những tình huống tăng dữ liệu đào tạo cải thiện hệ thống tổng thể? Khi nào chúng tôi phát hiện ra rằng việc thêm nhiều dữ liệu đào tạo có thể có thể quá phù …

15 machine-learning classification dataset precision-recall

2

Kết hợp các phân loại bằng cách lật một đồng xu

Tôi đang học một khóa học máy và các bài giảng chứa thông tin những gì tôi thấy mâu thuẫn với cuốn sách được đề xuất. Vấn đề là như sau: có ba phân loại: phân loại A cung cấp hiệu suất tốt hơn trong phạm vi ngưỡng thấp hơn, …

15 machine-learning probability data-visualization classification roc

2

Phân tích thời gian thực của các thuật toán học máy phổ biến

Có ai có tham khảo một bản tóm tắt các phân tích thời gian chạy cho các thuật toán học máy thông thường (các hương vị khác nhau của NN, SVM, v.v.) không?

15 machine-learning references algorithms

2

Tăng số lượng tính năng dẫn đến giảm độ chính xác nhưng tăng / thu hồi trước

Tôi chưa quen với Machine Learning. Hiện tại tôi đang sử dụng trình phân loại Naive Bayes (NB) để phân loại các văn bản nhỏ trong 3 lớp là dương, âm hoặc trung tính, sử dụng NLTK và python. Sau khi tiến hành một số thử nghiệm, với bộ dữ …

15 machine-learning classification naive-bayes precision-recall

5

Một nguồn tài nguyên tốt bao gồm so sánh các ưu và nhược điểm của các phân loại khác nhau là gì?

Trình phân loại 2 lớp tốt nhất là gì? Vâng, tôi đoán đó là câu hỏi đáng giá triệu đô la, và vâng, tôi biết về định lý bữa trưa miễn phí và tôi cũng đã đọc các câu hỏi trước đây: Trình phân loại 2 lớp tốt nhất cho …

15 machine-learning classification references

Câu hỏi được gắn thẻ «machine-learning»