Thống kê và dữ liệu lớn outliers

4

Người ta có thể bỏ dữ liệu từ nghiên cứu vì nó không đáng kể?

Tôi đã gặp câu này trong khi đọc một bài viết trên sciencemag.org . Cuối cùng, các câu trả lời từ chỉ 7600 nhà nghiên cứu ở 12 quốc gia đã được đưa vào vì dữ liệu còn lại không được coi là có ý nghĩa thống kê. Đây có …

9 statistical-significance sampling outliers theory

4

Liệu thứ tự biến có quan trọng trong hồi quy tuyến tính

Tôi đang điều tra sự tương tác giữa hai biến ( và ). Có rất nhiều mối tương quan tuyến tính giữa các biến này với . Từ bản chất của vấn đề, tôi không thể nói bất cứ điều gì về nguyên nhân (cho dù gây ra hay ngược …

9 regression outliers linear-model

5

Tự động xác định ngưỡng để phát hiện bất thường

Tôi đang làm việc với một chuỗi thời gian của điểm bất thường (nền là phát hiện bất thường trong mạng máy tính). Mỗi phút, tôi nhận được số điểm bất thường cho tôi biết mức độ "bất ngờ" hoặc bất thường của trạng thái hiện tại của mạng. Điểm …

9 time-series outliers threshold

2

Tính toán đường cong ROC cho dữ liệu

Vì vậy, tôi có 16 thử nghiệm trong đó tôi đang cố gắng xác thực một người từ một đặc điểm sinh trắc học bằng cách sử dụng Hamming Khoảng cách. Ngưỡng của tôi được đặt thành 3,5. Dữ liệu của tôi ở bên dưới và chỉ có bản dùng …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Tìm các ngoại lệ trên một âm mưu phân tán

Tôi có một tập hợp các điểm dữ liệu được cho là ngồi trên một locus và theo một mẫu, nhưng có một số điểm phân tán từ các locus chính gây ra sự không chắc chắn trong phân tích cuối cùng của tôi. Tôi muốn có được một locus …

9 outliers scatterplot

2

Phương tiện k có thể được sử dụng cho dữ liệu không được phân phối thông thường không?

Tôi đã đọc rất nhiều bài báo kiểm tra k-mean với nhiều bộ dữ liệu thường không được phân phối như bộ dữ liệu mống mắt và nhận được kết quả tốt. Vì, tôi hiểu rằng k-mean dành cho dữ liệu phân phối thông thường, tại sao k-mean được sử …

9 normal-distribution outliers k-means

4

Có một phiên bản của hệ số tương quan ít nhạy cảm hơn với các ngoại lệ không?

Hệ số tương quan là: r =Σk(xk-x¯) (yk-yk¯)SxSyn - 1r= =Σk(xk-x¯)(yk-yk¯)SxSyn-1 r = \frac{\sum_k \frac{(x_k - \bar{x}) (y_k - \bar{y_k})}{s_x s_y}}{n-1} Giá trị trung bình mẫu và độ lệch chuẩn mẫu rất nhạy cảm với các ngoại lệ. Cơ chế cũng vậy, r =Σkđồ đạckn - 1r= =Σkđồ đạckn-1 r …

9 regression correlation outliers median mad

2

Fringeliers là gì?

Gần đây tôi đã nhận được một nhận xét đánh giá từ một bài đăng trên tạp chí yêu cầu tôi báo cáo cách tôi xử lý các ngoại lệ và fringeliers . Tôi đã không nghe về thuật ngữ "fringeliers" và khi tôi googled, có một số bài viết, …

8 terminology outliers

2

Các vấn đề với phát hiện ngoại lệ

Trong một bài đăng trên blog Andrew Gelman viết : Hồi quy từng bước là một trong những điều này, như phát hiện ngoại lệ và biểu đồ hình tròn, có vẻ phổ biến trong số những người không thống kê nhưng được các nhà thống kê coi là một …

8 dataset outliers quality-control

1

Phát hiện ngoại lệ trong bản phân phối beta

Nói rằng tôi có một mẫu giá trị lớn trong . Tôi muốn ước tính phân phối . Phần lớn các mẫu đến từ phân phối giả định này , trong khi phần còn lại là các ngoại lệ mà tôi muốn bỏ qua trong ước tính và .[0,1][0,1][0,1]Beta(α,β)Beta(α,β)\text{Beta}(\alpha, \beta)Beta(α,β)Beta(α,β)\text{Beta}(\alpha, …

8 outliers pymc beta-distribution

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Chúng ta có cần phải lo lắng về các ngoại lệ khi sử dụng các bài kiểm tra dựa trên xếp hạng không?

Xin lỗi nếu đây là một câu hỏi rất cơ bản. Nếu chúng ta có dữ liệu không được phân phối bình thường (ví dụ: xiên, kiểm tra Shapiro-Wilk là đáng kể) và chúng ta sử dụng các phương pháp dựa trên xếp hạng (ví dụ: kiểm tra Xếp hạng …

8 outliers ranks

3

Bài kiểm tra hoc trong ANOVA thiết kế hỗn hợp 2x3 bằng SPSS?

Tôi có hai nhóm 10 người tham gia được đánh giá ba lần trong một thử nghiệm. Để kiểm tra sự khác biệt giữa các nhóm và trong ba đánh giá, tôi đã chạy ANOVA thiết kế hỗn hợp 2x3 với group(kiểm soát, thử nghiệm), time(thứ nhất, thứ hai, ba) …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Khoảng tin cậy khi sử dụng định lý Bayes

Tôi đang tính toán một số xác suất có điều kiện và liên quan đến khoảng tin cậy 95%. Đối với nhiều trường hợp của tôi, tôi có đếm đơn giản của xnhững thành công ra khỏi nthử nghiệm (từ một bảng dự phòng), vì vậy tôi có thể sử …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

4

Tìm ngoại lệ mà không giả sử phân phối bình thường

Tôi có bộ dữ liệu nhỏ kích thước 40-50 điểm. Không giả định rằng dữ liệu được phân phối bình thường, tôi muốn tìm ra các ngoại lệ với độ tin cậy ít nhất 90%. Tôi nghĩ boxplot có thể là một cách tốt để làm điều đó nhưng tôi …

8 nonparametric python outliers matplotlib

Câu hỏi được gắn thẻ «outliers»