Thống kê và dữ liệu lớn

4

Nếu tôi có hai biến ngẫu nhiên X và Y độc lập, mối tương quan giữa X và sản phẩm XY là gì? Nếu điều này là không xác định, tôi sẽ quan tâm đến việc biết ít nhất những gì xảy ra trong trường hợp cụ thể của X …

11 correlation

5

Cho thấy rằng công cụ ước tính OLS là quy mô tương đương?

Tôi không có định nghĩa chính thức về tương đương quy mô, nhưng đây là những gì Giới thiệu về Học thống kê nói về điều này trên trang. 217: Các hệ số bình phương tối thiểu tiêu chuẩn ... là tương đương tỷ lệ : nhân với hằng số …

11 least-squares linear-model

5

Tại sao chúng tôi bác bỏ giả thuyết khống ở mức 0,05 chứ không phải mức 0,5 (như chúng tôi làm trong Phân loại)

Kiểm tra giả thuyết giống như một vấn đề Phân loại. Vì vậy, nói rằng, chúng tôi có 2 nhãn có thể cho một quan sát (chủ đề) - Có tội so với Không có tội. Đặt Non-Guilty là giả thuyết null. Nếu chúng tôi đã xem xét vấn đề …

11 probability hypothesis-testing classification p-value

5

Làm cách nào để tạo chuỗi

Tôi biết cách tạo chuỗi ±1±1\pm 1 với giá trị trung bình 000 . Ví dụ: trong Matlab, nếu tôi muốn tạo một ±1±1\pm 1 có độ dài 100001000010000 , thì đó là: 2*(rand(1, 10000, 1)<=.5)-1 Tuy nhiên, làm thế nào để tạo một ±1±1\pm 1 với giá trị trung …

11 distributions sampling random-generation

2

Việc phân chia dữ liệu thành các bộ kiểm tra và huấn luyện có hoàn toàn là một điều thống kê hay không?

Tôi là sinh viên vật lý học máy học / khoa học dữ liệu, vì vậy tôi không có ý định cho câu hỏi này để bắt đầu bất kỳ xung đột nào :) Tuy nhiên, một phần lớn của bất kỳ chương trình đại học vật lý nào là …

11 regression machine-learning cross-validation dataset experiment-design

2

Thông tin lẫn nhau như xác suất

Có thể thông tin lẫn nhau về entropy chung: 0 ≤ tôi( X, Y)H( X, Y)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 được định nghĩa là: "Xác suất chuyển một phần thông tin từ X đến Y"? Tôi xin lỗi vì quá ngây thơ, nhưng tôi chưa bao giờ nghiên …

11 information-theory mutual-information

1

Bạn sẽ làm gì nếu mức độ tự do của bạn đi qua cuối bảng?

Mức độ tự do trong bảng F của tôi không tăng đủ cao cho mẫu lớn của tôi. Ví dụ: nếu tôi có F với 5 và 6744 độ tự do, làm cách nào để tìm giá trị quan trọng 5% cho ANOVA? Điều gì sẽ xảy ra nếu tôi …

11 chi-squared degrees-of-freedom f-distribution tables

1

RandomForest và trọng lượng lớp

Câu hỏi trong một câu: Có ai biết cách xác định trọng số lớp tốt cho một khu rừng ngẫu nhiên không? Giải thích: Tôi đang chơi xung quanh với các bộ dữ liệu mất cân bằng. Tôi muốn sử dụng Rgói randomForestđể đào tạo một mô hình trên bộ …

11 r random-forest

1

Tại sao Netflix sẽ chuyển từ hệ thống xếp hạng năm sao của mình sang hệ thống thích / không thích?

Netflix được sử dụng để dựa trên các đề xuất của mình về xếp hạng các bộ phim / chương trình khác của người dùng. Hệ thống đánh giá này có năm sao. Giờ đây, Netflix cho phép người dùng thích / không thích (xem ngón tay cái / ngón …

11 variance predictive-models prediction

1

Bayesian tăng đột biến và phiến so với phương pháp bị phạt

Tôi đang đọc các slide của Steven Scott về gói BSTS R (Bạn có thể tìm thấy chúng ở đây: các slide ). Tại một số điểm, khi nói về việc bao gồm nhiều biến hồi quy trong mô hình chuỗi thời gian cấu trúc, ông giới thiệu các linh …

11 r bayesian feature-selection penalized bsts

2

Giá trị trung bình hình học là một ước lượng không thiên vị của giá trị trung bình của phân phối liên tục?

Có bất kỳ phân phối liên tục rõ ràng nào ở dạng kín, có nghĩa là trung bình hình học của các mẫu là một ước lượng không thiên vị cho trung bình đó không? Cập nhật: Tôi mới nhận ra rằng các mẫu của tôi phải dương (nếu không …

11 distributions geometric-mean

2

Tôi có nên báo cáo kết quả không đáng kể?

Tôi đã chạy thử nghiệm Kruskal Wallis và đối với một số câu hỏi, giá trị p không đáng kể. Tôi sẽ báo cáo điều này theo cùng một cách như thể nó có ý nghĩa, nêu rõ df, thống kê kiểm tra và giá trị p? Vì vậy, nó …

11 spss kruskal-wallis reporting

1

Làm thế nào để giải thích kết quả khi cả hai sườn núi và lasso hoạt động tốt nhưng tạo ra các hệ số khác nhau

Tôi đang chạy mô hình hồi quy cả với Lasso và Ridge (để dự đoán một biến kết quả rời rạc từ 0-5). Trước khi chạy mô hình, tôi sử dụng SelectKBestphương pháp scikit-learnđể giảm bộ tính năng từ 250 xuống 25 . Nếu không có lựa chọn tính năng …

11 regression predictive-models feature-selection lasso ridge-regression

2

Đọc các ô hình hộp và râu ria: có thể thu được sự khác biệt đáng kể giữa các nhóm?

Giả sử chúng ta đang xem xét âm mưu hộp và râu ria này: Giữa thứ năm và thứ sáu, tôi nghĩ hầu hết sẽ đồng ý rằng dường như có một sự khác biệt đáng kể về thời gian ngủ. Đó có phải là một phỏng đoán hợp lệ, …

11 anova data-visualization boxplot

1

Suy luận biến đổi trong tiếng Anh đơn giản

Khi xem video trên youtube, tôi cảm thấy mình không thể xác định được suy luận đa dạng là gì. Tôi có thể làm theo các thủ tục trong khi tôi đang xem các bài giảng video về nó. Nhưng khó để xác định những gì thực sự là. Hy …

11 machine-learning mathematical-statistics data-mining