Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu




3
Có nên coi việc giảm kích thước để trực quan hóa được coi là một vấn đề đã đóng, được giải quyết bởi t-SNE?
Tôi đã đọc rất nhiều về thuật toán -snettt để giảm kích thước. Tôi rất ấn tượng với hiệu suất trên các bộ dữ liệu "cổ điển", như MNIST, nơi nó đạt được sự phân tách rõ ràng của các chữ số ( xem bài viết gốc ): Tôi cũng …

4
Vấn đề Monty Hall với một Monty Fallable
Monty có kiến ​​thức hoàn hảo về việc Cửa có một con dê đằng sau nó (hoặc trống rỗng). Thực tế này cho phép Người chơi nhân đôi tỷ lệ thành công của mình theo thời gian bằng cách chuyển đổi các trò chơi đoán đoán ra các Cửa khác. …







2
Liệu nó có ý nghĩa cho một hiệu ứng cố định được lồng trong một ngẫu nhiên, hoặc làm thế nào để mã hóa các biện pháp lặp đi lặp lại trong R (aov và lmer)?
Tôi đã xem qua tổng quan này về các công thức lm / lmer R của @conjugatep Warrior và bị nhầm lẫn bởi mục sau: Bây giờ giả sử A là ngẫu nhiên, nhưng B là cố định và B được lồng trong A. aov(Y ~ B + Error(A/B), data=d) …

2
Mô hình cuối cùng (sẵn sàng sản xuất) nên được đào tạo về dữ liệu hoàn chỉnh hay chỉ trên tập huấn luyện?
Giả sử tôi đã đào tạo một số mô hình trên tập huấn luyện, chọn mô hình tốt nhất bằng cách sử dụng bộ xác thực chéo và hiệu suất được đo trên tập kiểm tra. Vì vậy, bây giờ tôi có một mô hình tốt nhất cuối cùng. Tôi …


6
Ngụy biện sắc nét Texas trong phân tích dữ liệu thăm dò
Tôi đang đọc này bài viết trên tạp chí Nature, trong đó một số sai lầm được giải thích trong bối cảnh phân tích dữ liệu. Tôi nhận thấy rằng ngụy biện sắc nét Texas đặc biệt khó tránh: Một cái bẫy nhận thức đang chờ trong quá trình phân …
23 eda  fallacy 

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.