Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu


4
Tại sao các bài kiểm tra giả thuyết trên các bộ dữ liệu được lấy mẫu lại từ chối null quá thường xuyên?
tl; dr: Bắt đầu với một tập dữ liệu được tạo dưới dạng null, tôi đã ghép lại các trường hợp với sự thay thế và tiến hành kiểm tra giả thuyết trên mỗi tập dữ liệu được lấy mẫu lại. Các thử nghiệm giả thuyết này từ chối null …


1
Mối quan hệ LASSO giữa và
Hiểu biết của tôi về hồi quy LASSO là các hệ số hồi quy được chọn để giải quyết vấn đề tối thiểu hóa: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t Trong thực tế, điều này được thực hiện bằng cách sử dụng hệ số …







3
Các phương thức khởi tạo K-nghĩa là phân cụm
Tôi quan tâm đến tình trạng hiện tại của nghệ thuật để chọn hạt giống ban đầu (trung tâm cụm) cho phương tiện K. Googling dẫn đến hai lựa chọn phổ biến: lựa chọn ngẫu nhiên các hạt giống ban đầu, và, sử dụng kỹ thuật lựa chọn KMeans ++: …



1
Là định lý tương phản tương đối từ Beyer et al. tờ giấy: về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao có thể gây hiểu lầm?
Điều này được trích dẫn rất thường xuyên khi đề cập đến lời nguyền của chiều và đi (công thức tay phải gọi là tương phản) limd→ ∞var ( | | Xd| |kE[ | | Xd| |k]) =0,sau đó: Dtối đakd- Đtối thiểukdDtối thiểukd→ 0limd→∞var(||Xd||kE[||Xd||k])= =0,sau đó:Dtối đadk-Dtối thiểudkDtối thiểudk→0 …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.