Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu

4
Tại sao dữ liệu hỗn hợp là một vấn đề đối với các thuật toán phân cụm dựa trên euclide?
Hầu hết các thuật toán phân cụm và giảm kích thước cổ điển (phân cụm theo phân cấp, phân tích thành phần chính, phương tiện k, bản đồ tự tổ chức ...) được thiết kế dành riêng cho dữ liệu số và dữ liệu đầu vào của chúng được xem …



2
Trong hồi quy tuyến tính đơn giản, công thức cho phương sai của phần dư đến từ đâu?
Theo một văn bản mà tôi đang sử dụng, công thức cho phương sai của phần dư được đưa ra bởi:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Tôi thấy điều này khó tin kể từ khi còn lại là sự khác biệt giữa giá trị quan sát và giá trị được …

3
Ý nghĩa của 'số lượng tham số' trong AIC
Khi tính toán AIC, Một tôiC= 2 k - 2 l n LMộttôiC= =2k-2tôinLAIC = 2k - 2 ln L k có nghĩa là 'số lượng tham số'. Nhưng những gì được coi là một tham số? Ví dụ trong mô hình y= a x + by= =mộtx+by = ax …
21 aic 





2
Nếu phân cụm k-nghĩa là một dạng mô hình hỗn hợp Gaussian, nó có thể được sử dụng khi dữ liệu không bình thường không?
Tôi đang đọc Giám mục về thuật toán EM cho GMM và mối quan hệ giữa GMM và k-mean. Trong cuốn sách này có nói rằng k-mean là phiên bản cứng của GMM. Tôi tự hỏi điều đó có nghĩa là nếu dữ liệu tôi đang cố gắng phân cụm …

2
Làm thế nào để cụm thời gian cụm?
Tôi có một câu hỏi về phân tích cụm. Có 3000 công ty, phải được phân cụm theo cách sử dụng năng lượng của họ trong hơn 5 năm. Mỗi công ty có giá trị cho mỗi giờ trong 5 năm. Tôi muốn tìm hiểu xem một số công ty …

1
Hai cách sử dụng bootstrap để ước tính khoảng tin cậy của các hệ số trong hồi quy
Tôi đang áp dụng mô hình tuyến tính cho dữ liệu của mình: ytôi= β0+ β1xtôi+ εtôi,εtôi~ N( 0 , σ2) .ytôi= =β0+β1xtôi+εtôi,εtôi~N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). Tôi muốn ước tính khoảng tin cậy (CI) của các hệ số ( , ) bằng phương pháp bootstrap. Có hai cách tôi …

1
Hàm nào có thể là kernel?
Trong bối cảnh học máy và nhận dạng mẫu, có một khái niệm gọi là Kernel Trick . Đối mặt với các vấn đề mà tôi được yêu cầu để xác định xem một hàm có thể là hàm kernel hay không, chính xác thì nên làm gì? Trước tiên …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.