Thước đo không tham số về sức mạnh của mối liên hệ giữa một biến số ngẫu nhiên và biến ngẫu nhiên liên tục

12

Tôi đang ném vào đây vấn đề khi tôi nhận được nó.

Tôi có hai biến ngẫu nhiên. Một trong số đó là liên tục (Y) và một trong số đó là rời rạc và sẽ được tiếp cận như là thứ tự (X). Tôi đặt bên dưới cốt truyện tôi nhận được cùng với truy vấn.

nhập mô tả hình ảnh ở đây

Người gửi dữ liệu cho tôi muốn đo lường sức mạnh của mối liên kết giữa X và Y. Tôi đang tìm kiếm những ý tưởng không được đưa ra trước với các giả định về quá trình tạo ra dữ liệu. Lưu ý rằng đây không phải là tìm một cách không tham số để kiểm tra sức mạnh của mối quan hệ (như trong bootstrap) mà là tìm một cách không tham số để đo lường nó.

Mặt khác, hiệu quả không phải là vấn đề vì có rất nhiều điểm dữ liệu.

— người dùng603
nguồn

1

Là X (biến rời rạc) thứ tự hay không?

— Peter Flom - Tái lập Monica

@PeterFlom: Cảm ơn. Đúng. Tôi thêm điều này vào câu hỏi.

— user603

Do "không đối xứng", ý của bạn ở đây là không tính toán giá trị trung bình hoặc phương sai được cho phép?

— ttnphns

7

Theo định nghĩa, thang đo thứ tự là thước đo trong đó khoảng cách thực sự giữa các rãnh 1 2 3 4không xác định. Nó giống như bạn đang nhìn thấy một người cai trị dưới ma túy / rượu. Khoảng cách thực sự có thể là bất kỳ. Nó có thể là 1 2 3 4hay 1 2 3 4hoặc bất cứ điều gì. Chúng tôi không thể tính toán một thống kê - chẳng hạn như một mối tương quan - trừ khi quyết định khoảng cách, sửa chúng.

Một lý do có thể như sau. Vì thang đo của chúng tôi, thước đo, bị biến dạng theo một cách đơn điệu không xác định, chúng tôi không thể tin vào các giá trị dữ liệu. Chỉ có thứ tự cường độ của họ là đáng tin cậy. Không cần khai thác thêm bộ não, tuyên bố trật tự là giá trị. Vì vậy, chúng tôi thay thế phân phối quan sát bằng phân phối thống nhất, các cấp bậc . Sau đó, có thể tính hệ số liên kết, giả sử, Pearson . Đó sẽ là Spearman , như chúng ta đã biết. Pearson đo sức mạnh của hiệp hội tuyến tính. Xếp hạng các biến là một mẹo để tuyến tính hóa phần đó của mối quan hệ đơn điệu được quy cho các phân phối không được thống nhất ban đầu. Do đó, Spearman $r$ $rho$ $r$ $rho$ là thước đo của sự đơn điệu như vậy trong mối quan hệ có thể được chuyển đổi thành tuyến tính dưới tác động của sự đồng nhất các phân phối biên. Trong câu hỏi OP, chỉ một trong hai biến là thứ tự (và biến thứ hai là liên tục). Vì vậy, nói chung, không có nhu cầu để xếp hạng cả hai biến. Có thể chỉ xếp hạng thứ nhất và sau đó tính . $r$

Một cách tiếp cận khác , thay thế cho xếp hạng (đồng phục), có thể là tỷ lệ tối ưu của biến số thứ tự. Chia tỷ lệ tối ưu là một quy trình lặp với mục tiêu tìm khoảng cách như vậy trên thang đo thứ tự - tức là tìm sự biến đổi đơn điệu như vậy của nó - để tuyến tính giữa các biến được tối đa hóa có thể. Mặc dù cách tiếp cận xếp hạng dựa trên tiền đề "thang đo thực tương ứng với dữ liệu có phân phối đồng đều", phương pháp chia tỷ lệ tối ưu dựa trên tiền đề "thang đo đúng tương ứng với dữ liệu có tuyến tính tối đa $r$ $r$ . .

Có những cách tiếp cận khác là tốt. Nhưng theo bất kỳ cách nào, chúng ta biến đổi thang đo thứ tự một cách đơn điệu "để ..." (một số giả định hoặc mục tiêu nào đó), bởi vì thang đo thứ tự bị bóp méo theo một cách không xác định. Về cơ bản, một quyết định khác sẽ là "tỉnh táo" trước và quyết định rằng nó không bị biến dạng (tức là khoảng), hoặc bị biến dạng theo một cách đã biết (là nonequiinterval), hoặc là danh nghĩa.

Một số cách tiếp cận không đối xứng có thể bao gồm hồi quy thứ tự của biến thứ tự bằng cách khác (khoảng / liên tục). Hoặc hồi quy tuyến tính của cái sau bởi thứ tự thứ tự, với mô hình trong đó bộ dự đoán được lấy là tương phản đa thức (nghĩa là được nhập dưới dạng b1X + b2X^2 + b3X^3,...). Điểm yếu của các phương pháp này là chúng không đối xứng: một biến là phụ thuộc, biến còn lại là độc lập.

— ttnphns
nguồn

cảm ơn; ý tưởng rất tốt, để tính các cấp bậc chỉ trên một trong các biến.

— user603

6

Có bất kỳ lý do nào mà hệ số tương quan thứ tự xếp hạng của Spearman (một phép đo không đối xứng của liên kết đơn điệu ) sẽ không đủ? Là sự đơn điệu quá "tải trước?" Nó dựa trên sự khác biệt ( ) trong các cấp được tạo độc lập ( và ) cho các biến của bạn: $d_{i} = x_{i} - y_{i}$ $x_{i}$ $y_{i}$

$r_{\text{S}} = 1-\frac{6\sum_{i=1}^{n}{d^{2}_{i}}}{n\left(n^{2}-1\right)}$

Nếu giả định quá đơn điệu là một giả định quá nghiêm ngặt, tôi tự hỏi liệu các cách tiếp cận dựa trên thông tin tối đa, như đề xuất của Reshef (2011, 2013), thậm chí không cho rằng mối quan hệ chức năng giữa và có thể giống với những gì bạn đang có tìm kiếm? $X$ $Y$

Người giới thiệu

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., và Sabeti, P. (2011). Phát hiện các hiệp hội mới trong bộ dữ liệu lớn. Khoa học , 334 (6062): 1518 Từ1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. và Sabeti, P. (2013). Phân tích công bằng của hệ số thông tin tối đa, với sự so sánh . arXiv , ngày 14 tháng 8.

— Alexis
nguồn

Cả hai trông giống như những ý tưởng rất tốt. Trong thực tế, hai cách tiếp cận bạn đề xuất thậm chí bổ sung cho nhau. Tôi sẽ để lại câu hỏi mở một chút.

— user603