Thủ tục tự động để chọn tập hợp con các điểm dữ liệu w / tương quan mạnh nhất?


15

Có một số quy trình chuẩn (như người ta có thể trích dẫn nó làm tài liệu tham khảo) để chọn tập hợp con các điểm dữ liệu từ một nhóm lớn hơn với mối tương quan mạnh nhất (chỉ có hai chiều)?

Chẳng hạn, giả sử bạn có 100 điểm dữ liệu. Bạn muốn có một tập hợp con gồm 40 điểm với tương quan mạnh nhất có thể dọc theo kích thước X và Y.

Tôi nhận ra rằng viết mã để làm điều này sẽ tương đối đơn giản, nhưng tôi tự hỏi liệu có nguồn nào để trích dẫn không?


3
"Tôi nhận ra rằng viết mã để làm điều này sẽ tương đối đơn giản". Ah? Và bạn sẽ làm điều đó như thế nào?
dùng603

3
Tôi cho rằng cô ấy có nghĩa là "tương quan tập hợp con tốt nhất"; chọn tập con của k ( k=40 trong ví dụ của mình) các điểm dữ liệu ra khỏi bạn N ( N=100 trong ví dụ của mình) và tính toán ước tính tương quan ρ(X,Y) (giả định rằng cô có nghĩa là để biết một tập hợp con của các điểm với mối tương quan tuyến tính tốt nhất ). Tuy nhiên, quá trình này có vẻ tốn kém về mặt tính toán cho lớn N, vì bạn phải tính toán với hệ số. (Nk)
Néstor

1
Nếu bạn sẵn sàng xem xét các kết hợp tuyến tính của các biến , thì tương quan chính tắc là thứ bạn đang tìm kiếm. Mặt khác, lựa chọn tính năng tương quan có thể được quan tâm. X
MånsT

Tôi nghĩ rằng một số có thể hiểu lầm tôi. @ Néstor dường như đã đúng. Có 100 mục, mỗi mục có giá trị X và giá trị Y. Tôi muốn tìm tập hợp con 40 có tương quan mạnh nhất có thể (hồi quy tuyến tính / w) giữa các giá trị X và Y. Tôi có thể viết mã để khám phá toàn bộ không gian tìm kiếm, nhưng tôi sẽ trích dẫn điều gì để hỗ trợ phương pháp như vậy? Nó được gọi là gì để tìm mối tương quan tối ưu giữa tất cả các tập hợp con có thể?
Julie

1
Bạn có quan tâm đến việc tối đa hóa mối tương quan hoặc có được đường hồi quy phù hợp nhất, ví dụ, được đo bằng phương sai dư tối thiểu? Cả hai không giống nhau khi bạn chọn điểm dữ liệu của mình.
jbowman

Câu trả lời:


17

Tôi muốn nói rằng phương pháp của bạn phù hợp với danh mục chung được mô tả trong bài viết trên wikipedia này cũng có các tài liệu tham khảo khác nếu bạn cần một cái gì đó hơn là chỉ wikipedia. Một số liên kết trong bài viết đó cũng sẽ được áp dụng.

Các thuật ngữ khác có thể áp dụng (nếu bạn muốn thực hiện thêm một số tìm kiếm) bao gồm "Nạo vét dữ liệu" và "Tra tấn dữ liệu cho đến khi nó thú nhận".

Lưu ý rằng bạn luôn có thể nhận được tương quan là 1 nếu bạn chỉ chọn 2 điểm không có giá trị x hoặc y giống hệt nhau. Có một bài báo trên tạp chí Chance vài năm trước cho thấy khi bạn có biến x và y mà về cơ bản không có mối tương quan nào, bạn có thể tìm cách để bin x và trung bình y trong các thùng để hiển thị xu hướng tăng hoặc giảm ( Cơ hội 2006, Những tiết lộ trực quan: Tìm kiếm những gì không có thông qua việc tạo ra kết quả không may: Hiệu ứng Mendel, trang 49-52). Ngoài ra với một bộ dữ liệu đầy đủ cho thấy mối tương quan tích cực vừa phải, có thể chọn một tập hợp con cho thấy mối tương quan âm. Với những điều này, ngay cả khi bạn có một lý do chính đáng để thực hiện những gì bạn đề xuất, bạn đang đưa ra bất kỳ sự hoài nghi nào rất nhiều lý lẽ để sử dụng chống lại bất kỳ kết luận nào mà bạn đưa ra.


Tên của bài báo từ The American Statistician là gì?
giả định

1
Tôi đã đánh giá sai nơi tôi đã xem bài báo, nó thực sự là trên Tạp chí Chance chứ không phải là Thống kê người Mỹ. Tôi đã sửa lỗi ở trên và bao gồm số năm, tiêu đề và số trang để các bên quan tâm có thể dễ dàng tìm thấy các bản sao.
Greg Snow

4

Thuật toán RANSAC nghe có vẻ như những gì bạn muốn. Về cơ bản, nó giả định dữ liệu của bạn bao gồm một hỗn hợp các giá trị ngoại lai và ngoại lệ và cố gắng xác định các phần tử bằng cách lấy mẫu liên tục các tập hợp dữ liệu, khớp một mô hình với nó, sau đó cố gắng khớp mọi điểm dữ liệu khác với mô hình. Đây là bài viết trên wikipedia về nó .

Trong trường hợp của bạn, bạn chỉ có thể tiếp tục lặp lại thuật toán trong khi lưu mô hình tốt nhất hiện tại phù hợp với ít nhất 40 điểm, vì vậy nó sẽ không đảm bảo cho bạn mối tương quan tốt nhất tuyệt đối, nhưng nó sẽ kết thúc.


1

Tôi có một thời gian khó tưởng tượng ra một bối cảnh trong đó điều này sẽ là thực tiễn tốt, nhưng hãy giả sử trong giây lát rằng bạn thực sự có lý do chính đáng để làm điều này.

Một thuật toán vũ phu có thể là một cái gì đó như thế này:

  1. Bạn tính toán tất cả các mẫu con có thể có của n trong tổng số mẫu của bạn. Hầu hết các gói thống kê đều có chức năng tính toán kết hợp mà không cần thay thế sẽ làm điều này cho bạn.

  2. Bạn ước tính mối tương quan giữa x và y cho từng mẫu phụ và chọn mức tối đa trong bộ đó.

Tôi chỉ thấy bình luận của người đăng ban đầu liên quan đến một tài liệu tham khảo cho thủ tục này. Tôi không chắc chắn rằng ai đó có một tên cụ thể cho quy trình này sau khi tất cả bạn chỉ đơn giản là tạo ra một phân phối theo kinh nghiệm của tất cả các mối tương quan có thể có trong tập dữ liệu của bạn và chọn mức tối đa. Các cách tiếp cận tương tự được sử dụng khi thực hiện bootstraping, nhưng trong trường hợp đó bạn quan tâm đến tính biến thiên theo kinh nghiệm, bạn KHÔNG sử dụng chúng để chọn một mẫu phụ cụ thể được liên kết với max.


2
1032N=100n=40

Không cần phải lén lút về nó :-p. Điểm công bằng.
David

Xin lỗi ... tuy nhiên, tôi thích những số liệu này, vì chúng cho chúng ta nhiều chỗ cho một thuật toán cải tiến :-).
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.