Dữ liệu binning có hợp lệ trước tương quan Pearson không?


8

Có thể chấp nhận dữ liệu bin, tính giá trị trung bình của các thùng và sau đó rút ra hệ số tương quan Pearson trên cơ sở các phương tiện này không? Có vẻ như một quy trình hơi khó hiểu đối với tôi (nếu bạn nghĩ dữ liệu là mẫu dân số) thì sự phân tán của các phương tiện này sẽ là lỗi tiêu chuẩn của giá trị trung bình và do đó rất chặt chẽ nếu lớn. Vì vậy, bạn có thể sẽ nhận được một hệ số tương quan tốt hơn nhiều so với từ dữ liệu chính, và điều đó có vẻ sai. Mặt khác, mọi người thường sao chép trung bình các phép đo trước khi tính toán tương quan không khác nhau lắm.n


1
Mục đích của việc đóng thùng trong trường hợp cụ thể này là gì?
chl

2
Không có điểm rõ ràng nào để tạo thùng trước khi tương quan trừ khi bạn quan tâm trực tiếp đến việc xem xét mối quan hệ giữa các biến đã được đánh dấu.
Nick Cox

11
Dữ liệu Binning liên tục và sau đó tính toán một mối tương quan giống như cắt chân của bạn và sau đó nhận được nạng.
Peter Flom

2
Tôi đoán là việc đóng thùng đã được thực hiện để làm cho mối tương quan trông tốt hơn so với thực tế. Các dữ liệu chính cho một mối tương quan kém, nhưng khi được đánh dấu và tính trung bình, nó trông tốt hơn nhiều. Tôi nghĩ rằng bởi vì mỗi giá trị trung bình của thùng sẽ có một lỗi tiêu chuẩn nhỏ (có 100 điểm trong mỗi thùng), nên các giá trị có nghĩa mang lại một mối tương quan rõ ràng.
James

3
Tại sao dừng lại ở đó? Chỉ cần sử dụng hai thùng, bạn luôn có thể nhận được hệ số tương quan là % :-). Ngược lại, các phép đo sao chép trung bình khác nhau vì nó gọi một mô hình hành vi dữ liệu khác nhau và dẫn đến một suy luận khác nhau (về những kỳ vọng của các bản sao thay vì bản sao). 100
whuber

Câu trả lời:


1

Không hoàn toàn giống như câu hỏi của bạn, nhưng trên một ghi chú liên quan, tôi nhớ đã đọc một bài báo trước đây (tạp chí The Statistician hoặc Chance của Mỹ, vào khoảng giữa năm 2000 và 2003) cho thấy rằng đối với bất kỳ tập dữ liệu nào về 2 biến số đều đẹp Nhiều điều không đáng lo ngại, bạn có thể tìm cách để biến biến "dự đoán", sau đó lấy trung bình của biến trả lời trong mỗi thùng và tùy thuộc vào cách bạn thực hiện việc tạo thùng cho thấy mối quan hệ tích cực hoặc mối quan hệ tiêu cực trong bảng hoặc âm mưu đơn giản.


3
Bài viết tuyệt vời mà bạn ám chỉ là @Article {wai06fin, tác giả = {Wainer, Howard}, title = {Tìm kiếm những gì không có ở đó thông qua kết quả đáng tiếc: {The} {Mendel} effect}, tạp chí = {Chance}, năm = 2006, âm lượng = 19, số = 1, trang = {49-56}, annote = {có thể tìm thấy các thùng mang lại sự liên kết tích cực hoặc tiêu cực, đặc biệt là thích hợp khi các hiệu ứng nhỏ; `` Với bốn tham số, tôi có thể phù hợp một con voi; với năm, tôi có thể làm cho nó ngọ nguậy thân cây của nó. '' - John von Neumann}}
Frank Harrell

@FrankHarrell, cảm ơn bạn đã tham khảo, tôi nhớ một vài năm nghỉ.
Greg Snow

0

Chúng ta hãy xem xét hai biến ( , Y i ). Khi bạn nói bin dữ liệu, và bạn "bin" trên X i , làm bạn có nghĩa là lặp lại phép đo cho chính xác giống X i để có được tương ứng Y ' i giá trị? Nếu bạn lặp lại các phép đo như thế này, thì lỗi trên mức trung bình sẽ giảm với XiYiXiXiYi , và tôi nghĩ bạn có thể tự do làm bất cứ điều gì bạn muốn với nó. Chỉ cần đảm bảo rằng bạn đang sử dụng hệ số tương quan trọng số nếu bạn xem xét các điểm dữ liệu với các thanh lỗi rất khác nhau.n

Bây giờ chúng ta hãy nói rằng bạn đang không lặp lại phép đo của , nhưng thay vì xem xét X i ± δ và tương ứng Y i ± δ ' và di chuyển chuột trên δ và có được giá trị binned trong δ . Tôi nghĩ trong tình huống này, giải pháp sẽ phụ thuộc vào mối quan hệ giữa kích thước của thùng, sai số trên phép đo và độ dốc của mối tương quan. Tôi hy vọng rằng nếu cả hai δ và nhỏ, tình hình sẽ tương tự như đoạn trước. Mặt khác, nó có thể có lợi cho bin hoặc không; nó sẽ thay đổi kết quả vì cov (XiXi±δYi±δδδδX i , b i n Y i , b i nδ´Xi,bin, ) sẽ khác với các giá trị không được lưu trữ, nhưng tôi nghĩ rằng nó vẫn hợp lệ để làm điều đó. Tôi nghĩ rằng bạn không phá vỡ bất kỳ giả định nào; Tôi chỉ chắc chắn rằng sẽ thuận lợi khi làm như vậy và tôi sẽ kiểm tra tầm quan trọng của nó thông qua thử nghiệm hoán vị (để tránh đưa ra bất kỳ giả định nào về phân phối hệ số).Yi,bin


3
Cách duy nhất tôi có thể hiểu những gì bạn đã viết là nếu ai đó có quá nhiều thời gian trên tay và muốn vượt qua thời gian trong ngày, điều này tốt hơn so với tội phạm đường phố.
Frank Harrell

-1

Lý do chính để dữ liệu bin là cho phép khả năng có mối quan hệ phi tuyến giữa các biến. Mối tương quan Pearson đo lường sức mạnh của liên kết tuyến tính , do đó, nó không hoạt động tốt khi mối quan hệ là phi tuyến.

Rõ ràng có nhiều cách tốt hơn để xử lý vấn đề này hơn là tạo thùng. Ví dụ: bạn có thể phù hợp với mô hình hồi quy phi tuyến hoặc cục bộ và tương quan giữa các giá trị phản hồi dự đoán và thực tế (mặc dù điều này giả định rằng phương pháp dự đoán đáp ứng là hợp lệ, trong khi tương quan là đối xứng). Binning chỉ là một cách giải quyết vấn đề phi tuyến tính mà những người không có nền tảng thống kê hoặc công cụ thống kê có thể sử dụng.


3
Binning hoàn toàn không có gì với việc giúp tìm kiếm một mối quan hệ phi tuyến tính.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.