Có phải là ổn không thôi để vẽ đường hồi quy cho dữ liệu được xếp hạng (tương quan Spearman)?


11

Tôi có dữ liệu mà tôi đã tính toán tương quan Spearman và muốn trực quan hóa nó cho một ấn phẩm. Biến phụ thuộc được xếp hạng, biến độc lập thì không. Những gì tôi muốn hình dung là xu hướng chung hơn độ dốc thực tế, vì vậy tôi đã xếp hạng độc lập và áp dụng tương quan / hồi quy Spearman. Nhưng ngay khi tôi vẽ dữ liệu của mình và chuẩn bị đưa nó vào bản thảo của mình, tôi đã vấp phải tuyên bố này (trên trang web này ):

Bạn gần như sẽ không bao giờ sử dụng đường hồi quy cho mô tả hoặc dự đoán khi bạn thực hiện tương quan xếp hạng Spearman, vì vậy đừng tính toán tương đương với đường hồi quy .

và sau đó

Bạn có thể vẽ biểu đồ dữ liệu tương quan xếp hạng Spearman giống như cách bạn làm cho hồi quy tuyến tính hoặc tương quan. Tuy nhiên, đừng đặt đường hồi quy trên biểu đồ ; Sẽ là sai lầm khi đặt đường hồi quy tuyến tính trên biểu đồ khi bạn phân tích nó với tương quan xếp hạng.

Vấn đề là, các đường hồi quy không khác biệt so với khi tôi không xếp hạng độc lập và tính toán tương quan Pearson. Xu hướng là như nhau, nhưng do phí cắt cổ cho đồ họa màu trong các tạp chí tôi đã đi với biểu diễn đơn sắc và các điểm dữ liệu thực tế bị chồng chéo đến mức không thể nhận ra.

Tất nhiên, tôi có thể giải quyết vấn đề này bằng cách tạo ra hai ô khác nhau: Một cho các điểm dữ liệu (được xếp hạng) và một cho dòng hồi quy (không được xếp hạng), nhưng nếu nó chỉ ra rằng nguồn tôi trích dẫn là sai hoặc vấn đề không có vấn đề gì trong trường hợp của tôi, nó sẽ làm cho cuộc sống của tôi dễ dàng hơn. (Tôi cũng thấy câu hỏi này , nhưng nó không giúp tôi.)

Chỉnh sửa để biết thêm thông tin:

Biến độc lập trên trục x biểu thị số lượng tính năng và biến phụ thuộc trên trục y biểu thị thứ hạng nếu thuật toán phân loại khi so sánh về hiệu suất của chúng. Bây giờ tôi có một số thuật toán có thể so sánh trung bình, nhưng điều tôi muốn nói với cốt truyện của mình là: "Trong khi phân loại A trở nên tốt hơn thì có nhiều tính năng hơn, phân loại B tốt hơn khi có ít tính năng hơn"

Chỉnh sửa 2 để bao gồm các lô của tôi:

Hàng loạt thuật toán được vẽ so với số lượng tính năng nhập mô tả hình ảnh ở đây

Xếp hạng các thuật toán được vẽ so với số lượng tính năng được xếp hạng nhập mô tả hình ảnh ở đây

Vì vậy, để lặp lại câu hỏi từ tiêu đề:

Có thể vẽ đường hồi quy cho dữ liệu được xếp hạng của tương quan / hồi quy Spearman không?


Có bao nhiêu loại trong thứ hạng? Bạn đã kiểm tra giả định tỷ lệ? Có nhiều nhà nghiên cứu hoàn toàn ổn với việc coi dữ liệu thứ tự (ví dụ xếp hạng) là liên tục. Đôi khi nếu có rất nhiều loại, nó có ý nghĩa.
robin.datadrivers

1
Có bảy cấp bậc, chúng được sử dụng cho bài kiểm tra Friedman
Sentry

1
Bạn có thể bao gồm một biểu đồ của cốt truyện của bạn?
robin.datadrivers

Tôi sẽ tải lên một cái hôm nay sau khi tôi chỉnh sửa dữ liệu thực được công bố.
Sentry

Câu trả lời:


9

Một mối tương quan xếp hạng có thể được sử dụng để nhận mối liên hệ đơn điệu giữa các biến thể khi bạn lưu ý; như vậy, thông thường bạn sẽ không vạch ra một dòng cho điều đó.

Có những tình huống hoàn toàn hợp lý khi sử dụng các mối tương quan xếp hạng để thực sự khớp các dòng với số-y so với số-x, cho dù Kendall hay Spearman (hoặc một số khác). Xem các cuộc thảo luận (và đặc biệt, cốt truyện cuối cùng) ở đây .

Đó không phải là tình huống của bạn. Trong trường hợp của bạn, tôi có xu hướng chỉ trình bày một biểu đồ phân tán dữ liệu gốc, có lẽ có mối quan hệ suôn sẻ (ví dụ: LOESS).

Bạn mong đợi mối quan hệ là đơn điệu; có lẽ bạn có thể cố gắng ước tính và vạch ra một mối quan hệ đơn điệu. [Có một hàm R được thảo luận ở đây có thể phù hợp với hồi quy đẳng hướng - trong khi ví dụ không có đẳng hướng không đẳng hướng, thì hàm này có thể phù hợp với đẳng hướng.]

Đây là một ví dụ về loại điều tôi muốn nói:

nhập mô tả hình ảnh ở đây

Cốt truyện cho thấy mối quan hệ đơn điệu giữa x và y; đường cong màu đỏ là một vũng mịn (trong trường hợp này được tạo ra trong R bởi scatter.smooth), điều này cũng xảy ra là montonic (có nhiều cách để có được sự phù hợp trơn tru được đảm bảo là đơn điệu, nhưng trong trường hợp này, độ mịn của hoàng thổ mặc định là đơn điệu, vì vậy Tôi không cảm thấy cần phải lo lắng.

nhập mô tả hình ảnh ở đây
Âm mưu của thứ hạng (y) so với thứ hạng (x), biểu thị mối quan hệ đơn điệu. Đường màu xanh lá cây hiển thị các cấp bậc của đường cong hoàng thổ được trang bị so với thứ hạng (x).

Mối tương quan giữa các cấp bậc của x và y (tức là tương quan Spearman) là 0,892 - một liên kết đơn điệu cao. Tương tự, mối tương quan Spearman giữa đường cong được làm nhẵn (montonic) được trang bị ( ) và giá trị y cũng là 0,892. [Tuy nhiên, điều này không đáng ngạc nhiên, vì nó sẽ đúng với bất kỳ đường cong nào là hàm tăng đơn điệu của x, tất cả đều tương ứng với đường màu xanh lá cây. Đường màu xanh lá cây không phải là đường hồi quy giữa thứ hạng (x) và thứ hạng (y), nhưng đó là đường tương ứng với sự phù hợp đơn điệu trong cốt truyện gốc. 'Đường hồi quy' cho dữ liệu được xếp hạng có độ dốc 0,892 chứ không phải 1, do đó, nó hơi "phẳng".]y^

Nếu bạn không hiển thị bất cứ thứ gì ngoài thứ hạng (Y) so với X, tôi nghĩ rằng tôi nên tránh sử dụng các dòng trên các ô; theo như tôi có thể thấy họ không truyền tải nhiều giá trị trên hệ số tương quan. Và đã nói rằng bạn chỉ quan tâm đến xu hướng.

[Tôi không biết rằng đã sai khi vẽ một đường hồi quy trên một âm mưu được xếp hạng so với xếp hạng x, khó khăn sẽ là sự giải thích của nó.]


Cảm ơn, câu trả lời của bạn là tốt và giải thích tốt. Tuy nhiên, nó khiến tôi nhận ra rằng tôi có thể đã bỏ qua thông tin quan trọng. Nó vẫn còn hiệu lực với các thông tin bổ sung tôi cung cấp? Đồ thị theo sau ngày hôm nay khi tôi ở PC làm việc của tôi.
Sentry

Hãy xem cập nhật của tôi và xem nếu bạn nghĩ rằng bất kỳ trong số đó là bất kỳ giá trị.
Glen_b -Reinstate Monica

Vâng, nó có giá trị, nhưng nhiều hơn trong một ý nghĩa chung. Tôi cũng đồng ý rằng "sự sai trái" xuất phát từ khó khăn trong việc diễn giải cốt truyện. Tôi sợ rằng mọi người sẽ luôn cho rằng tôi muốn dự đoán thứ hạng từ tính năng này, ngay cả khi tôi nói rằng tôi chỉ muốn thể hiện xu hướng .
Sentry

Nhìn vào âm mưu của bạn --- bạn hiển thị các cấp bậc, nhưng bạn có các biện pháp hiệu suất ban đầu dựa trên các cấp bậc đó không?
Glen_b -Reinstate Monica

Vâng, tôi có, nhưng chúng không thể được sử dụng ở đây, tin tôi. Trọng tâm của nghiên cứu của tôi là so sánh các thuật toán sử dụng bài kiểm tra Friedman, xếp hạng chúng. Có nhiều bộ dữ liệu với phạm vi hiệu suất rất khác nhau, vì vậy chỉ có sự so sánh giữa chúng là thú vị ở đây.
Sentry

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.