Một cách tốt để đo lường tuyến tính tinh thần của một bộ dữ liệu là gì?


8

Tôi có một bộ dữ liệu thu thập theo kinh nghiệm liên quan đến hai biến. Trong một phạm vi nhỏ, mối quan hệ xuất hiện tuyến tính, tuy nhiên trên phạm vi lớn hơn rõ ràng có một số mối quan hệ đa thức bậc hai như có thể nhìn thấy trong hình ảnh tại http://imgur.com/W7f9p .

Tôi đang cố gắng để có được một thước đo tuyến tính cho các phạm vi khác nhau được xem xét. Ví dụ, ở 20 <x <60 hoặc 100 <x <120 thì nó rất tuyến tính, nhưng ở 20 <x <180 thì nó không tuyến tính lắm. Tôi đã cố gắng khớp một đường thẳng với dữ liệu và tính toán dữ liệu R ^ 2 (mức độ phù hợp) nhưng điều này cho thấy đường thẳng trên phạm vi lớn hơn phù hợp hơn so với phạm vi nhỏ hơn. Mặc dù điều này có thể đúng với MS Excel, nhưng từ hình ảnh rõ ràng là phạm vi lớn hơn sẽ ít tuyến tính hơn ... nếu bạn giữ cạnh của một mảnh giấy so với các điểm.

Có cách nào tốt hơn để đo "độ tuyến tính" của bộ dữ liệu không?


Câu hỏi này có lẽ nên (và có khả năng sẽ được) di chuyển đến trang thống kê. Có rất nhiều phần mềm thống kê tuyệt vời miễn phí trên mạng. Bạn có thể tra cứu chương trình R và dùng thử.

Bạn có thể quan tâm đến bài báo này ncbi.nlm.nih.gov/pubmed/16724492 Ý tưởng là phù hợp với mô hình tuyến tính piecewise và kiểm tra sự bằng nhau của độ dốc (Tôi không bình luận nữa vì tôi chưa đọc nó)
Stéphane Laurent

2
Bạn có thực sự quan tâm đến tính tuyến tính của dữ liệu hoặc tính tuyến tính của đường cong cơ bản không? Điểm khác biệt là do dữ liệu (có thể) lấy mẫu đường cong không đồng đều, một thước đo dựa trên dữ liệu sẽ thay đổi tùy theo tính chất của mẫu, trong khi đó ước tính độ tuyến tính của đường cong sẽ ổn định hơn khi thay đổi chương trình lấy mẫu. Ngoài ra, bạn có quan niệm "tuyến tính" là một tính chất tuyệt đối (và do đó phụ thuộc vào các đơn vị đo lường) hay nó là một tính chất của hình dạng của đường cong (và do đó bất biến dưới các phép biến đổi affine của x và y)?
whuber

Câu trả lời:


6

Phù hợp với một bậc hai thay vì một hàm tuyến tính. Giá trị tuyệt đối của ước tính hệ số cao nhất của bậc hai đóng vai trò là thước đo hợp lý của tuyến tính, bằng 0 nếu dữ liệu nằm chính xác trên một dòng. Hơn nữa, nếu dữ liệu đến từ một mô hình tuyến tính có nhiễu Gaussian, định lý Gauss-Markov đảm bảo rằng các ước tính hệ số là không thiên vị, do đó dưới sự lặp lại của sự phù hợp với nhiều dữ liệu từ cùng một phân phối mô hình, giá trị dự kiến ​​của hệ số sẽ là số không.

Tất nhiên trong một lần phù hợp, người ta thường không nhận được số không, vì vậy người ta sẽ phải sử dụng một số thử nghiệm cho tầm quan trọng của các hệ số.


bạn có thể giải thích một chút về lý do tại sao nó phục vụ như một thước đo hợp lý của tuyến tính?
Lucas Reis

1
@LucasReis: Tôi đã thêm một số lý do.
Arnold Neumaier

(+1) Tôi nhận ra rằng bất kỳ thước đo hợp lý nào về "tuyến tính" phải là bất biến dưới sự thay đổi của vị trí và tỷ lệ (trong cả hai biến phụ thuộc và biến độc lập). Điều đó loại trừ việc sử dụng thuật ngữ bậc hai, nhưng cho thấy có thể có công trong việc xem xét sử dụng thuật ngữ bậc hai khi các biến được tiêu chuẩn hóa được sử dụng trong hồi quy. Tuy nhiên, lưu ý rằng thuật ngữ bậc hai sẽ không thu được các lần khởi hành phức tạp từ tuyến tính, chẳng hạn như mô hình giống như sóng.
whuber

@whuber: điểm tốt. Câu trả lời của Michael Chernick có tính chất này và do đó được ưu tiên khai thác.
Arnold Neumaier

Trên thực tế, tôi thích giải pháp của bạn như được sửa đổi bởi @Doumund Maynard (người, bằng cách sử dụng betas, đạt được kết quả bất biến). Tôi cũng vậy, ban đầu tôi thích câu trả lời của Chernick, nhưng khi tôi xem xét nó sâu hơn, nó có vẻ muốn ở một số khía cạnh quan trọng. Một là nó phụ thuộc mạnh vào việc lấy mẫu. Ví dụ: lấy mẫu nặng ở giá trị cực sẽ láiđến mà không thay đổi độ cong tổng thể. Một điều nữa là nó đặc trưng sai cho các đường ngang, hoàn toàn tuyến tính nhưng với ! Mặt khác, thuật ngữ bậc hai là mạnh mẽ đối với những thay đổi thất thường như vậy. | ρ | 1 | r h o | 0x|ρ|1|rho|0
whuber

4

Một cách để đi là chạy hồi quy phân cấp với biến trục Y của bạn làm tiêu chí / kết quả. Trong bước / khối 1, bạn sẽ nhập biến X của mình làm công cụ dự đoán và trong bước / khối 2, nhập thuật ngữ sản phẩm (X bình phương hoặc nhân với chính nó). Thuật ngữ bình phương X đại diện cho thành phần bậc hai của bạn. Các trọng số hồi quy được tiêu chuẩn hóa (betas) cho bình phương X và X sẽ cho bạn cảm giác về "sức mạnh" của các thành phần tuyến tính và bậc hai so với nhau và thay đổi bình phương R từ bước / khối 1 sang bước / khối 2 là một dấu hiệu cho thấy mô hình phù hợp với dữ liệu tốt hơn như thế nào khi bạn đã thêm vào thành phần bậc hai.

Xem Ch. 8 trong Keith, TZ (2005). Hồi quy bội và hơn thế nữa. Allyn & Bacon. 980-0205326440


1

Thước đo tuyến tính tốt nhất giữa hai biến x và y là hệ số tương quan mô men sản phẩm Pearson. Càng gần 1 về giá trị tuyệt đối thì sự phù hợp càng gần với một đường thẳng hoàn hảo. Bây giờ nếu bạn nghĩ rằng có sự tuyến tính tốt trong một tiểu vùng, hãy tính tương quan cho chỉ các cặp trong tiểu vùng. Nếu có một sự thay đổi hình dạng bên ngoài khu vực đó, nó sẽ hiển thị trong sự giảm tương quan khi tất cả các dữ liệu được bao gồm.


(+1) vi.wikipedia.org/wiki/ đá giải thích khái niệm này.
Arnold Neumaier

0

Các công cụ thống kê tiêu chuẩn là hệ số tương quan (xem câu trả lời của Michael Chernick) là một giá trị giữa [-1,1] và là đơn vị độc lập. Liên quan đến hệ số tương quan là hiệp phương sai. Hiệp phương sai bị ảnh hưởng bởi các đơn vị nhưng có thể dễ giải thích hơn. Tuy nhiên, tôi không thích một trong những lựa chọn đó trong trường hợp chung. Tôi không thích chúng bởi vì chúng không phải là sự biến đổi độc lập. Hãy xem xét rằng một đường thẳng hoặc ngang thẳng được coi là phi tuyến tính bởi cả hai biện pháp đó.

Một tùy chọn đơn vị tốt hơn là sử dụng phân rã giá trị số ít (SVD). SVD chia dữ liệu thành các phần thành phần được xếp hạng theo mức độ đóng góp của chúng cho toàn bộ. Do đó, tỷ lệ của số ít nhất so với số ít lớn thứ hai là một số liệu của tuyến tính. Lưu ý, để sử dụng phương pháp này, trước tiên bạn phải tập trung dữ liệu (làm cho tọa độ trung bình X, Y, Z, v.v bằng 0).

Ví dụ: Pts: 1126640.141 233575.2013; 1126630.008 233572,8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Pts tập trung: 9.792639127 0.656480018; -0.340591673 -1,68817349; -4,519928343 -1.801499913; -4.932119113 2.833193384;

Ma trận SVD, D: 11.86500017 0; 0 3.813448344

Tỷ lệ giá trị số ít 3.111357

Tỷ lệ trên có thể được hiểu một cách đại khái là dữ liệu dài gấp ba lần theo hướng của dòng phù hợp nhất vì nó là tuyến tính chéo.

Đối với giải pháp với các đơn vị có đơn vị và không yêu cầu SVD. Làm một số dòng phù hợp có trung tâm của dòng là một trong các tham số. Sử dụng dữ liệu tập trung ở trên rất đơn giản: dòng pt = 0 0 (luôn luôn là trường hợp cho dữ liệu tập trung) hướng dòng = -0.999956849 -0.009289783

Các vectơ từ tâm của đường thẳng đến mỗi điểm là tọa độ tập trung của các điểm. Tìm độ dài hình chiếu của các vectơ này trên đường thẳng (giá trị tuyệt đối của vectơ chấm theo hướng đường thẳng) và độ dài của thành phần vectơ vuông góc (chiều dài của hướng vectơ chéo). Chiều dài song song, chiều dài vuông góc 9,798315123, 0,565480194; 0,336259742, 1,684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;

Tối đa của các phép chiếu song song là sự kéo dài dữ liệu dọc theo đường. Độ dài tối đa của hình chiếu vuông góc là thước đo độ phi tuyến tính. Tỷ lệ của hai là một xấp xỉ của tỷ lệ giá trị số ít ở trên.

Ghi chú 1. Tính bất biến trong tuyến tính là không thể. Hãy xem xét, trong một phép biến đổi affine, chúng ta có thể chia tỷ lệ trừ một trong các trục tọa độ gần bằng 0 (làm cho bất kỳ tập hợp điểm nào thành tuyến tính). Vì vậy, bất biến phù hợp là tốt nhất chúng ta có thể làm. 2. Các phương pháp này KHÔNG ROBUST cho dữ liệu ngoại lệ. 3. Ví dụ là 2D nhưng được khái quát thành N chiều.


Tôi nghĩ rằng bạn muốn nói rằng r nằm trong [-1,1] chứ không phải [0,1]
mdewey
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.