Giải thích từ dưới lên trên của khoảng cách Mahalanobis?


127

Tôi đang nghiên cứu nhận dạng và thống kê mẫu và hầu hết mọi cuốn sách tôi mở về chủ đề tôi va vào khái niệm khoảng cách Mahalanobis . Các cuốn sách đưa ra những lời giải thích trực quan, nhưng vẫn chưa đủ tốt để tôi thực sự hiểu những gì đang diễn ra. Nếu ai đó hỏi tôi "khoảng cách Mahalanobis là gì?" Tôi chỉ có thể trả lời: "Đây là điều tốt đẹp, đo khoảng cách của một số loại" :)

Các định nghĩa thường cũng chứa các hàm riêng và giá trị riêng, mà tôi gặp một chút khó khăn khi kết nối với khoảng cách Mahalanobis. Tôi hiểu định nghĩa của eigenvector và eigenvalues, nhưng chúng liên quan đến khoảng cách Mahalanobis như thế nào? Liệu nó có liên quan gì đến việc thay đổi cơ sở trong Đại số tuyến tính, v.v.?

Tôi cũng đã đọc những câu hỏi trước đây về chủ đề này:

Tôi cũng đã đọc lời giải thích này .

Câu trả lời rất hay và hình ảnh đẹp, nhưng tôi vẫn không thực sự hiểu ... Tôi có một ý tưởng nhưng nó vẫn chìm trong bóng tối. Ai đó có thể đưa ra một "Làm thế nào bạn sẽ giải thích nó cho bà của bạn" - kế hoạch để cuối cùng tôi có thể gói lại điều này và không bao giờ tự hỏi cái quái gì là khoảng cách Mahalanobis? :) Nó đến từ đâu, cái gì, tại sao?

CẬP NHẬT:

Đây là một cái gì đó giúp hiểu công thức Mahalanobis:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

Câu trả lời:


188

Đây là một biểu đồ phân tán của một số dữ liệu đa biến (theo hai chiều):

nhập mô tả hình ảnh ở đây

Chúng ta có thể làm gì với nó khi các trục bị bỏ đi?

nhập mô tả hình ảnh ở đây

Giới thiệu tọa độ được đề xuất bởi chính dữ liệu.

Các nguồn gốc sẽ có mặt tại centroid của điểm (điểm trung bình của họ). Các đầu tiên phối hợp trục (màu xanh trong hình kế tiếp) sẽ mở rộng dọc theo "xương sống" của các điểm, trong đó (theo định nghĩa) là bất kỳ hướng trong đó phương sai là lớn nhất. Các phối hợp trục thứ hai (màu đỏ trong hình vẽ) sẽ mở rộng vuông góc với một trong những đầu tiên. (Trong hơn hai chiều, nó sẽ được chọn theo hướng vuông góc trong đó phương sai càng lớn càng tốt, v.v.)

nhập mô tả hình ảnh ở đây

Chúng ta cần một cái cân . Độ lệch chuẩn dọc theo mỗi trục sẽ làm tốt để thiết lập các đơn vị dọc theo trục. Hãy nhớ quy tắc 68-95-99.7: khoảng hai phần ba (68%) số điểm phải nằm trong một đơn vị gốc (dọc theo trục); khoảng 95% nên trong hai đơn vị. Điều đó làm cho nó dễ dàng để nhãn cầu các đơn vị chính xác. Để tham khảo, hình này bao gồm vòng tròn đơn vị trong các đơn vị này:

nhập mô tả hình ảnh ở đây

Điều đó không thực sự trông giống như một vòng tròn, phải không? Đó là bởi vì hình ảnh này bị biến dạng (bằng chứng là các khoảng cách khác nhau giữa các số trên hai trục). Hãy vẽ lại nó với các trục theo hướng thích hợp của chúng - từ trái sang phải và từ dưới lên trên - và với tỷ lệ khung hình đơn vị sao cho một đơn vị theo chiều ngang thực sự bằng một đơn vị theo chiều dọc:

nhập mô tả hình ảnh ở đây

Bạn đo khoảng cách Mahalanobis trong hình này chứ không phải trong bản gốc.

Chuyện gì đã xảy ra ở đây? Chúng tôi để dữ liệu cho chúng tôi biết cách xây dựng một hệ tọa độ để thực hiện các phép đo trong biểu đồ phân tán. Đó là tất cả. Mặc dù chúng tôi có một vài lựa chọn để thực hiện trên đường đi (chúng tôi luôn có thể đảo ngược một hoặc cả hai trục; và trong những tình huống hiếm hoi, các hướng dọc theo "gai" - hướng chính - không phải là duy nhất), chúng không thay đổi khoảng cách trong cốt truyện cuối cùng.


Ý kiến ​​kỹ thuật

(Không dành cho bà, những người có lẽ đã bắt đầu mất hứng thú ngay khi những con số xuất hiện trở lại trên các ô, nhưng để giải quyết những câu hỏi còn lại được đặt ra.)

  • Các vectơ đơn vị dọc theo các trục mới là các hàm riêng (của ma trận hiệp phương sai hoặc nghịch đảo của nó).

  • CxyxyC(xy,xy)Cxy(xy)C1(xy)

  • Số lượng theo đó các trục được mở rộng trong bước cuối cùng là giá trị riêng (căn bậc hai của) của ma trận hiệp phương sai nghịch đảo. Tương đương, các trục được thu nhỏ bởi (gốc của) giá trị riêng của ma trận hiệp phương sai. Do đó, càng phân tán, càng cần phải thu nhỏ để chuyển đổi hình elip đó thành một vòng tròn.

  • Mặc dù quy trình này luôn hoạt động với bất kỳ tập dữ liệu nào, nhưng nó trông rất đẹp (đám mây hình bóng đá cổ điển) cho dữ liệu xấp xỉ đa biến Bình thường. Trong các trường hợp khác, điểm trung bình có thể không phải là đại diện tốt cho trung tâm của dữ liệu hoặc "các gai" (xu hướng chung trong dữ liệu) sẽ không được xác định chính xác bằng cách sử dụng phương sai để đo lường sự lây lan.

  • Sự dịch chuyển của tọa độ gốc, xoay và mở rộng của các trục cùng nhau tạo thành một phép biến đổi affine. Ngoài sự thay đổi ban đầu đó, đây là một sự thay đổi cơ sở từ cơ sở ban đầu (sử dụng các vectơ đơn vị chỉ theo hướng tọa độ dương) sang hướng mới (sử dụng lựa chọn các hàm riêng của đơn vị).

  • Có một kết nối mạnh mẽ với Phân tích thành phần chính (PCA) . Điều đó một mình đi một chặng đường dài để giải thích các câu hỏi "nó đến từ đâu" và "tại sao" - nếu bạn chưa bị thuyết phục bởi sự thanh lịch và tiện ích của việc để dữ liệu xác định tọa độ bạn sử dụng để mô tả chúng và đo lường chúng sự khác biệt

  • xexp(12x2)


3
Nếu ai đó tò mò, một phép biến đổi affine là "là một phép biến đổi bảo toàn các đường thẳng ... và tỷ lệ khoảng cách giữa các điểm nằm trên một đường thẳng". (@whuber, tôi không biết liệu bạn có muốn thêm một cái gì đó như thế này vào điểm gạch đầu dòng hay không.)
gung

@gung Việc tôi đề cập đến các phép biến đổi affine được theo dõi ngay lập tức bởi một đặc tính của chúng: một bản dịch theo sau là một sự thay đổi về cơ sở. Tôi chọn ngôn ngữ này vì nó được sử dụng tương tự trong câu hỏi. (Chúng ta phải thực hiện "thay đổi cơ sở" một cách tự do để bao gồm các biến đổi tuyến tính không thể đảo ngược: đó là một vấn đề quan trọng đối với PCA, làm giảm hiệu quả một số yếu tố cơ bản.)
whuber

13
@whuber, lời giải thích của bạn có lẽ là điều tốt nhất tôi từng thấy. Thông thường, khi điều này được giải thích, nó được đề cập rất trừu tượng khi họ đề cập đến các hình elip và hình cầu, và họ không thể hiện ý nghĩa của chúng. Kudos cho bạn để chứng minh cách biến đổi trục biến đổi phân phối dữ liệu thành một "hình cầu" để khoảng cách có thể được "nhìn thấy" dưới dạng nhiều sd của dữ liệu từ giá trị trung bình của dữ liệu, như trường hợp một chiều dữ liệu. Hình dung này theo ý kiến ​​của tôi là quan trọng, và không may bị bỏ qua trong hầu hết các cuộc thảo luận về chủ đề này. Làm tốt lắm --- lời giải thích của bạn

Có một PCA mạnh mẽ? Một biến thể cho phép chúng ta loại bỏ các điểm dữ liệu xa hơn khi nhìn vào kích thước của ma trận hiệp phương sai?
EngrStudent

@Engr Chắc chắn: mọi ước tính mạnh mẽ của ma trận hiệp phương sai sẽ dẫn đến một PCA mạnh mẽ. Các phương pháp trực tiếp khác tồn tại, như được chỉ ra bởi các tham chiếu đến chúng trong câu trả lời cho các câu hỏi về PCA mạnh mẽ .
whuber

37

Bà tôi nấu ăn. Bạn cũng có thể. Nấu ăn là một cách ngon để dạy thống kê.

Cookie Habanero bí ngô là tuyệt vời! Hãy suy nghĩ về cách quếgừng tuyệt vời có thể có trong các món ăn Giáng sinh, sau đó nhận ra rằng chúng nóng như thế nào.

Thành phần gồm:

  • ớt habanero (10, gieo hạt và băm nhuyễn)
  • đường (1,5 ly)
  • bơ (1 cốc)
  • chiết xuất vani (1 muỗng cà phê)
  • trứng (2 vừa)
  • bột mì (2,75 ly)
  • baking soda (1 muỗng cà phê)
  • muối (1 muỗng cà phê)

Hãy tưởng tượng trục tọa độ của bạn cho miền của bạn là khối lượng thành phần. Đường. Bột mì. Muối. Soda nướng. Sự thay đổi dọc theo các hướng đó, tất cả những thứ khác đều bằng nhau, gần như không ảnh hưởng đến chất lượng hương vị như sự thay đổi về số lượng ớt habanero. Một sự thay đổi 10% trong bột hoặc bơ sẽ làm cho nó ít tuyệt vời hơn, nhưng không phải là kẻ giết người. Chỉ thêm một lượng nhỏ habanero sẽ đánh bật bạn khỏi một vách đá hương vị từ món tráng miệng gây nghiện đến cuộc thi giảm đau dựa trên testosterone.

Mahalanobis không có nhiều khoảng cách về "khối lượng thành phần" vì nó cách xa "hương vị tốt nhất". Các thành phần thực sự "mạnh", những thành phần rất nhạy cảm với biến thể, là những thành phần bạn phải kiểm soát cẩn thận nhất.

Nếu bạn nghĩ về bất kỳ phân phối Gaussian nào so với phân phối Chuẩn thông thường , sự khác biệt là gì? Trung tâm và quy mô dựa trên xu hướng trung tâm (trung bình) và xu hướng biến đổi (độ lệch chuẩn). Một là biến đổi tọa độ của khác. Mahalanobis là sự biến đổi đó. Nó cho bạn thấy thế giới trông như thế nào nếu phân phối sở thích của bạn được phân phối lại như một tiêu chuẩn thông thường thay vì Gaussian.


4
Phân phối Gaussian phân phối bình thường, vậy bạn đang cố gắng phân biệt điều gì trong đoạn cuối của mình?
whuber

1
@Whuber - chuẩn. Ý tôi là tiêu chuẩn. Nghĩ rằng tôi đã nói nó. Nên kiểm tra lịch sử chỉnh sửa. Các câu sau lặp lại ý chính.
EngrStudent

2
Ý anh là gì sau đó bởi " sự phân phối Gaussian"?
whuber

1
Tốt hơn? Nó có thể là phân phối Gaussian với bất kỳ giá trị trung bình và phương sai nào - nhưng phép biến đổi ánh xạ tới chuẩn bình thường bằng cách trừ giá trị trung bình và tỷ lệ theo độ lệch chuẩn.
EngrStudent

4
Vâng, bây giờ nó rõ ràng hơn. Tôi đang bối rối tại sao bạn sử dụng hai thuật ngữ (Gaussian và bình thường) để chỉ cùng một điều, nhưng bây giờ bạn đã giải thích được điều đó. Tôi cũng hơi bối rối về khiếu nại cuối cùng của bạn, có vẻ như nói rằng mọi phân phối đa biến đều có thể được chuyển thành Bình thường tiêu chuẩn (theo định nghĩa mà bạn liên kết đến là không phù hợp ): Tôi nghĩ bạn có thể nói nó có thể được thực hiện theo tiêu chuẩn Bình thường trong từng thành phần. Bất kể, sự tương tự bạn bắt đầu với là tốt đẹp.
whuber

10

d(x,y)=x,yxyRnxyX

xy

xC

Thu thập các ý tưởng trên, chúng tôi đến khá tự nhiên tại

D(x,y)=(xy)C1(xy)

XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

Hãy xem xét hai trường hợp biến. Nhìn thấy hình ảnh này của bivariate bình thường (cảm ơn @whuber), bạn không thể đơn giản cho rằng AB lớn hơn AC. Có một hiệp phương sai tích cực; hai biến có liên quan với nhau.

Bạn chỉ có thể áp dụng các phép đo Euclide đơn giản (các đường thẳng như AB và AC) nếu các biến là

  1. độc lập
  2. có phương sai bằng 1.

Về cơ bản, thước đo khoảng cách Mahalanobis thực hiện như sau: nó biến đổi các biến thành các biến không tương quan với phương sai bằng 1, và sau đó tính khoảng cách Euclide đơn giản.


1
bạn có gợi ý rằng mỗi khi tôi thấy một mối tương quan trong biểu đồ như trong câu trả lời của bạn ở đây, tôi chỉ nên nghĩ về việc tính toán Mahalanobis chứ không phải là khoảng cách Euclide? Điều gì sẽ cho tôi biết khi sử dụng mà?
sandp

7

Tôi sẽ cố gắng giải thích cho bạn một cách đơn giản nhất có thể:

Khoảng cách Mahalanobis đo khoảng cách của một điểm x từ phân phối dữ liệu. Phân phối dữ liệu được đặc trưng bởi một ma trận trung bình và ma trận hiệp phương sai, do đó được giả thuyết là một gaussian đa biến.

Nó được sử dụng trong nhận dạng mẫu như là thước đo tương tự giữa mẫu (phân phối dữ liệu của ví dụ đào tạo của một lớp) và ví dụ thử nghiệm. Ma trận hiệp phương sai cho hình dạng của dữ liệu được phân phối trong không gian tính năng.

Hình chỉ ra ba lớp khác nhau và đường màu đỏ biểu thị cùng khoảng cách Mahalanobis cho mỗi lớp.  Tất cả các điểm nằm trên đường màu đỏ có cùng khoảng cách với giá trị trung bình của lớp, bởi vì nó được sử dụng ma trận hiệp phương sai.

Hình chỉ ra ba lớp khác nhau và đường màu đỏ biểu thị cùng khoảng cách Mahalanobis cho mỗi lớp. Tất cả các điểm nằm trên đường màu đỏ có cùng khoảng cách với giá trị trung bình của lớp, bởi vì nó được sử dụng ma trận hiệp phương sai.

Tính năng chính là việc sử dụng hiệp phương sai làm yếu tố chuẩn hóa.


6

Tôi muốn thêm một chút thông tin kỹ thuật vào câu trả lời xuất sắc của Whuber. Thông tin này có thể không quan tâm đến bà, nhưng có lẽ cháu của bà sẽ thấy nó hữu ích. Sau đây là giải thích từ dưới lên trên của đại số tuyến tính có liên quan.

d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTzQ(xy)D12D12D1zTz


5

Tôi có thể hơi muộn để trả lời câu hỏi này. Bài báo ở đây là một khởi đầu tốt để hiểu khoảng cách Mahalanobis. Họ cung cấp một ví dụ hoàn chỉnh với các giá trị số. Những gì tôi thích về nó là đại diện hình học của vấn đề được trình bày.


4

Chỉ cần thêm vào những lời giải thích tuyệt vời ở trên, khoảng cách Mahalanobis phát sinh một cách tự nhiên trong hồi quy tuyến tính (đa biến). Đây là một kết quả đơn giản của một số kết nối giữa khoảng cách Mahalanobis và phân phối Gaussian được thảo luận trong các câu trả lời khác, nhưng tôi nghĩ dù sao nó cũng đáng để đánh vần.

(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xiC

yixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
C
argminβ[logp(yixi;β)]=argminβDC(β0+β1xi,yi),
DC(y^,y)=(yy^)C1(yy^)
y^,yRm

Theo tính độc lập, khả năng của cho được cho bởi tổng Do đó, trong đó hệ số không ảnh hưởng đến argmin.logp(yx;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N

Tóm lại, các hệ số giúp giảm thiểu khả năng nhật ký âm (nghĩa là tối đa hóa khả năng) của dữ liệu được quan sát cũng giảm thiểu rủi ro theo kinh nghiệm của dữ liệu với chức năng mất do khoảng cách Mahalanobis đưa ra.β0,β1


1
Vâng, không hoàn toàn. Thuật ngữ đó tương ứng với thay đổi mọi thứ khá nhiều. Và dường như bạn đã tập trung vào chiều không gian khác: khoảng cách Mahalanobis thực sự đóng vai trò quan trọng hơn nhiều trong không gian chiều được kéo dài bởi các cột, bởi vì điều đó có liên quan đến đòn bẩy. Người đọc có thể sẽ bị nhầm lẫn bởi điều đó, tuy nhiên, do sự đảo ngược vai trò của và trong ký hiệu của bạn: là vectơ tham số và ma trận thiết kế! logdetCnxβxβ
whuber

Ý định của tôi là ở đây để biểu thị một ví dụ đào tạo có nhãn duy nhất (vì vậy không có ma trận thiết kế nào ở đây); Lý do là một vectơ là tôi đang thực hiện hồi quy đa biến (nếu không, thuật ngữ tiếng ồn sẽ là một Gaussian một biến, sẽ không có ma trận hiệp phương sai và ví dụ này có vẻ quá tầm thường). Có lẽ ký hiệu của tôi là không chuẩn, vì nền tảng của tôi không nằm trong số liệu thống kê. Về sự hiện diện của thuật ngữ , ý tôi là . y ε đăng nhập det C một r g m i n beta [ - log p ( y | x ; β ) ] = một r g m i n β (x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)
Ben CW

Điều quan trọng là phải giải thích những biểu tượng của bạn đề cập đến thay vì yêu cầu người đọc đoán. Rất có thể lời giải thích của bạn là một câu hỏi hay, nhưng không có lời giải thích đó (mà bạn đã bắt đầu với nhận xét mới nhất đó) Tôi nghi ngờ hầu hết độc giả sẽ gặp khó khăn trong việc hiểu ý nghĩa của bạn.
whuber

2
Tôi thấy điểm của bạn. Tôi đã chỉnh sửa câu trả lời ban đầu để kết hợp một số ý tưởng trong những bình luận này.
Ben CW

2

Khoảng cách Mahalanobis là khoảng cách eidianidian (khoảng cách tự nhiên) có tính đến hiệp phương sai của dữ liệu. Nó mang lại trọng lượng lớn hơn cho thành phần gây ồn và do đó rất hữu ích để kiểm tra sự giống nhau giữa hai bộ dữ liệu.

Như bạn có thể thấy trong ví dụ của bạn ở đây khi các biến tương quan, phân phối được chuyển sang một hướng. Bạn có thể muốn loại bỏ hiệu ứng này. Nếu bạn tính đến mối tương quan trong khoảng cách của bạn, bạn có thể loại bỏ hiệu ứng thay đổi.


2
Tôi tin rằng khoảng cách Mahalanobis làm giảm đáng kể các hướng hiệp phương sai lớn, thay vì cho trọng lượng "lớn hơn" ở đó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.