Định lượng độ tương tự giữa hai bộ dữ liệu


12

Tóm tắt : Cố gắng tìm phương pháp tốt nhất tóm tắt sự giống nhau giữa hai bộ dữ liệu được căn chỉnh bằng một giá trị duy nhất.

Chi tiết :

Câu hỏi của tôi được giải thích tốt nhất với một sơ đồ. Các biểu đồ bên dưới hiển thị hai bộ dữ liệu khác nhau, mỗi bộ có giá trị được gắn nhãn nfnr. Các điểm dọc theo trục x biểu thị nơi thực hiện các phép đo và các giá trị trên trục y là giá trị đo được kết quả.

Đối với mỗi biểu đồ, tôi muốn một số duy nhất tóm tắt độ tương tự nfnrgiá trị tại mỗi điểm đo. Trong ví dụ này, rõ ràng là các kết quả trong các biểu đồ đầu tiên ít giống nhau hơn các kết quả trong biểu đồ thứ hai. Nhưng tôi có rất nhiều dữ liệu khác mà sự khác biệt ít rõ ràng hơn, vì vậy việc có thể xếp hạng số lượng này sẽ rất hữu ích.

Tôi nghĩ rằng có thể có một kỹ thuật tiêu chuẩn thường được sử dụng. Tìm kiếm sự tương tự thống kê đã cho rất nhiều kết quả khác nhau, nhưng tôi không chắc nên chọn cái nào là tốt nhất hoặc nếu những thứ tôi đã sẵn sàng áp dụng cho vấn đề của mình. Vì vậy, tôi nghĩ rằng câu hỏi này có thể đáng để hỏi ở đây trong trường hợp có một câu trả lời đơn giản.

nhập mô tả hình ảnh ở đây


1
Bạn có thể muốn xem bài báo này có rất nhiều biện pháp được liệt kê. ( Users.uom.gr/~kouiruki/sung.pdf ) Nếu liên kết không hoạt động được gọi là "Khảo sát toàn diện về các biện pháp cách / Sự tương đồng giữa hàm xác suất mật độ" của mình bằng cách Sung-Hyuk Cha trên Tạp chí quốc tế về toán học mô hình và phương pháp trong Khoa học ứng dụng đánh giá rất nhiều biện pháp tương tự.
arie64

Dynamic Time Warping được sử dụng để đo độ tương tự giữa hai chuỗi thời gian. Kỹ thuật này có thể làm nhiệm vụ ở đây. Kiểm tra liên kết này: vi.wikipedia.org/wiki/Docate_time_warping
Aman Anand

Câu trả lời:


6

Khu vực giữa 2 đường cong có thể cung cấp cho bạn sự khác biệt. Do đó tổng (nr-nf) (tổng của tất cả các khác biệt) sẽ là một xấp xỉ của khu vực giữa 2 đường cong. Nếu bạn muốn làm cho nó tương đối, sum (nr-nf) / sum (nf) có thể được sử dụng. Chúng sẽ cung cấp cho bạn một giá trị duy nhất biểu thị sự giống nhau giữa 2 đường cong cho mỗi biểu đồ.

Chỉnh sửa: Phương pháp tổng hợp chênh lệch ở trên sẽ hữu ích ngay cả khi đây là các điểm hoặc quan sát riêng biệt và không phải là đường hoặc đường cong được kết nối, nhưng trong trường hợp đó, trung bình của sự khác biệt cũng có thể là một chỉ báo và có thể tốt hơn vì nó sẽ tính đến số lượng quan sát.


1
Tôi sẽ thử nó và xem nó hoạt động như thế nào. Tôi vẫn hy vọng có thể liên kết nó với một kỹ thuật chính thức hơn. Tôi đã đọc về Khoảng cách Euclide và có vẻ như nó khá giống với kỹ thuật ở đây. Cũng như một ghi chú bổ sung mặc dù biểu đồ của tôi có các đường kết nối, tôi chỉ quan tâm đến các điểm riêng lẻ. Tôi không thực sự so sánh các đường cong, chỉ là các giá trị đo được. Tôi không biết nếu điều đó rõ ràng trong câu hỏi của tôi.
Gabriel Nam

Nó sẽ hoạt động ngay cả khi các điểm không được kết nối.
rnso

1

Bạn cần xác định rõ hơn ý của bạn bằng 'sự tương tự'. Độ lớn có quan trọng không? Hay chỉ có hình dạng?

Nếu chỉ hình thành vấn đề, bạn sẽ muốn bình thường hóa cả hai chuỗi thời gian theo giá trị tối đa của chúng (vì vậy cả hai đều từ 0 đến 1).

Nếu bạn đang tìm kiếm một mối tương quan tuyến tính, một mối tương quan pearson đơn giản sẽ hoạt động tốt - về cơ bản là đo hiệp phương sai.

Ví dụ, có các kỹ thuật khác có thể phù hợp với một dòng hoặc đa thức cho chuỗi thời gian (về cơ bản làm mịn nó), và sau đó so sánh các đa thức mịn.

Nếu bạn đang tìm kiếm sự tương tự định kỳ (tức là chuỗi thời gian có thành phần hình sin hoặc thời vụ nhất định), trước tiên hãy xem xét sử dụng phân tách chuỗi thời gian thành xu hướng và các thành phần theo mùa. Hoặc sử dụng một cái gì đó như FFT để so sánh dữ liệu trong miền tần số.

Đó là tất cả những gì tôi biết mà không cần định nghĩa thêm về 'tương tự' là gì. Hy vọng nó giúp.


0

Bạn có thể sử dụng (nr-nf) cho mọi điểm đo, số càng nhỏ (giá trị tuyệt đối) thì giá trị càng giống nhau. Không chính xác là cách tiếp cận khoa học nhất, xin vui lòng tha thứ cho tôi, tôi không được đào tạo chính thức thực sự về công cụ này. Nếu bạn chỉ tìm kiếm một đại diện số của hình ảnh, điều đó nên làm điều đó.


1
Cảm ơn đề nghị của bạn. Tôi cũng nghĩ về điều đó, nhưng vấn đề là nó sẽ được cân nhắc bởi sự khác biệt tuyệt đối chứ không phải là sự khác biệt tương đối. Trong ví dụ tôi bao gồm các tập dữ liệu tương tự hơn cũng có các giá trị tuyệt đối nhỏ hơn, nhưng nếu tình huống được đảo ngược, bạn có thể có một cách hiểu không chính xác bằng kỹ thuật này. Tôi cần tóm tắt sự tương đồng / khác biệt tương đối chứ không phải là một sự khác biệt tuyệt đối.
Gabriel Nam

(Nr-nf) / nf có hoạt động không? Điều đó sẽ giúp bạn có được tương đối. Tôi thực sự thích thú khi thấy câu trả lời thực sự vì bản thân tôi đang đối phó với tình huống tương tự.
Mike G

Nếu tất cả đều ở quy mô tương đương thì thực tế là những cái tương tự của bạn thường thấp hơn không phải là về giá trị tương đối, đó là về cách giải thích về sự tương đồng. Nếu các giá trị trong biểu đồ thứ hai nằm trong khoảng 101-104 thì nó có thay đổi cách hiểu về sự giống nhau của chúng không? Nếu vậy, bạn cần phải giải thích điều đó. Thông tin chi tiết về chính xác biến y là cần thiết.
Giăng

@ John đó là một điểm tốt. Tôi đoán tôi cần phải suy nghĩ về điều này nhiều hơn. Các giá trị trên y là các giá trị tăng tốc cho điểm chuẩn và tôi đang cố gắng so sánh sự giống nhau giữa nhiều cấu hình khác nhau. Vì vậy, tôi đoán đề xuất trong câu trả lời này có thể hoạt động, tôi có thể thử nó chỉ để xem những con số trông như thế nào. Tôi vẫn thích sử dụng một kỹ thuật thống kê được chấp nhận chính thức hơn (nếu có một vấn đề cho vấn đề của tôi).
Gabriel Nam
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.