Có nên kết hợp hai tập dữ liệu?


7

Tôi có hai bộ dữ liệu về nhịp tim của các đối tượng được ghi nhận ở hai nơi khác nhau (chính xác là hai lục địa khác nhau). Hai thí nghiệm nghiên cứu nhằm tìm cảm xúc của các đối tượng dựa trên nhịp tim của họ thay đổi theo thời gian. Tôi đang sử dụng học máy để dự đoán cảm xúc của các đối tượng và tôi nhận được kết quả chấp nhận được khi thử nghiệm riêng trên mỗi tập dữ liệu. Tuy nhiên, tôi nhận được kết quả thậm chí tốt hơn nếu tôi hợp nhất hai bộ dữ liệu.

Tuy nhiên tôi không chắc chắn nếu kết hợp hai bộ dữ liệu có được chấp nhận hay không. Khi tôi kết hợp hai bộ dữ liệu khác nhau, nó sẽ tạo ra sự thiên lệch thống kê? Làm thế nào tôi nên báo cáo phát hiện của tôi trong một bài báo?


1
Chào mừng bạn đến với DS SE, Người giỏi nhất có thể nói.is to go.ahead và thử kết hợp và sau đó so sánh điểm số riêng biệt trên Bộ dữ liệu xác thực cố định xuất phát từ cả hai bộ dữ liệu để chúng tôi có thể điểm chuẩn những phát hiện mới của mình
Aditya

@Aditya, như tôi đã nói trong câu hỏi của mình, tôi đã kết hợp hai bộ dữ liệu và tôi nhận được kết quả tốt hơn. Câu hỏi của tôi không phải là nếu tôi có thể kết hợp các bộ dữ liệu. Câu hỏi của tôi là nếu điều này sẽ không tạo ra sự thiên vị thống kê vì tôi đang kết hợp hai bộ dữ liệu khác nhau
Lapatrie

Câu trả lời:


2

Nếu bạn thêm 'lục địa' hoặc 'vị trí' làm tính năng cho mô hình, thì bạn sẽ có thể kiểm soát độ lệch tiềm năng trong khi nhận được kết quả của dữ liệu bổ sung.


Cảm ơn rất nhiều cho lời đề nghị hữu ích của bạn. Tôi sẽ làm điều này và xem nó diễn ra như thế nào
Lapatrie

3

Thêm vào những gì @Super_John đã nói, nếu thêm các lục địa làm Tính năng, thì bạn cũng có thể có ít nhất 2nhiều tính năng nữa,

  • Vĩ độ
  • Kinh độ

Đồng thời thêm một cột tạm thời khác để biểu thị Source(như đến df, đến df, v.v.), để chúng tôi có thể thêm Màu vào11St22ndk-means

Vì vậy, bây giờ chúng ta có thể có một k-meansCụm để xem liệu các giá trị có chồng chéo hay không ... (Cố gắng xem nó theo cách không được giám sát)

(Sự tương tự tương đương với thực tế là bạn có thể phân cụm thời gian (24 giờ trong một ngày) theo kiểu tuần hoàn, như vẽ biểu đồ , và sau đó cố gắng phân cụm chúng)STôin(x)coS(X)

Hãy xem câu trả lời này, Lựa chọn tính năng, Trích xuất


Cảm ơn rất nhiều cho câu trả lời của bạn. Tôi chắc chắn sẽ khám phá tất cả các phương pháp được đề xuất và sẽ cập nhật cho bạn những gì hoạt động tốt nhất.
Lapatrie

1
Đây là một gợi ý tuyệt vời. Fonde - nếu bạn làm điều này, bạn có thể hiểu bất kỳ sai lệch nào giữa các bộ dữ liệu và nếu tìm thấy ít hoặc không có sai lệch (nghĩa là các cụm trùng nhau), thì bạn có thể kết hợp và sử dụng phân tích làm hỗ trợ theo kinh nghiệm cho tính mạnh mẽ của bộ dữ liệu kết hợp trong tác vụ mô hình hóa của bạn .
Super_John

@Aditya Tôi hy vọng bạn tiếp tục giúp đỡ người khác :)
Truyền thông vào

1
Tôi không có lựa chọn nào khác! Nhưng bạn có thể lấy lại chúng! Thật tốt :)) Tôi thích cộng đồng này! @Media
Aditya

3

Mặc dù nhìn chung trong việc đào tạo một mô hình học máy, bạn càng có nhiều dữ liệu thì càng tốt cho việc đào tạo các mô hình tổng quát, điều đó có thể không xảy ra ở đây.

Cho rằng hai bộ dữ liệu được thu thập trong các môi trường hoàn toàn khác nhau, chúng có thể có các bản phân phối hoàn toàn khác nhau. Trong trường hợp này, đào tạo một mô hình trên bộ dữ liệu kết hợp thậm chí có thể làm giảm hiệu suất của mô hình.

Lời khuyên của tôi là, hãy thực hiện một số phân tích thống kê trên từng tập dữ liệu một cách độc lập - tìm giá trị trung bình và phương sai của từng biến cho mỗi tập dữ liệu và so sánh chúng chẳng hạn. Nếu phân tích cho thấy hai kho dữ liệu có phân phối khá giống nhau (tôi sẽ để lại định nghĩa tương đối giống với bạn), thì có thể kết hợp hai bộ dữ liệu để huấn luyện một mô hình.


2

Có, thông thường với ML, bạn có nhiều dữ liệu hơn, kết quả tốt hơn! Tất nhiên trộn dữ liệu từ các dân số khác nhau là rủi ro, nhưng nếu nó hoạt động, bạn đang đi đúng hướng.

Sử dụng nhiều dữ liệu giúp khái quát hóa trong quá trình đào tạo mô hình của bạn. Vì vậy, nếu bạn có thể kiểm tra mô hình của mình qua mẫu từ cả hai dân số và bạn có được kết quả tốt, bạn có thể làm điều đó.


Cảm ơn. Tôi sẽ thử và sẽ cập nhật bài viết của mình sau khi nhận được kết quả
Lapatrie

1

Để thêm vào cuộc thảo luận này, một đánh giá thích hợp sẽ cho bạn biết khá nhiều và có thể được sử dụng để trình bày công việc:

  • Tạo một bộ kiểm tra cho tập dữ liệu 1.
  • Tạo một bộ kiểm tra cho tập dữ liệu 2.
  • Huấn luyện một mô hình chỉ sử dụng tập dữ liệu 1, chỉ tập dữ liệu 2 và sử dụng kết hợp tập dữ liệu 1 và 2 để đánh giá hiệu suất của chúng trên cả hai bộ thử nghiệm.

Nếu mô hình kết hợp tốt hơn đáng kể so với các mô hình riêng biệt, bạn có một cái gì đó và tôi nghĩ bạn có thể báo cáo như vậy trong một ấn phẩm có thể. Tất nhiên, bạn vẫn sẽ phải thúc đẩy mô hình học máy nào bạn sử dụng, số liệu hiệu suất quan tâm của bạn, cách bạn tiến hành xác thực chéo, ...


2
Bạn đang tập trung vào việc tối ưu hóa hiệu suất mô hình. Mối quan tâm là dữ liệu và các thí nghiệm khác nhau và ấn phẩm đó phải thừa nhận bất kỳ sai lệch nào giữa 2 thử nghiệm tương tự nhưng khác nhau. Mặc dù các bộ dữ liệu có thể được kết hợp, phải có một mức độ giải thích cho phép giải thích và đo lường độ lệch giữa các thử nghiệm mà các giải pháp của bạn không cho phép.
Super_John

1
Bằng cách điều tra lỗi kiểm tra, người ta có thể ước tính sai lệch và phương sai? Ngoài ra, tôi nghĩ rằng kết quả thử nghiệm của mô hình được đào tạo trên tập dữ liệu 1 và được đánh giá trên bộ thử nghiệm 2 (và cách khác) sẽ cho bạn biết nhiều điều?
Archie

1

Trước khi tôi có thể cố gắng trả lời câu hỏi của bạn, tôi sẽ trình bày những gì tôi đã hiểu.

Kịch bản: Có sẵn hai bộ dữ liệu với nhịp tim của các đối tượng được ghi nhận ở hai lục địa khác nhau.

Mục tiêu: Tìm cảm xúc của đối tượng dựa trên nhịp tim của họ thay đổi theo thời gian

Mục tiêu: Phân loại cảm xúc của đối tượng

Lưu ý:

  1. Kết quả được chấp nhận khi được đào tạo và thử nghiệm như là riêng biệt.

  2. Giả sử rằng kết quả sẽ cải thiện khi kết hợp hai bộ dữ liệu

Câu hỏi:

  1. Là kết hợp hai bộ dữ liệu có thể chấp nhận?

Nếu các đối tượng của hai lục địa giống nhau thì sẽ không có vấn đề gì trong việc kết hợp các bộ dữ liệu. Tập hợp các cảm xúc khá giống nhau trên cùng một chủ đề

  1. Khi bạn kết hợp hai bộ dữ liệu khác nhau, nó sẽ tạo ra sự thiên lệch thống kê?

Miễn là đối tượng của hai bộ dữ liệu giống nhau thì việc kết hợp sẽ cải thiện kết quả của bạn do có nhiều dữ liệu hơn.

  1. Làm thế nào bạn nên báo cáo phát hiện của bạn trong một bài báo?

Bạn có thể thực hiện kiểm tra giả thuyết (ANOVA) cho hai mẫu


Cảm ơn rất nhiều vì câu trả lời rất chi tiết của bạn và tôi rất xin lỗi vì sự không rõ ràng trong bài viết gốc của tôi. Các đối tượng ở hai châu lục khác nhau không giống nhau. Tuy nhiên, các điều kiện ghi giống nhau bằng cách nào đó (nhưng không hoàn toàn giống nhau).
Lapatrie

1
Ông đề cập đến "Hai thí nghiệm nghiên cứu nhằm ..." vì vậy chúng không phải là cùng một thí nghiệm nghiên cứu, mặc dù có lẽ giống nhau. Tôi nghĩ rằng mối quan tâm ở đây xoay quanh sự thiên vị về sự khác biệt chưa biết trong các thí nghiệm, vì vậy trong khi chúng có thể được xác định, chúng chỉ có thể được kiểm soát nếu 'lục địa' hoặc 'id thí nghiệm' được đưa vào mô hình hoặc được kiểm tra tính độc lập.
Super_John

@FondeLapatrie Hy vọng bạn tốt. Biện minh là quan trọng trong khi thực hiện các bước nhất định. Vì, bạn không thể cung cấp thêm chi tiết về trường hợp sử dụng này. bạn cần đưa ra quyết định, liệu có đúng khi kết hợp hai bộ dữ liệu trong đó các đối tượng khác nhau và điều kiện thử nghiệm giống nhau không? Nếu các đối tượng (nói động vật có vú ăn thịt) là hổ và gấu Bắc cực của khu vực khác nhau thì liệu có đúng khi kết hợp? Đây chỉ là một ví dụ. Hy vọng bạn có thể hiểu những gì tôi đang cố gắng đưa ra.
NRP

@NRP Cảm ơn rất nhiều. Tôi hiểu những cạm bẫy và rủi ro liên quan đến việc hợp nhất hai bộ dữ liệu. Sau khi đọc cuộc hội thoại về chủ đề này, tôi tin rằng, trong trường hợp của tôi, việc kết hợp hai bộ dữ liệu là hợp lệ.
Lapatrie

1
@FondeLapatrie Điều đó thật tốt. Chúc bạn thành công!
NRP
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.