t-SNE
phương pháp không yêu cầu loại bỏ các bản sao. Thực tế rằng nó là một tính năng mặc định trong Rtsne
không ngụ ý yêu cầu của nó. Nó rất hữu ích cho một số giám sát sự kiện ngắn hạn. Để mô tả các xu hướng dài hạn và / hoặc các mẫu với các tập dữ liệu lớn, tôi thấy ít sử dụng. Các Rtsne
thiết lập mặc định có thể được nghiêng nhiều hơn cho việc mô tả các sự kiện trong miền thời gian, mà không cần bất kỳ nghiên cứu trong phạm vi của Fourier.
Giả sử bạn có điểm trong miền thời gian. Thuật toán trùng lặp gây ra số lượng dương tính giả đáng kể vì việc kiểm tra trùng lặp chủ yếu được thiết kế trên tín hiệu miền thời gian. Không gian Fourier có thể chỉ ra rằng những sự kiện được xem xét bởi thuật toán trùng lặp là không cần thiết.
Vì vậy, quan sát của tôi là thuật toán này rất tham lam về các điểm trùng lặp trong miền thời gian, điều này không hữu ích cho tôi khi xem xét các tín hiệu dài hạn, xu hướng dài hạn và các mẫu dài hạn. Việc điểm được nhân đôi trong miền thời gian không thực sự có nghĩa là nó cũng bị trùng lặp trong miền Fourier. Tôi nghĩ sẽ là một sự trùng hợp ngẫu nhiên hơn nếu là một bản sao trong miền thời gian trong các ứng dụng thực tế. Vì vậy, tắt tính năng, nên ok. Để ước tính có bao nhiêu điểm thực sự trùng lặp trong cả hai lĩnh vực cụ thể trong nghiên cứu trường hợp. Tôi nhận được mô tả tốt hơn đáng kể về các sự kiện và / hoặc hiện tượng bằng cách xem xét các tập dữ liệu dài hạn mà không cần kiểm tra trùng lặp trong nhiều ứng dụng thực tế.
Tôi nghĩ rằng Rtsne
tài liệu này không rõ ràng về trường hợp nói [tắt check_duplicates
và] không lãng phí sức mạnh xử lý . Có những lý do thực sự khác như được mô tả ở trên tại sao check_duplicates
có thể tắt như được nhận ra bởi một số triển khai khác của phương pháp. Hiện tại, đây check_duplicates=TRUE
là một lựa chọn cá nhân của Rtsne
nhà phát triển. Tôi rất muốn nghe nếu có bất kỳ lý do thực hiện cho quyết định.