Chọn siêu đường kính sử dụng T-SNE để phân loại


13

Trong một vấn đề cụ thể mà tôi làm việc với (một cuộc thi), tôi có cài đặt theo dõi: 21 tính năng (số trên [0,1]) và đầu ra nhị phân. Tôi có khoảng 100 K hàng. Các thiết lập dường như rất ồn ào.

Tôi và những người tham gia khác áp dụng việc tạo tính năng trong một thời gian và nhúng hàng xóm ngẫu nhiên phân tán t hóa ra khá mạnh mẽ trong cài đặt này.

Tôi tình cờ thấy bài đăng này "Cách sử dụng hiệu quả t-SNE" nhưng tôi vẫn không thể thực sự kết luận về cách chọn siêu âm tốt nhất trong cài đặt phân loại của mình.

Có bất kỳ quy tắc nào (số lượng tính năng, kích thước của nhúng -> sự lựa chọn của sự bối rối) không?

Tôi chỉ áp dụng các cài đặt đặc biệt vào lúc này vì mất quá nhiều thời gian để lặp lại các cài đặt khác nhau. Cảm ơn cho bất kỳ ý kiến.


Đây là một câu hỏi hay! Hy vọng ai đó sẽ tìm thấy câu trả lời của tôi đủ mờ nhạt để bạn có được câu trả lời khác (và tôi cũng học được điều gì đó mới).
usεr11852 nói Phục hồi Monic

Câu trả lời:


17

Tôi thường xuyên sử dụng -SNE ( bên cạnh các kỹ thuật phân cụm - nhiều hơn về điều này cuối cùng ) để nhận ra / đánh giá sự hiện diện của các cụm trong dữ liệu của tôi. Thật không may, theo hiểu biết của tôi, không có cách tiêu chuẩn nào để chọn sự bối rối chính xác ngoài việc nhìn vào bộ dữ liệu kích thước giảm được sản xuất và sau đó đánh giá xem nó có ý nghĩa hay không. Có một số sự kiện chung, ví dụ. khoảng cách giữa các cụm chủ yếu là vô nghĩa, các giá trị lúng túng nhỏ khuyến khích các cấu trúc giống như cục máu đông nhưng đó là về nó.t

Một nguyên tắc rất thô sơ là kiểm tra giá trị lỗi liên quan đến mỗi lần tái thiết là gì. q qt-SNE đang cố gắng giảm thiểu tổng số phân kỳ Kullback-Leibler giữa phân phối khoảng cách giữa dữ liệu trong miền ban đầu và phân phối khoảng cách giữa dữ liệu trong miền kích thước giảm (thực tế phân phối đích là phân phối của xác suất mà một điểm sẽ chọn một điểm khác làm điểm lân cận nhưng các điểm này tỷ lệ thuận với khoảng cách giữa hai điểm). Có thể lập luận rằng các giá trị nhỏ hơn của phân kỳ KL cho thấy kết quả tốt hơn. Ý tưởng này không hoạt động tốt trong thực tế nhưng về mặt lý thuyết sẽ giúp loại trừ một số phạm vi của các giá trị lúng túng cũng như một số lần chạy thuật toán rõ ràng là tối ưu. Tôi giải thích lý do tại sao heuristic này là xa thuốc chữa bách bệnh và làm thế nào nó có thể hữu ích nhẹ: Tham số perplexity tăng đơn điệu với phương sai của Gaussian được sử dụng để tính khoảng cách / xác suất. Do đó, khi bạn tăng toàn bộ tham số lúng túng, bạn sẽ nhận được khoảng cách nhỏ hơn trong các điều khoản tuyệt đối và các giá trị phân kỳ KL tiếp theo. Tuy nhiên, nếu bạn có 20 lần chạy với cùng một sự bối rối và bạn không thể (không muốn) nhìn vào chúng, bạn luôn có thể chọn một biến có biến nhỏ nhất với hy vọng nó giữ được khoảng cách ban đầu chính xác hơn. Điều tương tự cũng xảy ra với Tuy nhiên, nếu bạn có 20 lần chạy với cùng một sự bối rối và bạn không thể (không muốn) nhìn vào chúng, bạn luôn có thể chọn một biến có biến nhỏ nhất với hy vọng nó giữ được khoảng cách ban đầu chính xác hơn. Điều tương tự cũng xảy ra với Tuy nhiên, nếu bạn có 20 lần chạy với cùng một sự bối rối và bạn không thể (không muốn) nhìn vào chúng, bạn luôn có thể chọn một biến có biến nhỏ nhất với hy vọng nó giữ được khoảng cách ban đầu chính xác hơn. Điều tương tự cũng xảy ra vớiθ , tham số gần đúng cho xấp xỉ Barnes-Hut, giả sử sự lúng túng là cố định thay đổi và sau đó kiểm tra chi phí kết quả sẽ có phần thông tin. Vào cuối ngày, chi phí thấp hơn có liên quan đến việc tái thiết trung thành hơn. Tất cả không bị mất mặc dù ...θ

Đối với trường hợp sử dụng cụ thể của bạn, một mẹo để tự động hóa nhẹ thủ tục chọn giá trị độ nhiễu tốt là: Chạy một quy trình phân cụm nhỏ (giả sử -means hoặc DBSCAN) trên tập dữ liệu kích thước giảm và sau đó đánh giá chất lượng của phân cụm đó sử dụng một số loại chỉ mục ( Cohen's , Rand index , Fowlkes-Mallows , v.v.) chống lại những gì bạn cố gắng dự đoán. Ý tưởng ở đây là đối với nhiệm vụ của bạn, việc trình bày chính xác dữ liệu ( kết quả -SNE phụ thuộc lúng túng ) sẽ đưa ra cách trình bày thông tin nhất (dưới dạng một trong các số liệu được đề cập) về mặt liên kết của chúng với thuộc tính bạn cố gắng dự đoán. Đây là lý do tại saok t tkktt-SNE được sử dụng ở vị trí đầu tiên, nếu đại diện kết quả là không phù hợp với các thuộc tính mà chúng tôi đang điều tra thì đơn giản là không tốt mặc dù lỗi tái cấu trúc thấp, kháng cáo trực quan, v.v.

Hãy để tôi chỉ ra rằng những gì tôi mô tả là heuristic . Như đã đề cập ở phần đầu của bài viết của tôi, kiểm tra thủ công các kết quả là một cách không thể thiếu để đánh giá chất lượng của việc giảm / phân cụm kích thước kết quả.


Cảm ơn vì điều này. Ý tưởng về chỉ số trong cách phân cụm phù hợp với phân loại nghe có vẻ thú vị.
Ric

4

Chúng tôi thường đặt mức độ bối rối thành 5% kích thước tập dữ liệu. Vì vậy, đối với một tập dữ liệu có 100 nghìn hàng, tôi sẽ bắt đầu với độ khó 5000, hoặc ít nhất 1000, nếu bạn không có sẵn máy tính hiệu năng cao. Các bộ dữ liệu của chúng tôi là từ phân tích tế bào học dòng chảy, chúng thường có 50k đến 500k điểm dữ liệu mỗi điểm có từ 10 đến 20 giá trị số.


4

Thật thú vị khi bạn có một cái nhìn "Lựa chọn tự động về sự bối rối t-SNE" của Cao và Wang :

t-Phân phối Stochastic Neighbor Nhúng (t-SNE) là một trong những phương pháp giảm kích thước được sử dụng rộng rãi nhất để hiển thị dữ liệu, nhưng nó có một siêu tham số lúng túng đòi hỏi phải chọn thủ công. Trong thực tế, việc điều chỉnh chính xác sự bối rối của t-SNE đòi hỏi người dùng phải hiểu được hoạt động bên trong của phương pháp cũng như có kinh nghiệm thực hành. Chúng tôi đề xuất một mục tiêu lựa chọn mô hình cho sự bối rối của t-SNE đòi hỏi tính toán thêm không đáng kể ngoài mục tiêu của chính t-SNE. Chúng tôi xác nhận bằng thực nghiệm rằng các cài đặt lúng túng được tìm thấy theo cách tiếp cận của chúng tôi phù hợp với các ưu tiên được rút ra từ các chuyên gia về con người qua một số bộ dữ liệu. Sự tương đồng của cách tiếp cận của chúng tôi với tiêu chí thông tin Bayes (BIC) và độ dài mô tả tối thiểu (MDL) cũng được phân tích.


2
Kết luận là gì ..?
Tim

1
S(Perptôiex.)= =2KL(P||Q)+đăng nhập(n)Pertôiex.n
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.