Hiệu suất tốt nhất có thể có trên một tập dữ liệu


9

Nói rằng tôi có một vấn đề máy học đơn giản như phân loại. Với một số điểm chuẩn trong tầm nhìn hoặc nhận dạng âm thanh, tôi, với tư cách là một con người, là một người phân loại rất tốt. Do đó, tôi có một trực giác về việc phân loại có thể nhận được tốt như thế nào.

Nhưng với rất nhiều dữ liệu, một điểm là tôi không biết trình phân loại tôi đào tạo tốt đến mức nào. Đây là dữ liệu mà cá nhân tôi không phải là người phân loại rất tốt (giả sử, phân loại tâm trạng của một người từ dữ liệu EEG). Thật sự không thể có được một trực giác về vấn đề của tôi khó khăn như thế nào.

Bây giờ, nếu tôi gặp vấn đề về máy học, tôi muốn tìm hiểu xem tôi có thể nhận được tốt như thế nào. Có bất kỳ cách tiếp cận nguyên tắc nào cho việc này? Bạn sẽ làm điều này như thế nào?

Trực quan hóa dữ liệu? Bắt đầu với những mô hình đơn giản? Bắt đầu với các mô hình rất phức tạp và xem liệu tôi có thể vượt qua? Bạn đang tìm kiếm điều gì nếu bạn muốn trả lời câu hỏi này? Khi nào bạn ngừng cố gắng?

Câu trả lời:


6

Tôi không biết liệu đây có phải là một câu trả lời không ...

Đây là một vấn đề khiến bạn thức đêm. Bạn có thể xây dựng một mô hình tốt hơn? Phd-comics tóm tắt nó một cách độc đáo (Tôi không biết liệu tôi có được phép tải lên truyện tranh hay không, vì vậy tôi chỉ liên kết chúng)

Từ kinh nghiệm cá nhân của tôi, có được bằng cách tham gia các cuộc thi Machine Learning, đây là một quy tắc.

Hãy tưởng tượng bạn được giao một nhiệm vụ phân loại. Ngồi xuống, suy nghĩ một giờ hoặc ít hơn cách bạn tiếp cận vấn đề và kiểm tra tình trạng của nghệ thuật trong lĩnh vực này. Xây dựng một mô hình dựa trên nghiên cứu này, tốt nhất là một mô hình được biết là ổn định mà không cần điều chỉnh quá nhiều tham số. Hiệu suất thu được sẽ vào khoảng 80% hiệu suất tối đa có thể đạt được.

Quy tắc này dựa trên nguyên tắc Pareto , cũng được áp dụng để tối ưu hóa. Đưa ra một vấn đề, bạn có thể tạo ra một giải pháp thực hiện hợp lý nhanh chóng, nhưng từ đó tỷ lệ cải thiện với nỗ lực thời gian giảm xuống nhanh chóng.

Một số từ cuối cùng: Khi tôi đọc các bài báo về các thuật toán phân loại mới, tôi mong các tác giả so sánh giống mới của họ với các cách tiếp cận "tối ưu hóa pareto" như vậy, tức là tôi hy vọng họ dành một khoảng thời gian hợp lý để làm cho trạng thái của tác phẩm nghệ thuật (một số yêu cầu tối ưu hóa tham số nhiều hơn hoặc ít hơn). Thật không may, nhiều người không làm điều đó.


0

Cách thông thường là xem xét ROC và khu vực bên dưới nó (AUC). Lý do đằng sau phương pháp này là tỷ lệ dương thực sự cao đối với tỷ lệ dương tính giả cụ thể càng cao thì phân loại càng tốt. Tích hợp trên tất cả các tỷ lệ dương tính giả có thể cung cấp cho bạn một thước đo tổng thể.


3
Theo như tôi đã hiểu về OP, vấn đề của anh ấy KHÔNG phải là đo lường hiệu suất của phân loại (hy vọng là một ước tính tốt cho hiệu suất dự kiến ​​trong tương lai) mà là người ta có thể đạt được AT ALL tốt như thế nào, tức là mức tối đa (không hoàn toàn trên mỗi số liệu (AUC là 1 ở mức tối đa hoặc tương tự như vậy), nhưng đối với một vấn đề nhất định)
steffen

Vâng, đó là những gì tôi muốn nói.
bayerj

0

Nếu có một cách nào đó để bạn trực quan hóa dữ liệu của mình, đó là tình huống tốt nhất có thể xảy ra tuy nhiên không phải tất cả dữ liệu đều có thể được hiển thị theo cùng một cách, vì vậy bạn có thể cần tìm cách riêng để chiếu dữ liệu có thể giúp bạn hiểu dữ liệu của mình tốt hơn.

Tuy nhiên, nói chung, tôi thường lấy một mẫu dữ liệu nhỏ, chuyển đổi nó thành ARFF và thử các thuật toán phân cụm khác nhau từ WEKA. Sau đó, tôi chỉ xem thuật toán nào cho tôi ma trận nhầm lẫn tốt hơn. Nó cho tôi một gợi ý về việc các lớp được phân tách tốt như thế nào và cho phép tôi điều tra lý do tại sao thuật toán cụ thể đó làm tốt hơn cho dữ liệu này. Tôi cũng thay đổi số lượng cụm (tức là tôi không chỉ sử dụng k = 2, tôi sử dụng k = 3, 4, v.v.). Nó cho tôi một ý tưởng cho dù có sự phân mảnh trong dữ liệu hay liệu một lớp có bị phân mảnh hơn so với lớp kia hay không. Nếu bạn kết hợp các điểm đào tạo và kiểm tra với nhau để phân cụm, bạn cũng có thể đo các cụm được đại diện bởi các điểm đào tạo của bạn. Một số cụm có thể được đại diện quá mức và một số có thể được đại diện dưới, cả hai có thể gây ra vấn đề học tập phân loại.

Luôn luôn kiểm tra độ chính xác đào tạo của bạn. Nếu độ chính xác đào tạo của bạn không được tốt, thì điểm đào tạo được phân loại sai cũng là một gợi ý lớn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.