Lỗi phân loại thấp hơn khi tôi không học bất kỳ dữ liệu nào?

Tôi có một bộ dữ liệu của một túi từ. Tôi chọn ngẫu nhiên một số điểm và sử dụng chúng để kiểm tra và những điểm khác được sử dụng cho đào tạo.

trường hợp (1) Tôi chỉ lấy mỗi điểm dữ liệu từ tập kiểm tra và phân loại nó có cùng nhãn lớp với điểm gần nhất từ tập tàu.
trường hợp (2) Tôi thực hiện phân loại bằng cách sử dụng bất kỳ phân loại được giám sát đã biết.

Tôi luôn nhận được tỷ lệ nhận dạng tốt hơn trong trường hợp (1). Đó là, không thực hiện bất kỳ học tập nào, tốt hơn là sử dụng bất kỳ học tập có giám sát nào, cho tập dữ liệu này (và những người khác)! Đó có phải là một tình huống thường xuyên?

machine-learning classification

— chết tiệt
nguồn

Tôi không biết nếu nó thường xuyên, nhưng nó đã xảy ra với tôi. Trình phân loại của bạn không hoạt động tốt. Cụ thể, tôi thường thực hiện các mô hình cây và thấy rằng nút gốc là cây tốt nhất (tùy theo định nghĩa của "tốt nhất").

— Peter Flom

Mọi người thường mắc lỗi khi thực hiện các thuật toán học tập. Nếu bạn sử dụng độ dốc giảm dần, hãy kiểm tra xem một bước nhỏ theo hướng của độ dốc thực sự làm giảm hàm chi phí bằng khoảng số lượng cần thiết. Đây là một thử nghiệm dễ dàng, nhưng nhiều người bỏ qua nó và lãng phí thời gian để điều chỉnh một thuật toán có lỗi dấu hiệu, hoặc một số vấn đề tương tự.

— Douglas Zare

@DoumundZare Tôi đã thử nghiệm với nhiều phân loại từ Weka và những người khác mà tôi tự thực hiện. Đối với nhiều bộ dữ liệu, sử dụng bộ phân loại có bước đào tạo (ví dụ: trường hợp (2)) sẽ cho kết quả tốt hơn trường hợp (1), tuy nhiên, đối với ba bộ dữ liệu bao gồm các từ mà tôi hiện đang kiểm tra, tôi nhận được kết quả tốt hơn trong trường hợp (1). Tôi không nghĩ rằng việc học / phân loại không hoạt động tốt, vì tôi đã thử nghiệm với nhiều phân loại.

— SHN

Điều đó không đúng khi bạn không học. Những gì bạn đang làm là sử dụng thuật toán phân loại nổi tiếng được gọi là Hàng xóm gần nhất (NN). Điều quan trọng là phải nhận ra rằng bạn đang học miễn là bạn đang sử dụng dữ liệu xe lửa (ngay cả khi bạn không tính toán rõ ràng một số tham số) - và trong trường hợp này bạn chắc chắn đang sử dụng nó.

Nó là ok mà NN đang làm tốt. Tuy nhiên, trong một số trường hợp, đó có thể là dấu hiệu cho thấy có vấn đề với dữ liệu của bạn. Điều này có thể xảy ra khi dữ liệu của bạn không phải là IID . Ví dụ: trong một số trường hợp, bạn có thể có các bản sao chính xác hoặc đóng trong dữ liệu của mình. Trong trường hợp như vậy, nhiều trường hợp trong tập kiểm tra sẽ có một người hàng xóm thân thiết trong tập tàu và bạn sẽ có tỷ lệ thành công cao nhưng thực tế bạn đang bị quá sức, bởi vì nếu bạn nhận được điểm mới mà không trùng lặp thì hiệu suất của bạn sẽ tệ hơn. Những gì bạn có thể làm trong trường hợp này là cố gắng loại bỏ các bản sao trước hoặc xây dựng các bộ kiểm tra / thử nghiệm sao cho các bản sao (hoặc cụm chặt chẽ) phải nằm trong cùng một bộ. Điều quan trọng là nhìn vào dữ liệu và cố gắng hiểu những gì đang xảy ra.

— Bitwise
nguồn

Tôi trực tiếp sử dụng tập huấn luyện để thực hiện việc phân loại các điểm tập kiểm tra. Không có giai đoạn đào tạo đã được thực hiện trên tập huấn luyện. Tôi không học được gì, tôi chỉ phân loại điểm kiểm tra của mình. Tôi không biết tại sao bạn gọi đây là "học" chỉ vì bộ tàu được sử dụng. Tuy nhiên, tôi chỉ kiểm tra tập dữ liệu và bạn nói đúng, có một số điểm dữ liệu trùng lặp, đôi khi cùng một điểm dữ liệu nằm trong tập lệnh và tập kiểm tra, đây không phải là trường hợp của tất cả các điểm dữ liệu, nhưng tôi sẽ thử để sửa chữa loại bỏ các bản sao và xem nếu vấn đề được khắc phục.

— SHN

@shn đó là một lỗi phổ biến khi nghĩ rằng bạn không học và không có tham số nào trong phương thức đó. Miễn là bạn sử dụng dữ liệu đào tạo, đó là học tập. Những gì bạn thực sự đang làm là sử dụng toàn bộ tập huấn làm "tham số đã học" của bạn, vì vậy khi bạn lưu nó để sử dụng sau này, bạn thực sự "đào tạo" (đây là lý do tại sao NN thường dễ bị quá mức - nó thực sự có rất nhiều của "tham số"). Nếu dự đoán bạn đưa ra phụ thuộc vào tập huấn luyện, thì đó là học tập. Một trường hợp không được đào tạo sẽ là nếu bạn đưa ra dự đoán mà KHÔNG sử dụng tập huấn luyện nào cả.

— Bitwise

Ok, vấn đề đến từ các điểm trùng lặp. Bằng cách loại bỏ chúng, một số phân loại đạt được tỷ lệ nhận dạng tốt hơn một chút so với chiến lược NN. Tuy nhiên, tôi không nhận thấy rằng có quá nhiều điểm trùng lặp, tôi đã xóa chúng và cuối cùng tôi có một bộ dữ liệu nhỏ hơn nhiều, số lượng phiên bản không thực sự đủ để thực hiện việc học trực tuyến. Bạn có biết bất kỳ tập dữ liệu có nhãn nào về phân loại tài liệu đã sẵn sàng để sử dụng (nghĩa là tôi có thể sử dụng mà không cần xử lý trước và nhiều thứ ...)? Có một bộ dữ liệu từ ngữ tuyệt vời trên repo UCI, nhưng nhãn không được cung cấp.

— shn