Cái nào đầu tiên: điểm chuẩn thuật toán, lựa chọn tính năng, điều chỉnh tham số?


11

Khi cố gắng thực hiện, ví dụ như phân loại, cách tiếp cận của tôi hiện tại là

  1. thử các thuật toán khác nhau trước và điểm chuẩn chúng
  2. thực hiện lựa chọn tính năng trên thuật toán tốt nhất từ ​​1 ở trên
  3. điều chỉnh các tham số bằng các tính năng và thuật toán đã chọn

Tuy nhiên, tôi thường không thể thuyết phục bản thân rằng có thể có một thuật toán tốt hơn sau đó là thuật toán được chọn, nếu các thuật toán khác đã được tối ưu hóa với tham số tốt nhất / các tính năng phù hợp nhất. Đồng thời, thực hiện tìm kiếm trên tất cả các tính năng thuật toán * tham số * chỉ là quá tốn thời gian.

Bất kỳ đề nghị về cách tiếp cận / trình tự đúng?

Câu trả lời:


8

Tôi giả sử bạn có nghĩa là lựa chọn tính năng như kỹ thuật tính năng . Quá trình tôi thường làm theo và tôi thấy một số người làm là

  1. Kỹ thuật tính năng
  2. Hãy thử một vài thuật toán, thường là các thuật toán có hiệu suất cao như RandomForest, Gradient Boosted Tree, Neutral Networks hoặc SVM trên các tính năng.

    2.1 Thực hiện điều chỉnh tham số đơn giản như tìm kiếm lưới trên một phạm vi nhỏ các tham số

Nếu kết quả của bước 2 không thỏa đáng, hãy quay lại bước 1 để tạo thêm các tính năng hoặc xóa các tính năng dư thừa và giữ các tính năng tốt nhất, mọi người thường gọi lựa chọn tính năng này . Nếu hết ý tưởng cho các tính năng mới, hãy thử nhiều thuật toán hơn.

Nếu kết quả ổn hoặc gần với những gì bạn muốn, sau đó chuyển sang bước 3

  1. Điều chỉnh tham số mở rộng

Lý do để làm điều này là phân loại là tất cả về kỹ thuật tính năng , và trừ khi bạn biết một số phân loại mạnh mẽ đáng kinh ngạc như học sâu tùy chỉnh cho một vấn đề cụ thể, chẳng hạn như Computer Vision. Tạo các tính năng tốt là chìa khóa. Chọn một phân loại là quan trọng nhưng không quan trọng. Tất cả các phân loại được đề cập ở trên là khá tương đương về hiệu suất, và hầu hết thời gian, phân loại tốt nhất hóa ra là một trong số chúng.

Điều chỉnh tham số có thể tăng hiệu suất, trong một số trường hợp, khá nhiều. Nhưng không có các tính năng tốt, điều chỉnh không giúp được nhiều. Hãy nhớ rằng, bạn luôn có thời gian để điều chỉnh tham số. Ngoài ra, không có điểm điều chỉnh tham số rộng rãi sau đó bạn khám phá một tính năng mới và làm lại toàn bộ.


2

Này, tôi vừa thấy câu hỏi của bạn. Đó là HOÀN TOÀN SAU để thực hiện lựa chọn tính năng trước và sau đó điều chỉnh mô hình bằng cách sử dụng xác thực chéo. Trong các yếu tố của học thống kê và bài đăng trên blog này, nó được đề cập rõ ràng rằng: Phương pháp CV không thiên vị chỉ khi tất cả việc xây dựng mô hình của bạn được thực hiện bên trong vòng CV. Vì vậy, lựa chọn tính năng bên trong vòng CV để điều chỉnh tham số. Nó có thể được thực hiện dễ dàng bằng cách sử dụng trình bao bọc bộ lọc trong gói MLR trong R.


1

Tôi đã trả lời một câu hỏi tương tự ở đây . Quá trình sẽ là:

  • Biến đổi và giảm: Liên quan đến các quá trình như biến đổi, trung bình và tỷ lệ trung bình, v.v.
  • Lựa chọn tính năng: Điều này có thể được thực hiện theo nhiều cách như lựa chọn ngưỡng, lựa chọn tập hợp con, v.v.
  • Thiết kế mô hình dự báo: Thiết kế mô hình dự đoán trên dữ liệu đào tạo tùy thuộc vào các tính năng bạn có trong tay.
  • Xác thực chéo và điều chỉnh tham số:
  • Dự đoán cuối cùng, xác nhận

Luôn luôn cố gắng và làm kỹ thuật tính năng trước khi lựa chọn mô hình. Sau đó, chọn mô hình theo các tính năng tốt nhất (hoặc các tính năng có xu hướng ảnh hưởng đến biến số vấn đề / phụ thuộc tốt hơn.)


0

Nếu bạn chuẩn bị dành thời gian để học cách một công cụ mới hoạt động, bạn có thể thử autosklearn. Nó làm tất cả những gì cần thiết để xây dựng một đường ống ML cho bạn. Tính năng tiền xử lý, lựa chọn, xây dựng mô hình tập hợp và điều chỉnh thông qua xác nhận chéo. Tùy thuộc vào lượng dữ liệu bạn có, nó có thể hoặc không phải là cách nhanh hơn để dự đoán tốt. Nhưng nó chắc chắn là một triển vọng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.