Tôi đã đọc qua các chủ đề khác về các lô phụ thuộc một phần và hầu hết trong số chúng là về cách bạn thực sự vẽ chúng với các gói khác nhau, chứ không phải cách bạn có thể diễn giải chính xác chúng, Vì vậy:
Tôi đã đọc và tạo ra một số lượng lớn các lô phụ thuộc một phần. Tôi biết họ đo hiệu ứng cận biên của một biến s trên hàm ƒS (S) với ảnh hưởng trung bình của tất cả các biến khác (c) từ mô hình của tôi. Giá trị y cao hơn có nghĩa là chúng có ảnh hưởng lớn hơn đến việc dự đoán chính xác lớp của tôi. Tuy nhiên, tôi không hài lòng với cách giải thích định tính này.
Mô hình của tôi (rừng ngẫu nhiên) đang dự đoán hai lớp kín đáo. "Có cây" và "Không có cây". TRI là một biến đã được chứng minh là một biến tốt cho điều này.
Điều tôi bắt đầu nghĩ là giá trị Y đang hiển thị xác suất để phân loại chính xác. Ví dụ: y (0,2) đang chỉ ra rằng các giá trị TRI của> ~ 30 có 20% cơ hội xác định chính xác phân loại Tích cực thật.
Ngược lại
y (-0.2) đang chỉ ra rằng các giá trị TRI của <~ 15 có 20% cơ hội xác định chính xác phân loại Âm tính thật.
Các diễn giải chung được đưa ra trong tài liệu nghe có vẻ như "Giá trị lớn hơn TRI 30 bắt đầu có ảnh hưởng tích cực để phân loại trong mô hình của bạn" và đó là điều đó. Nghe có vẻ mơ hồ và vô nghĩa đối với một âm mưu có khả năng nói rất nhiều về dữ liệu của bạn.
Ngoài ra, tất cả các lô của tôi giới hạn ở -1 đến 1 trong phạm vi cho trục y. Tôi đã thấy các lô khác là -10 đến 10, v.v ... Đây có phải là chức năng của bao nhiêu lớp bạn đang cố gắng dự đoán không?
Tôi đã tự hỏi nếu có ai có thể nói chuyện với vấn đề này. Có lẽ chỉ cho tôi cách tôi nên diễn giải những âm mưu này hoặc một số tài liệu có thể giúp tôi hiểu. Có lẽ tôi đang đọc quá xa về điều này?
Tôi đã đọc rất kỹ Các yếu tố của học thống kê: khai thác dữ liệu, suy luận và dự đoán và nó đã là một điểm khởi đầu tuyệt vời nhưng đó là về nó.