giải thích trục y của một ô phụ thuộc một phần


22

Tôi đã đọc qua các chủ đề khác về các lô phụ thuộc một phần và hầu hết trong số chúng là về cách bạn thực sự vẽ chúng với các gói khác nhau, chứ không phải cách bạn có thể diễn giải chính xác chúng, Vì vậy:

Tôi đã đọc và tạo ra một số lượng lớn các lô phụ thuộc một phần. Tôi biết họ đo hiệu ứng cận biên của một biến s trên hàm ƒS (S) với ảnh hưởng trung bình của tất cả các biến khác (c) từ mô hình của tôi. Giá trị y cao hơn có nghĩa là chúng có ảnh hưởng lớn hơn đến việc dự đoán chính xác lớp của tôi. Tuy nhiên, tôi không hài lòng với cách giải thích định tính này.

Liên kết này cho thấy một trong nhiều lô của tôi.  http://imgur.com/RXqlOky

Mô hình của tôi (rừng ngẫu nhiên) đang dự đoán hai lớp kín đáo. "Có cây" và "Không có cây". TRI là một biến đã được chứng minh là một biến tốt cho điều này.

Điều tôi bắt đầu nghĩ là giá trị Y đang hiển thị xác suất để phân loại chính xác. Ví dụ: y (0,2) đang chỉ ra rằng các giá trị TRI của> ~ 30 có 20% cơ hội xác định chính xác phân loại Tích cực thật.

Ngược lại

y (-0.2) đang chỉ ra rằng các giá trị TRI của <~ 15 có 20% cơ hội xác định chính xác phân loại Âm tính thật.

Các diễn giải chung được đưa ra trong tài liệu nghe có vẻ như "Giá trị lớn hơn TRI 30 bắt đầu có ảnh hưởng tích cực để phân loại trong mô hình của bạn" và đó là điều đó. Nghe có vẻ mơ hồ và vô nghĩa đối với một âm mưu có khả năng nói rất nhiều về dữ liệu của bạn.

Ngoài ra, tất cả các lô của tôi giới hạn ở -1 đến 1 trong phạm vi cho trục y. Tôi đã thấy các lô khác là -10 đến 10, v.v ... Đây có phải là chức năng của bao nhiêu lớp bạn đang cố gắng dự đoán không?

Tôi đã tự hỏi nếu có ai có thể nói chuyện với vấn đề này. Có lẽ chỉ cho tôi cách tôi nên diễn giải những âm mưu này hoặc một số tài liệu có thể giúp tôi hiểu. Có lẽ tôi đang đọc quá xa về điều này?

Tôi đã đọc rất kỹ Các yếu tố của học thống kê: khai thác dữ liệu, suy luận và dự đoán và nó đã là một điểm khởi đầu tuyệt vời nhưng đó là về nó.


Biểu đồ cho thấy trung bình xác suất cây có cho đến TRI 30 và tăng sau đó. Liên kết này giải thích cách diễn giải phân loại nhị phân PDP và các ô biến liên tục.
LazyNearestNeigbour

Câu trả lời:


13

Mỗi điểm trên biểu đồ phụ thuộc một phần là tỷ lệ phiếu trung bình ủng hộ lớp "Có cây" trong tất cả các quan sát, với một mức TRI cố định.

Đó không phải là một xác suất phân loại chính xác. Nó hoàn toàn không có gì để làm với độ chính xác, tiêu cực thực sự và tích cực thực sự.

Khi bạn nhìn thấy cụm từ

Các giá trị lớn hơn TRI 30 bắt đầu có ảnh hưởng tích cực để phân loại trong mô hình của bạn

là một cách nói căng thẳng

Các giá trị lớn hơn TRI 30 bắt đầu dự đoán "Có cây" mạnh hơn các giá trị thấp hơn TRI 30


2

Hàm phụ thuộc một phần về cơ bản mang đến cho bạn xu hướng "trung bình" của biến đó (tích hợp tất cả các yếu tố khác trong mô hình). Đó là hình dạng của xu hướng đó là "quan trọng". Bạn có thể giải thích phạm vi tương đối của các ô này từ các biến dự đoán khác nhau, nhưng không phải là phạm vi tuyệt đối. Mong rằng sẽ giúp.


2

Một cách để xem các giá trị trục y là chúng có liên quan với nhau trong các ô khác. Khi con số đó cao hơn so với các ô khác trong các giá trị tuyệt đối, điều đó có nghĩa là điều quan trọng hơn là do tác động của biến đó đến đầu ra lớn hơn.

Nếu bạn quan tâm đến toán học đằng sau các biểu đồ phụ thuộc một phần và con số đó là ước tính như thế nào, bạn có thể tìm thấy nó ở đây: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf phần 8.1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.