RandomForest có bỏ qua sự độc lập không gian?


8

Tôi có 5 biến cho mỗi quốc gia trên thế giới và tôi cần phân tích tác động và tương tác của chúng trên một biến độc lập. Rừng ngẫu nhiên sẽ phù hợp với phạm vi của tôi vì nó liên quan đến các mối quan hệ phi tuyến tính và dự đoán tầm quan trọng của các biến. Tuy nhiên, tôi tự hỏi nếu sự phụ thuộc không gian có thể là một vấn đề. Tôi chưa bao giờ thấy sự phụ thuộc không gian được thảo luận trong các ứng dụng RF ngay cả khi nó đã được sử dụng rộng rãi cho dữ liệu không gian.

Câu trả lời:


8

Nó không có vấn đề với tự động tương quan không gian của phản ứng hoặc các biến giải thích của bạn. Đó là một kỹ thuật hoàn toàn phi tham số. Tôi đã sử dụng nó cho phép nội suy các biến đa dạng cấu trúc trên khắp đất nước của tôi dựa trên dữ liệu tại chỗ từ một lưới thông thường và đưa ra tọa độ dưới dạng các biến số thậm chí tạo ra các dự đoán tốt hơn. Điều này là do Random Forest dựa trên cách tiếp cận phân chia và chinh phục (cây phân loại và hồi quy), nghĩa là nó phân tách không gian tính năng của bạn thành các tập hợp khác nhau trong đó các mô hình đơn giản hơn (theo mặc định là trung bình đơn giản trong trường hợp hồi quy) có thể đưa ra dự đoán tốt. Giới thiệu tọa độ dưới dạng các biến, trong trường hợp của tôi, khai thác tự động tương quan không gian vì nó có ý nghĩa rằng các tập hợp địa lý nhất định của quốc gia hành xử đồng nhất.


Trong khi tôi có xu hướng đồng ý với câu trả lời, bạn có biết về bất kỳ nghiên cứu thực nghiệm nào cho thấy đây là trường hợp không? RF chắc chắn có vấn đề về điểm quan trọng của wrt và các biến tương quan cao (ví dụ Strobl et al ).
Tiên tri60091

2
Điều này rất có ý nghĩa vì khi bạn trồng một cây, ở mỗi lần phân chia, nó phải được quyết định sẽ sử dụng biến nào. Trong trường hợp cực đoan, nếu bạn có hai biến tương quan hoàn hảo, sơ đồ chia tách sẽ chỉ cần chọn một trong số chúng một cách ngẫu nhiên. Do đó, nếu bạn đào tạo lại khu rừng ngẫu nhiên, bạn sẽ thấy các điểm quan trọng rất không ổn định trong các biến tương quan này. Họ sẽ rất dễ bị thay đổi vị trí trong hệ thống phân cấp.
JEquihua

@JEquihua Tôi biết tôi đến bữa tiệc rất muộn nhưng tôi rất muốn biết làm thế nào bạn kết hợp tọa độ như là biến số? Tôi đang sử dụng gói RandomForest trong R và tôi không biết bất kỳ tùy chọn nào để bao gồm các biến số nhưng nó rất có ý nghĩa đặc biệt là với dữ liệu tự động tương quan cụm.
Kristina

Xin chào @Kristina. Tôi chỉ giới thiệu chúng như các tính năng bổ sung, tức là lat và lon là hai cột khác nhau trong bảng tàu của bạn. Điều này chỉ hoạt động nếu dữ liệu tàu của bạn thể hiện tốt không gian địa lý của bạn, trong ví dụ của tôi, tôi có khoảng 25.000 điểm nằm trên một lưới thông thường trên khu vực tôi quan tâm.
JEquihua

@JEquihua Cảm ơn phản hồi của bạn! Tôi đã thử điều này trước đây, tuy nhiên, tôi có ấn tượng rằng điều này làm sai lệch nhiều về mô hình. Tuy nhiên, điều này có thể là do thực tế là tôi có một số vùng độc lập (khu bảo tồn biển trên toàn cầu) trong dữ liệu của mình. Bạn có bất cứ đề xuất nào về cách tốt nhất để xử lý việc này không vì tôi rất muốn đưa vào vị trí. Cảm ơn bạn!
Kristina
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.