Tạo một chỉ mục chất lượng từ nhiều biến để cho phép thứ tự xếp hạng


22

Tôi có bốn biến số. Tất cả chúng là thước đo chất lượng đất. Biến càng cao, chất lượng càng cao. Phạm vi cho tất cả chúng là khác nhau:

Var1 từ 1 đến 10

Var2 từ 1000 đến 2000

Var3 từ 150 đến 300

Var4 từ 0 đến 5

Tôi cần kết hợp bốn biến vào điểm chất lượng đất đơn sẽ xếp thứ tự thành công.

Ý tưởng của tôi rất đơn giản. Chuẩn hóa tất cả bốn biến, tổng hợp chúng và bất cứ điều gì bạn nhận được là điểm nên xếp theo thứ tự. Bạn có thấy bất kỳ vấn đề với việc áp dụng phương pháp này. Có cách tiếp cận nào khác (tốt hơn) mà bạn muốn giới thiệu không?

Cảm ơn

Chỉnh sửa:

Cảm ơn các bạn. Rất nhiều cuộc thảo luận đã đi vào "chuyên môn về miền" ... Công cụ nông nghiệp ... Trong khi đó, tôi mong đợi nhiều cuộc nói chuyện thống kê hơn. Về mặt kỹ thuật mà tôi sẽ sử dụng ... Có lẽ nó sẽ là phép tính tổng điểm z đơn giản + hồi quy logistic như một thử nghiệm. Bởi vì phần lớn các mẫu có chất lượng kém 90%, tôi sẽ kết hợp 3 loại chất lượng thành một và về cơ bản có vấn đề nhị phân (một số chất lượng so với không chất lượng). Tôi giết hai con chim bằng một hòn đá. Tôi tăng mẫu của mình về tỷ lệ sự kiện và tôi sử dụng các chuyên gia bằng cách lấy chúng để xác định mẫu của tôi. Các mẫu được phân loại chuyên gia sau đó sẽ được sử dụng để phù hợp với mô hình log-reg để tối đa hóa mức độ phù hợp / không phù hợp với các chuyên gia .... Điều đó nghe như thế nào với bạn?

Câu trả lời:


19

Phương pháp đề xuất có thể cho một kết quả hợp lý, nhưng chỉ là tình cờ. Ở khoảng cách này - nghĩa là lấy câu hỏi theo mệnh giá, với ý nghĩa của các biến được ngụy trang - một số vấn đề là rõ ràng:

  1. Thậm chí không rõ ràng rằng mỗi biến có liên quan tích cực đến "chất lượng". Ví dụ: nếu số 10 cho 'Var1' có nghĩa là "chất lượng" kém hơn chất lượng khi Var1 là 1 thì sao? Sau đó, thêm nó vào tổng là một điều sai lầm như người ta có thể làm; nó cần phải được trừ

  2. Tiêu chuẩn hóa ngụ ý rằng "chất lượng" phụ thuộc vào chính tập dữ liệu. Do đó, định nghĩa sẽ thay đổi với các tập dữ liệu khác nhau hoặc có thêm và xóa các dữ liệu này. Điều này có thể biến "chất lượng" thành một cấu trúc tùy ý, nhất thời, không khách quan và ngăn chặn sự so sánh giữa các bộ dữ liệu.

  3. Không có định nghĩa về "chất lượng". Nó có nghĩa là gì? Khả năng ngăn chặn di cư của nước bị ô nhiễm? Khả năng hỗ trợ các quá trình hữu cơ? Khả năng thúc đẩy các phản ứng hóa học nhất định? Đất tốt cho một trong những mục đích này có thể đặc biệt nghèo cho những người khác.

  4. Vấn đề như đã nêu không có mục đích: tại sao "chất lượng" cần phải được xếp hạng? Xếp hạng sẽ được sử dụng để làm gì - đầu vào để phân tích nhiều hơn, chọn đất "tốt nhất", quyết định một giả thuyết khoa học, phát triển lý thuyết, quảng bá sản phẩm?

  5. Hậu quả của bảng xếp hạng là không rõ ràng. Nếu xếp hạng không chính xác hoặc kém hơn, điều gì sẽ xảy ra? Thế giới sẽ đói hơn, môi trường ô nhiễm hơn, các nhà khoa học lầm lạc hơn, người làm vườn thất vọng hơn?

  6. Tại sao một sự kết hợp tuyến tính của các biến là thích hợp? Tại sao chúng không nên được nhân lên hoặc lũy thừa hoặc kết hợp như một vị trí phụ hoặc một thứ gì đó bí truyền hơn?

  7. Các biện pháp chất lượng đất thô thường được thể hiện lại. Ví dụ, tính thấm log thường hữu ích hơn tính thấm và hoạt động của ion hydro (pH) hữu ích hơn nhiều so với hoạt động. Các biểu thức thích hợp của các biến để xác định "chất lượng" là gì?

Người ta sẽ hy vọng rằng khoa học đất sẽ trả lời hầu hết các câu hỏi này và chỉ ra sự kết hợp thích hợp của các biến có thể là gì đối với bất kỳ ý nghĩa khách quan nào về "chất lượng". Nếu không, sau đó bạn phải đối mặt với một vấn đề định giá đa thuộc tính . Bài viết Wikipedia liệt kê hàng tá phương pháp để giải quyết vấn đề này. IMHO, hầu hết trong số họ không phù hợp để giải quyết một câu hỏi khoa học. Một trong số ít có lý thuyết vững chắc và khả năng ứng dụng tiềm năng vào các vấn đề thực nghiệm là lý thuyết định giá nhiều thuộc tính của Keeney & Raiffa(MAVT). Nó đòi hỏi bạn phải có khả năng xác định, đối với bất kỳ hai tổ hợp biến số cụ thể nào, biến nào trong hai biến sẽ xếp hạng cao hơn. Một chuỗi cấu trúc của các so sánh như vậy cho thấy (a) các cách thích hợp để thể hiện lại các giá trị; (b) có hay không sự kết hợp tuyến tính của các giá trị được biểu thị lại sẽ tạo ra thứ hạng chính xác; và (c) nếu có thể kết hợp tuyến tính, nó sẽ cho phép bạn tính toán các hệ số. Nói tóm lại, MAVT cung cấp các thuật toán để giải quyết vấn đề của bạn với điều kiện bạn đã biết cách so sánh các trường hợp cụ thể.


RE: 1. Tôi biết chắc chắn rằng "số càng cao, chất lượng càng cao" cho cả bốn biến RE: 2. Điểm tốt. Tôi có thể làm gì để làm cho hai bộ dữ liệu có thể so sánh được
user333

2
@user Các khuyến nghị của tôi nằm ở đoạn cuối: tốt nhất là tìm một biểu thức định lượng về "chất lượng" trong tài liệu khoa học. Chặn rằng, áp dụng MAVT. Cả hai sản xuất một công thức cố định độc lập với tập dữ liệu. Điều đó đảm bảo sự so sánh.
whuber

1
@whuber, Không ai có thể xem đây là vấn đề của việc đưa ra một biện pháp hình thành dựa trên thông tin có sẵn, trong trường hợp đó, tổng điểm Z không tệ như bạn phát ra?
Andy W

3
@Andy Bạn có thể giải thích ý của bạn bằng "biện pháp hình thành" và "thông tin có sẵn" không? // Tôi nên chỉ ra rằng nhiều biện pháp phù hợp với đất cho nông nghiệp thậm chí không đơn điệu, ít tuyến tính hơn: ví dụ, một cây có thể phát triển trong phạm vi pH nhưng chịu đựng độ pH vượt quá phạm vi này theo cả hai hướng . Thực sự đó sẽ là một trường hợp đặc biệt - có thể là một trường hợp liên quan đến một phạm vi giá trị hẹp - nếu một tổ hợp tuyến tính đơn giản của các đặc tính đất có bất kỳ mối quan hệ khách quan nào với chất lượng nông nghiệp.
whuber

2
(y1,,yk)(x1,,xk)
whuber

3

Bất cứ ai cũng nhìn vào 'Đánh giá về tính chính xác của phân loại dữ liệu được cảm nhận từ xa' của Russell G. Congalton '1990? Nó mô tả một kỹ thuật được gọi là ma trận lỗi để thay đổi ma trận, cũng là một thuật ngữ anh ta sử dụng gọi là 'Chuẩn hóa dữ liệu', theo đó người ta lấy tất cả các vectơ khác nhau và 'bình thường hóa' hoặc đặt chúng bằng 0 đến 1. Về cơ bản, bạn thay đổi tất cả các vectơ thành phạm vi bằng nhau từ 0 đến 1.


0

Một điều khác mà bạn đã không thảo luận là thang đo của các phép đo. V1 và V5 có vẻ như chúng có thứ tự xếp hạng và những thứ khác dường như không. Vì vậy, tiêu chuẩn hóa có thể bị sai lệch điểm số. Vì vậy, bạn có thể chuyển đổi tốt hơn tất cả các biến thành các cấp bậc và xác định trọng số cho từng biến, vì rất khó có khả năng chúng có cùng trọng số. Trọng số bằng nhau là mặc định "không có gì". Bạn có thể muốn thực hiện một số phân tích tương quan hoặc hồi quy để đưa ra một số trọng số tiên nghiệm.


Làm thế nào tôi có thể sử dụng phân tích tương quan để xác định cân nặng?
dùng333

Nếu bạn đã có thước đo chất lượng tổng thể có sẵn, ví dụ như ý kiến ​​chuyên gia, (hoặc sẵn sàng chấp nhận các biến khác làm đại diện cho điều này), bạn có thể chọn các biến tương quan cao nhất và đưa ra trọng số cao nhất.
Ralph Winters

-3

Theo dõi câu trả lời của Ralph Winters, bạn có thể sử dụng PCA (phân tích thành phần chính) trên ma trận điểm số được tiêu chuẩn hóa phù hợp. Điều này sẽ cung cấp cho bạn một vectơ trọng lượng "tự nhiên" mà bạn có thể sử dụng để kết hợp điểm số trong tương lai.

Làm điều này cũng sau khi tất cả các điểm đã được chuyển thành xếp hạng. Nếu kết quả rất giống nhau, bạn có lý do chính đáng để tiếp tục với một trong hai phương pháp. Nếu có sự khác biệt, điều này sẽ dẫn đến những câu hỏi thú vị và hiểu rõ hơn.


4
Tôi không đồng ý. Mặc dù người ta có thể quan tâm đến sự tương quan giữa các mục vì tò mò, tất cả các biến có thể là trực giao nhưng vẫn đóng góp cho chất lượng. Đối với một ví dụ ngớ ngẩn, đất ở Nam Cực có thể có hàm lượng nitơ tối ưu, nhưng tôi nghi ngờ nó sẽ đủ như một khí hậu phù hợp.
Andy W

@Andy W: Trong trường hợp đó, tất cả các biến nên có trọng số như nhau và PCA sẽ cho bạn biết điều đó. Nó cũng sẽ cho bạn biết rằng thành phần hàng đầu chỉ chiếm một phần tương đối nhỏ trong biến thiên tổng thể trong ma trận điểm.
Hans Engler

3
Tôi vẫn không đồng ý. Nó không cho bạn biết nếu điểm số nên được cân bằng như nhau. Hai mặt hàng có thể có mối tương quan tích cực nhưng mỗi mặt hàng có mối quan hệ trái ngược với "chất lượng". Các mối tương quan giữa các mục không nhất thiết phải nói bất cứ điều gì về biện pháp không quan sát được trong bối cảnh nhất định. Nếu chất lượng là một biến tiềm ẩn và các biến là "phản ánh" của cấu trúc tiềm ẩn đó có thể đúng, nhưng đó không phải là trường hợp trong ví dụ đã cho này.
Andy W

Am×nσ1uvTAnvjvj
Hans Engler

3
Tôi vẫn không đồng ý. Ngay cả khi hiệp hội được dự kiến ​​sẽ theo cùng một hướng, điều này không có nghĩa là các chỉ số vốn đã được đưa ra bất kỳ trọng số nào dựa trên mối tương quan giữa các mục của chúng. Phương sai được chia sẻ chỉ có thể nói điều gì đó về mối quan hệ giữa các chỉ số. Hãy nghĩ về một mô hình hồi quy trong đó chúng tôi dự đoán một thước đo chất lượng đã biết từ các chỉ số này. Các mối tương quan giữa các mục giữa các chỉ số không cho bạn biết độ dốc dự kiến ​​sẽ là gì.
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.