Số lượng mẫu tối thiểu để nội suy kuceing


19

Tôi nhận được một số dữ liệu với số lượng mẫu vật với yêu cầu nội suy nó bằng phương pháp phá hoại.
Sau một số điều tra, có vẻ như các kết quả tìm kiếm (được thực hiện trong ArcGIS Geostatistic Analyst với các tham số mặc định) là không thỏa đáng. Các giá trị nội suy khác xa so với các phép đo (đặc biệt là các giá trị trên cùng) và bề mặt trông không đáng tin cậy. Đây là hình ảnh: nhập mô tả hình ảnh ở đây
Tôi cho rằng vấn đề chính là không đủ số lượng mẫu.

Chúng ta nên sử dụng bao nhiêu điểm để có kết quả đáng tin cậy?
Hoặc có thể phương pháp giết chết không phù hợp với các giá trị đa dạng như vậy?


Bạn nói rằng "Mặc dù mọi người đã thành công chỉ với bảy điểm dữ liệu (trong một chuyên khảo của Robert Jernigan do EPA Hoa Kỳ xuất bản vào cuối những năm 1980), ...". Nhưng tôi không thể tìm thấy bài viết này. Bạn có thể cho một địa chỉ mở cho bài viết này? Cảm ơn bạn ...
abilici

Câu trả lời:


30

Khi bạn sử dụng "giá trị mặc định", bạn không thực sự hiểu, bạn chỉ đang áp dụng thuật toán tìm kiếm - mà như bạn đã tìm thấy, rất kém khi sử dụng với những dữ liệu này.

(Tôi sẽ bước lên một hộp xà phòng cho một câu nói ngắn gọn: theo ý kiến ​​của tôi, cách nhanh nhất để có kết quả xấu với chương trình máy tính là chấp nhận các tham số mặc định của nó. Cách. Đạo đức là không sử dụng phần mềm cho công việc quan trọng cho đến khi bạn hiểu cách kiểm soát nó. Xuống từ hộp xà phòng bây giờ ...)

Để làm việc hiệu quả, bạn phải tiến hành phân tích thống kê sơ bộ chuyên sâu về dữ liệu được gọi là "variography". Điều này cuối cùng thực hiện tốt như thế nào phụ thuộc vào dữ liệu cũng như các kỹ năng địa lý của bạn. (Toàn bộ cuốn sách đã được viết về variography, bao gồm cả tinh Mining địa thống kê bởi Journel & Huijbregts và Variowin bởi Yvan Pannatier.) Mặc dù người ta đã thành công kriged càng ít càng điểm Bảy dữ liệu (trong một chuyên khảo bởi Robert Jernigan được công bố bởi EPA Hoa Kỳ trong cuối những năm 1980), và về nguyên tắc bạn có thể krige chỉ bằng hai hoặc ba điểm (tôi đã thực hiện điều này để chứng minh thuật toán ), quy tắc ngón tay cái trong phạm vi tài liệu từ tối thiểu 20 điểm đến 100 điểm và sự đồng thuận dường như được khoảng 30 điểm.

Trong trường hợp của bạn - mặc dù bạn không mô tả dữ liệu - bạn có một số vấn đề rõ ràng, bao gồm phân phối sai lệch cao và thiếu bằng chứng rõ ràng về tình trạng đứng yên. Những điều này đòi hỏi phải xử lý thống kê đặc biệt hoặc các hình thức giết người chuyên biệt (như mô hình tuyến tính tổng quát không gian). Bạn sẽ không nhận được kết quả tốt khi hủy dữ liệu đó cho đến khi bạn có một lượng dữ liệu rất lớn.

Truyền thuyết cho thấy bạn có thể đang cố gắng tạo ra một lưới mật độ chứ không thực sự nội suy dữ liệu: mặc dù các kết quả đầu ra của hai thủ tục có thể trông giống nhau, chúng thực hiện những điều khác biệt và có những cách hiểu khác nhau. Bạn nội suy khi dữ liệu được coi là mẫu từ một số bề mặt liên tục giả thuyết. Nội suy dự đoán các giá trị không được ghép. Các ví dụ tiêu chuẩn bao gồm các phép đo độ cao (lấy mẫu bề mặt trái đất) và đo nhiệt độ (lấy mẫu "trường nhiệt độ"). Bạn tính mật độ khi bạn có thông tin đầy đủ về số tiềncủa một cái gì đó và bạn muốn đại diện cho một phiên bản được làm mịn của số tiền đó trên mỗi đơn vị diện tích. (Ngược lại với phép nội suy, không tồn tại bất kỳ giá trị không được ghép nào để dự đoán.) Ví dụ tiêu chuẩn là mật độ dân số: dữ liệu là tổng số của tất cả các cá nhân trong một khu vực; đầu ra là một bản đồ về mật độ dân số.


6
Câu trả lời tuyệt vời @whuber. Tuy nhiên, không phải số điểm tối thiểu cũng phụ thuộc một phần vào phạm vi của miền không gian và hạt mong muốn của dự đoán? Nếu bạn chắt lọc nó vào một vấn đề lấy mẫu thì nó sẽ trở thành một câu hỏi về việc nắm bắt sự thay đổi dân số và không gian trong mẫu.
Jeffrey Evans

@Jeffrey Đó là một phần của trường hợp. Lượng dữ liệu mang hai yếu tố: phương sai dự đoán sai lệch (thay đổi theo miền không gian) và độ chính xác mà bản thân phương pháp có thể ước tính được. Loại thứ hai thường bị bỏ qua, đặc biệt là trong các phương pháp trị liệu truyền thống: đó là một con voi trong phòng. Nếu bạn biết phương pháp đo chính xác và nó có tỷ lệ nugget / sill nhỏ và phạm vi lớn liên quan đến phạm vi của miền không gian, bạn có thể lấy một số dữ liệu đáng kể, đặc biệt nếu chúng lấy mẫu đầy đủ các giá trị dữ liệu.
whuber

3
Tôi tin rằng bất cứ ai sử dụng phương pháp truyền thông đều cần một khóa học địa lý tốt hoặc có một nền tảng thống kê / thống kê vững chắc. Nghiêng làm thế nào để mô hình đúng một nửa mẫu hình đòi hỏi một số kỹ năng.
Mike T

1
Quy tắc ngón tay cái mà tôi đã từng nghĩ: 30 điểm cho Kriging đa hướng và 100 cho hai chiều.
jareks

1

Có hai câu hỏi riêng biệt, đầu tiên là số lượng vị trí dữ liệu sẽ sử dụng để ước tính / mô hình hóa phương sai và thứ hai là số lượng vị trí dữ liệu sẽ sử dụng trong phương trình truyền dữ liệu để nội suy giá trị tại một vị trí không có dữ liệu (hoặc để ước tính giá trị trung bình trên một khu vực). Giả sử bạn đang sử dụng vùng lân cận tìm kiếm di chuyển, hơn 15-20 vị trí dữ liệu trong vùng lân cận sẽ có khả năng làm giảm kết quả vì (1) chỉ các vị trí dữ liệu gần nhất trong vùng tìm kiếm sẽ có trọng số khác không, (2) có nhiều dữ liệu hơn vị trí kích thước của ma trận được đảo ngược là lớn hơn và khả năng tăng ma trận điều hòa. Tổng số vị trí dữ liệu cần thiết cho việc tìm kiếm phụ thuộc vào số lượng vị trí được nội suy và mô hình không gian của các điểm đó và cả các vị trí dữ liệu. Nói ngắn gọn,

Đối với việc ước tính / mô hình hóa variogram, đây là một vấn đề rất khác, xem ví dụ

1991, Myers, DE, Ước tính Biến thể trong Thủ tục tố tụng của Inter đầu tiên. Conf. Thống kê Comp., Cesme, Thổ Nhĩ Kỳ,

30 tháng 3 đến 2 tháng 4 năm 1987, Tập II, Nhà xuất bản Khoa học Hoa Kỳ, 261-281

1987, A. Warrick và DE Myers, Tối ưu hóa các vị trí lấy mẫu để tính toán biến đổi Nghiên cứu tài nguyên nước 23, 496-500

Chúng có thể được tải xuống tại www.u.arizona.edu/~donaldm

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.