Điều trị ngoại lệ do Kurtosis sản xuất


10

Tôi đã tự hỏi nếu có ai có thể giúp tôi với thông tin về Kurtosis (tức là có cách nào để chuyển đổi dữ liệu của bạn để giảm dữ liệu không?)

Tôi có một bộ dữ liệu câu hỏi với một số lượng lớn các trường hợp và các biến. Đối với một vài biến số của tôi, dữ liệu cho thấy các giá trị kurtosis khá cao (nghĩa là phân phối leptokurtic) xuất phát từ thực tế là nhiều người tham gia đã cho điểm chính xác cho biến đó. Tôi có cỡ mẫu đặc biệt lớn, vì vậy theo định lý giới hạn trung tâm, vi phạm quy tắc vẫn sẽ ổn.

Tuy nhiên, vấn đề là thực tế là mức độ Kurtosis đặc biệt cao đang tạo ra một số ngoại lệ đơn biến trong tập dữ liệu của tôi. Như vậy, ngay cả khi tôi chuyển đổi dữ liệu hoặc xóa / điều chỉnh các ngoại lệ, mức độ suy giảm cao có nghĩa là các điểm số cực đoan tiếp theo sẽ tự động trở thành ngoại lệ. Tôi nhằm mục đích sử dụng (phân tích chức năng phân biệt đối xử). DFA được cho là mạnh mẽ đối với các chuyến khởi hành từ quy tắc với điều kiện là vi phạm được gây ra bởi sự sai lệch và không phải là ngoại lệ. Hơn nữa, DFA cũng được cho là bị ảnh hưởng đặc biệt bởi các ngoại lệ trong dữ liệu (Tabachnick & Fidel).

Bất kỳ ý tưởng làm thế nào để có được xung quanh này? (Suy nghĩ ban đầu của tôi là một cách nào đó để kiểm soát Kurtosis, nhưng đó không phải là một điều tốt nếu hầu hết các mẫu của tôi đều cho xếp hạng tương tự?)

Câu trả lời:


8

Cách "thông thường" rõ ràng để giải quyết vấn đề của bạn là

  1. Nhận kết luận bằng cách sử dụng bộ dữ liệu đầy đủ. tức là kết quả nào bạn sẽ tuyên bố bỏ qua các tính toán trung gian?
  2. Nhận kết luận bằng cách sử dụng tập dữ liệu đã xóa "ngoại lệ". tức là kết quả nào bạn sẽ tuyên bố bỏ qua các tính toán trung gian?
  3. So sánh bước 2 với bước 1
  4. Nếu không có sự khác biệt, hãy quên bạn thậm chí có vấn đề. Outliers không liên quan đến kết luận của bạn . Các ngoại lệ có thể ảnh hưởng đến một số kết luận khác có thể được rút ra bằng cách sử dụng những dữ liệu này, nhưng điều này không liên quan đến công việc của bạn. Đó là vấn đề của người khác.
  5. Nếu có sự khác biệt, thì về cơ bản bạn có một câu hỏi về "niềm tin". Đây có phải là "ngoại lệ" thực sự theo nghĩa là chúng thực sự đại diện cho một cái gì đó về phân tích của bạn? Hay những "ngoại lệ" xấu ở chỗ chúng đến từ một "nguồn ô nhiễm" nào đó?

Trong tình huống 5 về cơ bản, bạn có một trường hợp "mô hình" chưa từng có mà bạn đã sử dụng để mô tả "dân số" là không đầy đủ - có những chi tiết vẫn chưa được xác định, nhưng có liên quan đến kết luận. Có hai cách để giải quyết vấn đề này, tương ứng với hai kịch bản "tin cậy":

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Hầu hết các quy trình "tiêu chuẩn" có thể được hiển thị là gần đúng với các loại mô hình này. Rõ ràng nhất là bằng cách xem xét trường hợp 1, trong đó phương sai đã được giả định không đổi trong các quan sát. Bằng cách thư giãn giả định này thành một bản phân phối, bạn có được một bản phân phối hỗn hợp. Đây là kết nối giữa các bản phân phối "bình thường" và "t". Bình thường có phương sai cố định, trong khi "t" trộn trên các phương sai khác nhau, lượng "trộn" phụ thuộc vào mức độ tự do. DF cao có nghĩa là trộn thấp (ngoại lệ là không thể), DF thấp có nghĩa là trộn cao (có khả năng ngoại lệ). Trong thực tế, bạn có thể coi trường hợp 2 là trường hợp đặc biệt của trường hợp 1, trong đó các quan sát "tốt" là bình thường và các quan sát "xấu" là Cauchy (t với 1 DF).


Thật là một câu trả lời xuất sắc, @probabilityislogic
Peter Flom - Tái lập Monica

Chỉ cần một lưu ý làm rõ: Phân loại tối ưu đòi hỏi kiến ​​thức về các phân phối đa biến thực sự. Nếu bạn có thể ước tính các phân phối này tốt, thì chức năng phân loại kết quả là gần như tối ưu. Các ngoại lệ (như được chỉ ra bởi kurtosis) thực sự có vấn đề vì không có ít dữ liệu trong khu vực để ước tính mật độ. Với dữ liệu đa biến, lời nguyền về chiều cũng góp phần gây ra vấn đề này.
Peter Westfall
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.