Làm thế nào để bình thường hóa dữ liệu phân phối chưa biết


12

Tôi đang cố gắng tìm phân phối đặc tính thích hợp nhất của dữ liệu đo lặp lại của một loại nhất định.

Về cơ bản, trong ngành địa chất của tôi, chúng tôi thường sử dụng niên đại khoáng sản từ các mẫu (khối đá) để tìm hiểu sự kiện xảy ra cách đây bao lâu (đá nguội dưới nhiệt độ ngưỡng). Thông thường, một số phép đo (3-10) sẽ được thực hiện từ mỗi mẫu. Sau đó, giá trị trung bình và độ lệch chuẩn σ được thực hiện. Đây là địa chất, do đó tuổi làm mát của các mẫu có thể tăng từ 10 5 đến 10 9 năm, tùy thuộc vào tình huống.μσ105109

Tuy nhiên, tôi có lý do để tin rằng các phép đo không phải là Gaussian: 'Outliers', hoặc được tuyên bố một cách tùy tiện, hoặc thông qua một số tiêu chí như tiêu chí của Peirce [Ross, 2003] hoặc Q-test của Dixon [Dean và Dixon, 1951] , là khá phổ biến (giả sử, 1 trong 30) và những cái này hầu như luôn luôn cũ hơn, chỉ ra rằng các phép đo này là sai lệch đặc trưng. Có nhiều lý do được hiểu rõ cho việc này phải làm với tạp chất khoáng vật học.

Tuổi trung bình so với tuổi mẫu trung bình.  Đường màu đỏ biểu thị trung bình = trung vị.  Lưu ý phương tiện cũ hơn gây ra bởi các phép đo sai lệch.

μσ , mà đều là phòng không mạnh mẽ và có thể thiên vị trong trường hợp hệ thống dữ liệu lệch phải.

Tôi tự hỏi cách tốt nhất để làm điều này là gì. Cho đến nay, tôi có một cơ sở dữ liệu với khoảng 600 mẫu và 2-10 (hoặc hơn) sao chép các phép đo trên mỗi mẫu. Tôi đã thử bình thường hóa các mẫu bằng cách chia từng giá trị trung bình hoặc trung bình, và sau đó xem biểu đồ của dữ liệu chuẩn hóa. Điều này tạo ra kết quả hợp lý và dường như chỉ ra rằng dữ liệu là loại log-Laplacian đặc trưng:

nhập mô tả hình ảnh ở đây

Tuy nhiên, tôi không chắc liệu đây có phải là cách thích hợp để thực hiện hay không, nếu có những cảnh báo mà tôi không biết có thể làm sai lệch kết quả của tôi để chúng trông như thế này. Có ai có kinh nghiệm với loại điều này, và biết thực hành tốt nhất?


4
Vì "bình thường hóa" được sử dụng để chỉ một số điều khác nhau trong các bối cảnh như thế này, chính xác thì bạn có ý nghĩa gì khi "bình thường hóa"? Thông tin nào bạn đang cố gắng để thoát khỏi dữ liệu?
Glen_b -Reinstate Monica

1
@Glen_b: Bằng 'Bình thường hóa' Tôi chỉ đơn giản có nghĩa là chia tỷ lệ mọi thứ theo trung vị (hoặc trung bình) tất cả các độ tuổi đo được của một mẫu bằng trung bình (hoặc trung bình hoặc bất cứ điều gì). Có bằng chứng thực nghiệm cho thấy sự phân tán trong các mẫu tăng tuyến tính theo tuổi. Những gì tôi muốn từ dữ liệu là để xem liệu loại đo lường này được đặc trưng nhất bởi phân phối bình thường, hoặc log-normal, hoặc bất kỳ phân phối nào, để có thể xác định được vị trí và thang đo chính xác nhất, hoặc L1 vs. Hồi quy L2 là hợp lý, v.v. Trong bài đăng này tôi đang hỏi làm thế nào tôi có thể lấy dữ liệu mà tôi đã mô tả và điều tra việc này.
cossatot

1
Tôi không có chuyên môn trong lĩnh vực này, nhưng đồ thị của bạn và suy nghĩ bạn đưa vào này có vẻ tốt. Bạn có thể đã nhìn thấy nó, nhưng bài viết trên Wikipedia về Log-Laplace liên kết đến một bài báo hay, không trực tiếp giải quyết câu hỏi của bạn, nhưng có thể có một số hiểu biết thú vị: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne

Tôi không chắc là tôi hoàn toàn hiểu, nhưng có lẽ bootstrapping có thể giúp ích? Nếu bạn khôi phục phương sai, v.v. của phân phối bằng các phương thức bootstrapping, bạn có thể sử dụng thông tin đã khôi phục để chuẩn hóa dữ liệu của mình. vi.wikipedia.org/wiki/Bootstrapping_(statistic)
123

Câu trả lời:


1

Bạn đã xem xét lấy giá trị trung bình của các phép đo (3-10) từ mỗi mẫu chưa? Sau đó, bạn có thể làm việc với phân phối kết quả - sẽ gần đúng phân phối t, sẽ xấp xỉ phân phối bình thường cho n lớn hơn?


1

Tôi không nghĩ rằng bạn đang sử dụng chuẩn hóa để có nghĩa là những gì nó thường có nghĩa, thường là một cái gì đó như bình thường hóa trung bình và / hoặc phương sai, và / hoặc làm trắng, chẳng hạn.

Tôi nghĩ rằng những gì bạn đang cố gắng làm là tìm một tính năng tái tham số phi tuyến tính và / hoặc các tính năng cho phép bạn sử dụng các mô hình tuyến tính trên dữ liệu của mình.

Điều này là không tầm thường, và không có câu trả lời đơn giản. Đó là lý do tại sao các nhà khoa học dữ liệu được trả rất nhiều tiền ;-)

Một cách tương đối đơn giản để tạo ra các tính năng phi tuyến tính là sử dụng mạng thần kinh chuyển tiếp nguồn cấp dữ liệu, trong đó số lượng lớp và số lượng tế bào thần kinh trên mỗi lớp, kiểm soát khả năng của mạng để tạo ra các tính năng. Công suất cao hơn => phi tuyến tính nhiều hơn, quá mức. Công suất thấp hơn => tuyến tính nhiều hơn, độ lệch cao hơn, phương sai thấp hơn.

Một phương pháp khác cho phép bạn kiểm soát nhiều hơn một chút là sử dụng splines.

Cuối cùng, bạn có thể tạo các tính năng đó bằng tay, điều mà tôi nghĩ là những gì bạn đang cố gắng thực hiện, nhưng sau đó, không có câu trả lời 'hộp đen' đơn giản nào: bạn sẽ cần phân tích cẩn thận dữ liệu, tìm mẫu và v.v. .


Bình thường hóa có một số ý nghĩa trên toán học và khoa học; tuyên bố rằng một ý nghĩa cá nhân quen thuộc nhất là tiêu chuẩn là điều mà hầu hết mọi người bị cám dỗ để làm, nhưng nó sẽ không rửa với người khác. Nghiêm trọng hơn, điều này bắt đầu trên chủ đề nhưng sau đó tắt. Đâu là dấu hiệu quan tâm trong các mô hình phi tuyến? Mạng lưới thần kinh? Splines? Những điều này có liên quan gì đến việc xác định một phân phối hoặc gia đình phân phối, đó là câu hỏi? Tôi không thể thấy kết nối, vì vậy khuyên bạn nên cắt những gì không liên quan hoặc mở rộng nó để cho thấy nó có liên quan như thế nào.
Nick Cox

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.