Xác định các ngoại lệ cho hồi quy phi tuyến tính


11

Tôi đang làm nghiên cứu về lĩnh vực đáp ứng chức năng của ve. Tôi muốn thực hiện một hồi quy để ước tính các tham số (tốc độ tấn công và thời gian xử lý) của hàm Rogers loại II. Tôi có một bộ dữ liệu đo lường. Làm thế nào tôi có thể xác định tốt nhất các ngoại lệ?

Đối với hồi quy của tôi, tôi sử dụng tập lệnh sau trong R (hồi quy phi tuyến tính): (dateet là tệp văn bản 2 cột đơn giản được gọi là data.txttệp có N0giá trị (số lượng con mồi ban đầu) và FRgiá trị (số lượng con mồi đã ăn trong 24 giờ):

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

Để vẽ đồ thị phần dư calssic tôi sử dụng tập lệnh sau:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

Câu hỏi

  • Làm thế nào tôi có thể xác định tốt nhất các điểm dữ liệu là ngoại lệ?
  • Có các thử nghiệm nào tôi có thể sử dụng trong R là mục tiêu và cho tôi biết điểm dữ liệu nào là ngoại lệ không?

Câu trả lời:


9

Một số thử nghiệm cho các ngoại lệ, bao gồm cả Dixon và Grubb, có sẵn trong outliersgói trong R. Để biết danh sách các thử nghiệm, hãy xem tài liệu cho gói. Tài liệu tham khảo mô tả các bài kiểm tra được đưa ra trên các trang trợ giúp cho các chức năng tương ứng.

Trong trường hợp bạn dự định xóa các ngoại lệ khỏi dữ liệu của mình, hãy nhớ rằng điều này không phải lúc nào cũng được khuyến khích. Xem ví dụ câu hỏi này để thảo luận về vấn đề này (cũng như một số gợi ý thêm về cách phát hiện các ngoại lệ).


8

Tôi cũng không phải là một nhà thống kê. Vì vậy, tôi sử dụng kiến ​​thức chuyên môn của mình về dữ liệu để tìm ra các ngoại lệ. Tức là tôi tìm kiếm các lý do vật lý / sinh học / bất kỳ lý do nào làm cho một số phép đo khác với các phép đo khác.

Trong trường hợp của tôi đó là ví dụ

  • các tia vũ trụ làm rối tung một phần tín hiệu đo được
  • ai đó bước vào phòng thí nghiệm, bật đèn
  • chỉ toàn bộ quang phổ bằng cách nào đó trông khác nhau
  • loạt đo đầu tiên được thực hiện trong giờ làm việc bình thường và là một thứ tự phóng đại ồn ào hơn loạt 10 giờ tối

Chắc chắn bạn có thể cho chúng tôi biết hiệu ứng tương tự.

Lưu ý rằng điểm thứ 3 của tôi khác với những điểm khác: Tôi không biết chuyện gì đã xảy ra. Đây có thể là loại ngoại lệ bạn đang hỏi về. Tuy nhiên, không biết điều gì gây ra nó (và điều này gây ra làm mất hiệu lực điểm dữ liệu), rất khó để nói rằng nó không nên xuất hiện trong tập dữ liệu. Ngoài ra: ngoại lệ của bạn có thể là mẫu thú vị nhất của tôi ...

Do đó, tôi thường không nói về các ngoại lệ, nhưng về các điểm dữ liệu đáng ngờ. Điều này nhắc nhở mọi người rằng họ cần được kiểm tra lại về ý nghĩa của chúng.

Việc loại trừ dữ liệu có tốt hay không (ai muốn tìm ra các ngoại lệ chỉ vì muốn có chúng?) Phụ thuộc rất nhiều vào nhiệm vụ trong tay là gì và "điều kiện biên" cho nhiệm vụ đó là gì. Vài ví dụ:

  • bạn vừa phát hiện ra phân loài Joachimii mới ngoại lai ;-) không có lý do gì để loại trừ chúng. Loại trừ tất cả những người khác.

  • bạn muốn dự đoán thời gian bắt mồi của ve. Nếu có thể chấp nhận hạn chế dự đoán trong một số điều kiện nhất định, bạn có thể xây dựng các mẫu này và loại trừ tất cả các mẫu khác và cho biết mô hình dự đoán của bạn xử lý tình huống này hoặc tình huống đó, mặc dù bạn đã biết các tình huống khác (mô tả trước đây ở đây) xảy ra.

  • Hãy nhớ rằng việc loại trừ dữ liệu với sự trợ giúp của chẩn đoán mô hình có thể tạo ra một loại lời tiên tri tự hoàn thành hoặc thiên vị quá mức (nghĩa là nếu bạn cho rằng phương pháp của bạn thường được áp dụng): càng nhiều mẫu bạn loại trừ vì chúng không phù hợp với bạn các giả định, tốt hơn là các giả định được đáp ứng bởi các mẫu còn lại. Nhưng đó chỉ là vì loại trừ.

  • Tôi hiện đang có một nhiệm vụ trong tay, nơi tôi có một loạt các phép đo xấu (tôi biết lý do vật lý tại sao tôi coi phép đo là xấu), và một vài điều nữa bằng cách nào đó "trông kỳ lạ". Những gì tôi làm là tôi loại trừ các mẫu này khỏi mô hình (dự đoán), nhưng thử nghiệm riêng mô hình với các mô hình này để tôi có thể nói điều gì đó về sự mạnh mẽ của mô hình của tôi chống lại các loại ngoại lệ mà tôi biết sẽ xảy ra mỗi lần trong một trong khi . Vì vậy, ứng dụng bằng cách nào đó hoặc nhu cầu khác để đối phó với các ngoại lệ này.

  • Tuy nhiên, một cách khác để xem xét các ngoại lệ là hỏi: "Họ ảnh hưởng đến mô hình của tôi đến mức nào?" (Tận dụng). Từ quan điểm này, bạn có thể đo lường sự mạnh mẽ hoặc ổn định đối với các mẫu đào tạo kỳ lạ.

  • Bất cứ thủ tục thống kê nào bạn sử dụng, nó sẽ không xác định bất kỳ ngoại lệ nào, hoặc cũng có kết quả dương tính giả. Bạn có thể mô tả quy trình xét nghiệm ngoại lệ như các xét nghiệm chẩn đoán khác: nó có độ nhạy và độ đặc hiệu và - quan trọng hơn đối với bạn - chúng tương ứng (thông qua tỷ lệ ngoại lệ trong dữ liệu của bạn) với giá trị tiên đoán dương và âm. Nói cách khác, đặc biệt nếu dữ liệu của bạn có rất ít ngoại lệ, thì khả năng xảy ra trường hợp được xác định bằng thử nghiệm ngoại lệ thực sự là ngoại lệ (nghĩa là không nên có trong dữ liệu) có thể rất thấp.
    Tôi tin rằng kiến ​​thức chuyên môn về dữ liệu trong tay thường tốt hơn nhiều trong việc phát hiện các ngoại lệ so với kiểm tra thống kê: bài kiểm tra cũng tốt như các giả định đằng sau nó. Và một kích cỡ phù hợp với tất cả thường không thực sự tốt cho phân tích dữ liệu. Ít nhất tôi thường xuyên giao dịch với một loại ngoại lệ, trong đó các chuyên gia (về loại đo lường đó) không gặp vấn đề gì trong việc xác định phần chính xác của tín hiệu bị xâm phạm trong khi các quy trình tự động thường thất bại (rất dễ để họ phát hiện ra rằng có một vấn đề, nhưng rất khó để khiến họ tìm ra nơi vấn đề bắt đầu và nơi nó kết thúc).


Có rất nhiều thông tin tốt ở đây. Tôi đặc biệt thích các gạch đầu dòng # 4 & 5.
gung - Tái lập Monica

4

Đối với các ngoại lệ đơn biến, có phép thử tỷ lệ của Dixon và phép thử giả định của Grubbs. Để kiểm tra ngoại lệ, bạn phải giả sử phân phối dân số vì bạn đang cố gắng chỉ ra rằng giá trị quan sát là cực kỳ hoặc bất thường đến từ phân phối giả định. Tôi có một bài báo trong Thống kê Hoa Kỳ năm 1982 mà tôi có thể đã tham khảo ở đây trước đó cho thấy rằng phép thử tỷ lệ của Dixon có thể được sử dụng trong các mẫu nhỏ ngay cả đối với một số phân phối không bình thường. Chernick, MR (1982) "Lưu ý về tính mạnh mẽ của tỷ lệ Dixon trong các mẫu nhỏ" Thống kê người Mỹ trang 140. Đối với các ngoại lệ đa biến và ngoại lệ trong chuỗi thời gian, các hàm ảnh hưởng cho ước tính tham số là các biện pháp hữu ích để phát hiện các ngoại lệ một cách không chính thức (tôi không biết các thử nghiệm chính thức được xây dựng cho họ mặc dù các thử nghiệm như vậy là có thể)."Các ngoại lệ trong dữ liệu thống kê" để xử lý chi tiết các phương pháp phát hiện ngoại lệ.


3

Xem http://www.waset.org/journals/waset/v36/v36-45.pdf , "Về phát hiện ngoại lệ trong hồi quy phi tuyến" [ sic ].

trừu tượng

Việc phát hiện các ngoại lệ là rất cần thiết vì trách nhiệm của họ trong việc tạo ra vấn đề diễn giải lớn trong tuyến tính cũng như trong phân tích hồi quy phi tuyến. Nhiều công việc đã được thực hiện trên việc xác định ngoại lệ trong hồi quy tuyến tính, nhưng không phải là hồi quy phi tuyến. Trong bài viết này, chúng tôi đề xuất một số kỹ thuật phát hiện ngoại lệ cho hồi quy phi tuyến. Ý tưởng chính là sử dụng xấp xỉ tuyến tính của mô hình phi tuyến và coi gradient là ma trận thiết kế. Sau đó, các kỹ thuật phát hiện được xây dựng. Sáu biện pháp phát hiện được phát triển kết hợp với ba kỹ thuật ước tính như Least-Squares, M và MM-ước tính. Nghiên cứu cho thấy rằng trong số sáu biện pháp, chỉ có phần còn lại được học sinh và Khoảng cách nấu kết hợp với công cụ ước tính MM,


+1 Mặc dù có những vấn đề rõ ràng với tiếng Anh (và trong cách sắp chữ toán học), bài viết này dường như là một đóng góp hữu ích cho câu hỏi.
whuber

2

Một ngoại lệ là một điểm "quá xa" so với "một số đường cơ sở". Bí quyết là xác định cả hai cụm từ đó! Với hồi quy phi tuyến, người ta không thể sử dụng các phương pháp đơn biến để xem liệu một ngoại lệ có "quá xa" so với đường cong phù hợp nhất hay không, bởi vì ngoại lệ có thể có ảnh hưởng rất lớn đến chính đường cong.

Ron Brown và tôi đã phát triển một phương pháp độc đáo (mà chúng tôi gọi là ROUT - Hồi quy mạnh mẽ và loại bỏ ngoại lệ) để thực hiện phát hiện các ngoại lệ với hồi quy phi tuyến, mà không để ngoại lệ ảnh hưởng quá nhiều đến đường cong. Đầu tiên phù hợp với dữ liệu với một phương pháp hồi quy mạnh mẽ trong đó các ngoại lệ có ít ảnh hưởng. Điều đó tạo thành đường cơ sở. Sau đó, sử dụng các ý tưởng của Tỷ lệ khám phá sai (FDR) để xác định khi một điểm "quá xa" so với đường cơ sở đó và do đó là một ngoại lệ. Cuối cùng, nó loại bỏ các ngoại lệ đã xác định và phù hợp với các điểm còn lại theo quy ước.

Phương pháp này được công bố trên một tạp chí truy cập mở: Motulsky HJ và Brown RE, Phát hiện các ngoại lệ khi khớp dữ liệu với hồi quy phi tuyến - một phương pháp mới dựa trên hồi quy phi tuyến mạnh mẽ và tỷ lệ phát hiện sai , BMC Bioinformatics 2006, 7: 123. Đây là bản tóm tắt:

Lý lịch. Hồi quy phi tuyến, như hồi quy tuyến tính, giả định rằng sự phân tán dữ liệu xung quanh đường cong lý tưởng tuân theo phân phối Gaussian hoặc bình thường. Giả định này dẫn đến mục tiêu hồi quy quen thuộc: giảm thiểu tổng bình phương của khoảng cách dọc hoặc giá trị Y giữa các điểm và đường cong. Các ngoại lệ có thể chi phối tính toán tổng bình phương và dẫn đến kết quả sai lệch. Tuy nhiên, chúng tôi biết không có phương pháp thực tế nào để xác định thường xuyên các ngoại lệ khi khớp đường cong với hồi quy phi tuyến.

Các kết quả. Chúng tôi mô tả một phương pháp mới để xác định các ngoại lệ khi khớp dữ liệu với hồi quy phi tuyến. Trước tiên, chúng tôi phù hợp với dữ liệu bằng cách sử dụng một hình thức hồi quy phi tuyến mạnh mẽ, dựa trên giả định rằng sự phân tán tuân theo phân phối Lorentzian. Chúng tôi đã nghĩ ra một phương pháp thích ứng mới dần dần trở nên mạnh mẽ hơn khi phương thức tiến hành. Để xác định các ngoại lệ, chúng tôi điều chỉnh cách tiếp cận tỷ lệ phát hiện sai để xử lý nhiều so sánh. Sau đó, chúng tôi xóa các ngoại lệ và phân tích dữ liệu bằng phương pháp hồi quy bình phương nhỏ nhất. Bởi vì phương thức kết hợp hồi quy mạnh mẽ và loại bỏ ngoại lệ, chúng tôi gọi nó là phương pháp ROUT.

Khi phân tích dữ liệu mô phỏng, trong đó tất cả các phân tán là Gaussian, phương pháp của chúng tôi phát hiện (giả) một hoặc nhiều ngoại lệ chỉ trong khoảng 1% 3% thí nghiệm. Khi phân tích dữ liệu bị nhiễm một hoặc một số ngoại lệ, phương pháp ROUT thực hiện tốt khi xác định ngoại lệ, với Tỷ lệ phát hiện sai trung bình dưới 1%.

Phần kết luận. Phương pháp của chúng tôi, kết hợp một phương pháp mới của hồi quy phi tuyến mạnh mẽ với một phương pháp nhận dạng ngoại lệ mới, xác định các ngoại lệ từ đường cong phi tuyến phù hợp với công suất hợp lý và một vài giá trị dương.

Nó không (theo như tôi biết) đã được triển khai trong R. Nhưng chúng tôi đã triển khai nó trong GraphPad Prism. và cung cấp một lời giải thích đơn giản trong sự giúp đỡ của Lăng kính .


0

Câu hỏi của bạn quá chung chung. Không có phương pháp tốt nhất duy nhất để loại trừ "ngoại lệ".

Bạn phải biết một số thuộc tính trên "ngoại lệ". hoặc bạn không biết phương pháp nào là tốt nhất. Sau khi quyết định phương pháp nào bạn muốn sử dụng, bạn cần hiệu chỉnh các tham số của phương pháp một cách cẩn thận.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.