Vấn đề với gì?


7

Tôi biết rằng đây là hệ thống giải bài toán phương trình tuyến tính.

Nhưng câu hỏi của tôi là tại sao nó là một vấn đề số lượng quan sát thấp hơn số lượng người dự đoán làm thế nào điều đó có thể xảy ra?

Không phải bộ sưu tập dữ liệu đến từ thiết kế khảo sát tinh tế hoặc thiết kế thử nghiệm đến mức ít nhất họ nghĩ về điều này?

Nếu việc thu thập dữ liệu muốn thu thập 45 biến để tiến hành nghiên cứu thì tại sao anh ta lại thu thập dưới 45 quan sát? Tôi có bỏ lỡ điều gì không và mặc dù phần chọn mô hình cũng đã loại bỏ các biến không cải thiện trên phản hồi và luôn luôn biến được thu thập sẽ bị loại thành phải không? 45(45p)

Vậy thì tại sao chúng ta sẽ phải đối mặt với giải pháp không độc đáo trong những trường hợp đó?


1
Tôi nghi ngờ bạn chưa được giác ngộ về lựa chọn mô hình từng bước , nhưng tôi thích câu hỏi này.
Alexis

Vâng, không nghi ngờ gì nữa. Tôi có được phần khái niệm nhưng một phần về sự kết hợp của mô hình trong toán học. Tại sao chúng ta sẽ bị p> n?
EEBoy

2
Có thể có trường hợp, một khi bạn có một đối tượng trong mẫu của mình, sẽ rất rẻ để đo (hàng chục) hàng ngàn biến --- ít nhất không đắt hơn 10 hoặc 100. Tin sinh học? cảm biến tự động?
kjetil b halvorsen

3
Đôi khi việc có đủ các quan sát để chống lại tất cả các biến cần phải tính là không khả thi. Ví dụ cổ điển là các nghiên cứu y học, trong đó số lượng người bạn có thể điều trị rất hạn chế.
nope

Câu trả lời:


3

Điều này có thể xảy ra trong nhiều tình huống, một vài ví dụ là:

  1. Phân tích dữ liệu y tế tại bệnh viện. Các nhà nghiên cứu y học nghiên cứu về một loại ung thư đặc biệt chủ yếu có thể thực hiện thu thập dữ liệu tại bệnh viện của họ và tôi nghĩ rằng họ không cố gắng thu thập nhiều biến số có thể từ một bệnh nhân cụ thể như tuổi, giới tính, kích thước khối u, MRI, khối lượng CT.
  2. Micro platerhead nghiên cứu mảng trong tin sinh học. Nó thường là trường hợp bạn không có nhiều loài nhưng bạn muốn có thể kiểm tra càng nhiều hiệu ứng càng tốt.
  3. Phân tích bằng hình ảnh. Bạn thường có 16 triệu pixel trong khi rất khó thu thập và lưu trữ nhiều hình ảnh đó.
  4. Tái tạo MRI thường là những vấn đề tương tự, cần kỹ thuật hồi quy thưa thớt và cải thiện chúng thực sự là một câu hỏi chính trong nghiên cứu hình ảnh MRI.

Giải pháp là thực sự, để xem xét tài liệu hồi quy và tìm ra những gì tốt nhất cho ứng dụng của bạn.

  1. Nếu bạn có kiến ​​thức về miền, hãy kết hợp với bản phân phối trước đó của bạn và thực hiện phương pháp Bayesian với Hồi quy tuyến tính Bayes.

  2. Nếu bạn muốn tìm một giải pháp thưa thớt, phương pháp Bayes theo kinh nghiệm xác định mức độ phù hợp tự động có thể là cách tốt nhất.

  3. Nếu bạn nghĩ rằng với vấn đề của bạn, việc có một khái niệm xác suất là không phù hợp (như giải một hệ phương trình tuyến tính), thì có thể đáng để xem xét giả giả Moore-Penrose.

  4. Bạn có thể tiếp cận nó từ góc độ lựa chọn tính năng và giảm số lượng p cho đến khi nó là một vấn đề được đặt ra.


Cảm ơn bạn rất nhiều vì câu trả lời, tôi sẽ biết ơn nếu bạn cho tôi một trường hợp học tập. Từ những gì tôi nghe được từ bạn, có vẻ như "trường hợp rất hiếm và nhà nghiên cứu thực sự muốn đào sâu vào vấn đề đó với số lượng lớn biến họ nghĩ rằng họ sẽ trích xuất mô hình và thông tin hữu ích để dự đoán sự hiếm có đó?"
EEBoy

1
Bạn có thể gọi nó là một căn bệnh ung thư hiếm gặp, nhưng theo kinh nghiệm của tôi, cần có thời gian để thu thập đủ dữ liệu ngay cả đối với những bệnh phổ biến hơn nếu bạn bị giới hạn ở một bệnh nhân của bệnh viện. Điều quan trọng là n khan hiếm, trong khi p thì không. Tôi vẫn đang tìm kiếm một ví dụ hay, thực tế, nhưng David Wipf, làm việc về thần kinh học bằng từ điển không đầy đủ có thể là một khởi đầu tốt từ quan điểm lý thuyết ứng dụng.
boomkin

10

Đây là một câu hỏi rất hay. Khi số lượng dự đoán ứng viên nhiều hơn cỡ mẫu hiệu quả và người ta không đặt ra bất kỳ hạn chế nào đối với các hệ số hồi quy (ví dụ: một người không sử dụng độ co rút, còn gọi là ước lượng khả năng tối đa hoặc chính quy hóa bị phạt), tình huống là vô vọng. Tôi nói rằng vì nhiều lý do bao gồmpn

  • Nếu bạn nghĩ về số lượng tổ hợp tuyến tính không dự phòng của các biến có thể được phân tích, thì số này là . Ví dụ: bạn thậm chí không thể tính toán , ít tin cậy hơn, các thành phần chính vượt quá .min(n,p)min(n,p)
  • Với và không có hai tọa độ trên một đường thẳng đứng khi vẽ đồ thị , người ta có thể đạt được cho bất kỳ tập dữ liệu nào ngay cả khi dân số thực là 0,0.p=ny(x,y)R2=1.0R2
  • Nếu bạn sử dụng bất kỳ thuật toán lựa chọn tính năng nào, chẳng hạn như các mô hình hồi quy từng bước đáng sợ, danh sách các tính năng "được chọn" về cơ bản sẽ là một tập hợp các tính năng ngẫu nhiên mà không có hy vọng sao chép trong một mẫu khác. Điều này đặc biệt đúng nếu có các mối tương quan giữa các tính năng ứng cử viên, ví dụ, đồng tuyến tính.
  • Giá trị của cần thiết để ước tính với độ chính xác khá, hệ số tương quan đơn giữa hai biến là khoảng 400. Xem tại đây .n

Nói chung, một nghiên cứu có ý định phân tích 45 biến số trên 45 đối tượng được lên kế hoạch kém và cách duy nhất để giải cứu nó mà tôi biết là

  • Chỉ định trước một hoặc hai dự đoán để phân tích và bỏ qua phần còn lại
  • Sử dụng ước lượng bị phạt như hồi quy sườn núi để phù hợp với tất cả các biến nhưng lấy các hệ số với một hạt muối (chiết khấu nặng)
  • Sử dụng giảm dữ liệu, ví dụ: các thành phần chính, phân cụm biến, các thành phần chính thưa thớt (yêu thích của tôi) như được thảo luận trong sách RMS và ghi chú khóa học của tôi . Điều này liên quan đến việc kết hợp các biến khó phân tách và không cố gắng ước tính các hiệu ứng riêng cho chúng. Với bạn chỉ có thể nhận được bằng 2 điểm bị sập khi chơi với . Giảm dữ liệu (học tập không giám sát) dễ hiểu hơn hầu hết các phương pháp khác.n=45y

Một chi tiết kỹ thuật: nếu bạn sử dụng một trong các phương pháp lựa chọn / hình phạt biến kết hợp tốt nhất như lasso hoặc lưới đàn hồi, bạn có thể giảm cơ hội vượt mức nhưng cuối cùng sẽ thất vọng vì danh sách các tính năng được chọn rất không ổn định và sẽ không sao chép bộ dữ liệu.


Điều này thực sự hữu ích Frank! Tôi có kiến ​​thức về cách xử lý các trường hợp p> n, tôi biết lý do tại sao nó là một vấn đề và loại vấn đề nào có thể dẫn đến. Tôi thực sự đã nhận được rất nhiều câu trả lời cho điều đó rất nhiều từ bạn, mặc dù bạn bỏ lỡ quan điểm của tôi, tôi chỉ hỏi một câu hỏi đơn giản rằng tại sao trường hợp đó có thể xảy ra nếu họ thực hiện một bộ sưu tập dữ liệu tế nhị. Các nhà thống kê biết đó có thể là một vấn đề vì vậy tại sao họ không ngăn chặn nó, rõ ràng họ biết, điều đó có nghĩa là họ cố gắng nhưng không thể. vậy tại sao họ không thể? Cảm ơn bạn rất nhiều !!!
EEBoy

Câu hỏi đó là nhiều hơn về tâm lý và hậu cần. Tôi thấy rằng rất thường xuyên các nghiên cứu được thiết kế bởi ủy ban và mọi người đều có một biến yêu thích. Trước khi bạn nhận ra nó, danh sách các biến quá dài để có thể (1) đo lường một cách đáng tin cậy tất cả chúng và (2) phân tích chúng.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.