Sử dụng mô hình hồi quy để đưa ra dự đoán: Khi nào thì dừng?


9

Tôi đã tính toán một mô hình hồi quy tuyến tính đơn giản từ các biện pháp thử nghiệm của mình để đưa ra dự đoán. Tôi đã đọc rằng bạn không nên tính toán dự đoán cho các điểm xuất phát quá xa so với dữ liệu có sẵn. Tuy nhiên, tôi không thể tìm thấy bất kỳ hướng dẫn nào để giúp tôi biết tôi có thể ngoại suy bao xa. Ví dụ: nếu tôi tính tốc độ đọc cho kích thước đĩa là 50 GB, tôi đoán kết quả sẽ gần với thực tế. Kích thước đĩa 100 GB, 500 GB thì sao? Làm thế nào để tôi biết nếu dự đoán của tôi gần với thực tế?

Các chi tiết thí nghiệm của tôi là:

Tôi đang đo tốc độ đọc của một phần mềm bằng cách sử dụng kích thước đĩa khác nhau. Cho đến nay tôi đã đo được nó với 5GB đến 30GB bằng cách tăng kích thước đĩa 5GB giữa các thử nghiệm (tổng cộng 6 biện pháp).

Theo tôi, kết quả của tôi là tuyến tính và các lỗi tiêu chuẩn là nhỏ.


2
Tôi nghĩ rằng để có được câu trả lời hữu ích, bạn sẽ cần phải mở rộng rất nhiều và làm rõ câu thứ 2 của bạn.
rolando2

rolando2 là đúng. Bạn có ý nghĩa gì "quá nhiều dự đoán"?
David Robinson

Tôi không thể tìm thấy các thuật ngữ chính xác đã được sử dụng trong tài liệu mà tôi đã đọc. Ý tưởng là "quá xa so với các biện pháp ban đầu của tôi". Vì vậy, tôi đã đo tốc độ đọc với đĩa 30 GB. Nếu tôi dự đoán tốc độ đọc cho một đĩa 100 GB, điều này có "quá xa" không?
Flanfl

Câu trả lời của gung là đủ để phác thảo các vấn đề liên quan. một điều nữa có thể giúp ích trong trường hợp cụ thể của bạn là xem xét quá trình vật lý liên quan đến việc đọc phần mềm. Những loại hoạt động cần phải được thực hiện? phần mềm có cần tổ chức hoặc sắp xếp đĩa như một phần của quá trình đọc không? những câu hỏi này sẽ giúp cung cấp một số nền tảng cho giả định về tuyến tính
xác suất

Câu trả lời:


19

Thuật ngữ bạn đang tìm kiếm là 'ngoại suy'. Vấn đề là cho dù bạn có bao nhiêu dữ liệu và bao nhiêu cấp độ trung gian giữa các điểm cuối của bạn về kích thước đĩa (tức là từ 5 đến 30), luôn có khả năng có một mức độ cong trong hàm bên dưới thực sự , mà bạn chỉ đơn giản là không có sức mạnh để phát hiện. Kết quả là, khi bạn ngoại suy ra xa điểm cuối, mức độ cong nhỏ sẽ được phóng to, trong đó hàm thực sự di chuyển ngày càng xa khỏi đường thẳng phù hợp của bạn. Một khả năng khác là chức năng thực sự thực sự hoàn toàn thẳng trong phạm vi được kiểm tra, nhưng có lẽ có một điểm thay đổi ở một khoảng cách nào đó so với điểm cuối trong nghiên cứu của bạn. Những thứ này là không thể loại trừ; câu hỏi là, khả năng của chúng như thế nào và dự đoán của bạn sẽ không chính xác như thế nào nếu chúng trở thành sự thật? Tôi không biết làm thế nào để cung cấp một câu trả lời phân tích cho những câu hỏi đó. Linh cảm của tôi là 500 là một chặng đường rất dài khi phạm vi nghiên cứu là [5, 30], nhưng không có lý do thực sự nào để nghĩ rằng linh cảm của tôi đáng giá hơn bạn. Các công thức tiêu chuẩn để tính toán các khoảng dự đoán sẽ cho bạn thấy một khoảng thời gian mở rộng khi bạn rời khỏi xx¯ , xem khoảng thời gian đó trông như thế nào có thể hữu ích. Tuy nhiên, bạn cần phải nhớ rằng bạn đang đưa ra một giả định về mặt lý thuyết rằng đường thẳng thực sự hoàn toàn thẳng, và vẫn như vậy cho đến giá trị bạn sẽ sử dụng để dự đoán. Tính hợp pháp của dự đoán đó phụ thuộc vào cả dữ liệu & sự phù hợp và giả định đó. x


2
Hoàn toàn đồng ý (+1). Câu trả lời cho câu hỏi này không thể được thống kê nghiêm ngặt. Nói chuyện với một kỹ sư phần mềm và máy tính sẽ có liên quan ở đây!
Đaminh Comtois

Cảm ơn câu trả lời, nó thực sự hữu ích. Tôi tự học nên tôi thiếu khá nhiều kiến ​​thức cơ bản (như biết từ vựng).
Flanfl

Không thể nghịch đảo độ rộng của khoảng tin cậy được coi là một loại chỉ báo về "sức mạnh" của dự đoán? Rõ ràng là bạn phải chọn một số giá trị tùy ý để sử dụng nó ..
naught101

2
@ naught101, nếu bạn sẵn sàng cho rằng đường hồi quy hoàn toàn thẳng, thì độ rộng của khoảng dự đoán có thể được coi là thước đo sức mạnh của dự đoán, (w / khoảng rộng hơn cho thấy dự đoán yếu hơn), nhưng nó vẫn phụ thuộc vào giả định đó.
gung - Tái lập Monica

7

Hãy để tôi thêm một vài điểm vào câu trả lời tuyệt vời của @ gung:

  • Tùy thuộc vào lĩnh vực của bạn, có thể có các định mức phù hợp (như trong DIN / EN hoặc ISO). Đây có lẽ không phải là vấn đề với việc dự đoán tốc độ đọc đĩa cứng, nhưng ví dụ trong hóa học phân tích , quy tắc này không phảingoại suy . Giai đoạn = Stage. Nếu bạn muốn đi xa tới 500 GB, thì hãy đi và thực hiện một số phép đo lên đến 500 GB.

  • Cách thông thường để thiết lập mô hình tuyến tính có hai giả định quan trọng

    • Rõ ràng, chức năng là tuyến tính. Trong thực tế thường không phải là một giả định rất tốt rằng tuyến tính kéo dài đến vô tận. Ví dụ, bạn có thể mong đợi vẫn tìm thấy tuyến tính nếu bạn đọc số lượng lớn hơn dung lượng đĩa cứng?

    • Thông thường, cũng có tính đồng nhất được giả định. Điều này có nghĩa là lượng lỗi / nhiễu tuyệt đối không phụ thuộc vào biến phụ thuộc ( ), ở đây: lượng dữ liệu cần đọc. Tôi không chắc chắn về việc đọc đĩa cứng, nhưng tôi trải nghiệm (hóa học / hóa học) thường là một cái gì đó giữa tiếng ồn tương đối tuyệt đối và không đổi (hoặc hành vi phức tạp hơn do các nguồn tiếng ồn khác nhau). Bất kỳ sai lệch nào so với chế độ nhiễu tuyệt đối không đổi sẽ có nghĩa là các khoảng dự đoán cho phép ngoại suy là hoàn toàn sai - thông thường chúng sẽ quá hẹp.x

  • Ngay cả khi những giả định này được đáp ứng, hãy xem xét khoảng thời gian dự đoán thực sự lớn như thế nào đối với kiểu ngoại suy đó:

    phạm vi hiệu chuẩn lm ngoại suy lm

    (Tôi đã lấy một số dữ liệu hiệu chuẩn thực tế của một phép đo rất đẹp mà tôi có và điều chỉnh nó phù hợp với vấn đề của bạn).
    Lưu ý rằng khoảng thời gian dự đoán tại = 500 là đã hai lần như lớn như tổng chênh lệch của bạn nhịp dữ liệu hiệu chuẩn! Nếu bạn không có bộ dữ liệu tuyến tính cực kỳ đẹp như vậy, khoảng dự đoán sẽ chỉ "nổ".txt


1
+1, giả định homoscedasticity nói riêng là một bổ sung tốt đẹp cho các cuộc thảo luận ở đây. (Lưu ý nhỏ, bởi "Dot.", Bạn có nghĩa là Thời kỳ. Như một cách nhấn mạnh tính hữu hạn của quy tắc được nêu trong câu trước?)
gung - Tái lập Monica

@gung: Nếu dấu chấm là từ thì đó là ý của tôi :-) cảm ơn.
cbeleites không hài lòng với SX

2
Gọi một khoảng thời gian là "dấu chấm" chỉ thực sự được sử dụng trong thuật ngữ máy tính & đặc biệt là các url (ví dụ: "thống kê dot stackexchange dot com"). Nó là một cách sử dụng khá mới trong tiếng Anh, có lẽ khoảng 20 tuổi.
gung - Phục hồi Monica

1
Cảm ơn cho điểm bổ sung của bạn. Tôi đã hoàn thành công việc của mình một thời gian trước nhưng tôi hy vọng cả hai câu trả lời cho câu hỏi này sẽ giúp các sinh viên khác!
Flanfl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.