Câu hỏi triết học về hồi quy logistic: tại sao giá trị ngưỡng tối ưu không được đào tạo?


13

Thông thường trong hồi quy logistic, chúng ta phù hợp với một mô hình và nhận được một số dự đoán về tập huấn luyện. Sau đó, chúng tôi xác nhận chéo các dự đoán đào tạo đó (một cái gì đó giống như ở đây ) và quyết định giá trị ngưỡng tối ưu dựa trên thứ gì đó như đường cong ROC.

Tại sao chúng ta không kết hợp xác thực chéo ngưỡng VÀO mô hình thực tế và huấn luyện toàn bộ mọi thứ từ đầu đến cuối?

Câu trả lời:


19

Một ngưỡng không được đào tạo với mô hình vì hồi quy logistic không phải là phân loại (xem, Tại sao Hồi quy logistic không được gọi là Phân loại logistic? ). Đây là một mô hình để ước tính tham số, p , chi phối hành vi của phân phối Bernoulli. Đó là, bạn đang giả sử rằng phân phối đáp ứng, có điều kiện trên các hiệp phương sai, là Bernoulli, và vì vậy bạn muốn ước tính tham số điều khiển biến đó thay đổi như là một hàm của hiệp phương sai. Đó là một mô hình xác suất trực tiếp chỉ . Tất nhiên, sau đó nó có thể được sử dụng như một bộ phân loại và đôi khi trong một số bối cảnh nhất định, nhưng nó vẫn là một mô hình xác suất.


1
Được rồi, tôi hiểu rằng một phần của lý thuyết (cảm ơn bạn vì lời giải thích hùng hồn đó!) Nhưng tại sao chúng ta không thể kết hợp khía cạnh phân loại vào mô hình? Đó là, tại sao chúng ta không thể tìm thấy p, sau đó tìm ngưỡng và huấn luyện toàn bộ mọi thứ từ đầu đến cuối để giảm thiểu một số mất mát?
Số liệu thống kê

4
Bạn chắc chắn có thể ( câu trả lời của @ Sycorax nói lên khả năng đó). Nhưng bởi vì đó không phải là bản thân LR, mà là một số tính năng tăng cường đột xuất, bạn sẽ cần tự mình viết mã cho sơ đồ tối ưu hóa đầy đủ. Lưu ý BTW, rằng Frank Harrell đã chỉ ra rằng quá trình này sẽ dẫn đến những gì có thể được coi là một mô hình kém hơn theo nhiều tiêu chuẩn.
gung - Phục hồi Monica

1
Hừm. Tôi đọc câu trả lời được chấp nhận trong câu hỏi liên quan ở đây và tôi đồng ý với nó về mặt lý thuyết, nhưng đôi khi trong các ứng dụng phân loại học máy chúng ta không quan tâm đến các loại lỗi tương đối, chúng ta chỉ quan tâm đến "phân loại chính xác". Trong trường hợp đó, bạn có thể đào tạo end-to-end như tôi mô tả không?
Số liệu thống kê

4
Như tôi đã nói, rất nhiều bạn có thể thiết lập tối ưu hóa tùy chỉnh của riêng bạn sẽ đào tạo mô hình và chọn ngưỡng đồng thời. Bạn chỉ cần tự làm điều đó & mô hình cuối cùng có thể sẽ kém hơn theo hầu hết các tiêu chuẩn.
gung - Tái lập Monica

1
@StatsSorceress "... đôi khi trong phân loại học máy ...". Nên có một sự nhấn mạnh lớn đôi khi . Thật khó để tưởng tượng một dự án trong đó độ chính xác là câu trả lời chính xác. Theo kinh nghiệm của tôi, nó luôn liên quan đến độ chính xác và thu hồi của một lớp thiểu số.
Wayne

14

Đó là bởi vì ngưỡng tối ưu không chỉ là một hàm của tỷ lệ dương thực sự (TPR), tỷ lệ dương tính giả (FPR), độ chính xác hoặc bất cứ điều gì khác. Thành phần quan trọng khác là chi phí và mức chi trả cho các quyết định đúng và sai .

Nếu mục tiêu của bạn là cảm lạnh thông thường, phản ứng của bạn đối với xét nghiệm dương tính là kê đơn hai viên aspirin và chi phí cho một dương tính thực sự không được điều trị là một cơn đau đầu không cần thiết trong hai ngày, thì quyết định tối ưu (không phải phân loại!) Của bạn là khá khác với nếu mục tiêu của bạn là một số bệnh đe dọa đến tính mạng và quyết định của bạn là (a) một số thủ tục tương đối đơn giản như cắt ruột thừa, hoặc (b) một can thiệp lớn như nhiều tháng hóa trị! Và lưu ý rằng mặc dù biến mục tiêu của bạn có thể là nhị phân (ốm / khỏe), các quyết định của bạn có thể có nhiều giá trị hơn (gửi về nhà với hai viên aspirin / chạy thêm xét nghiệm / nhập viện và theo dõi / phẫu thuật ngay lập tức).

Điểm mấu chốt: nếu bạn biết cấu trúc chi phí của mình và tất cả các quyết định khác nhau, bạn chắc chắn có thể đào tạo trực tiếp hệ thống hỗ trợ quyết định (DSS), bao gồm phân loại xác suất hoặc dự đoán. Tuy nhiên, tôi sẽ mạnh mẽ lập luận rằng việc phân biệt các dự đoán hoặc phân loại thông qua các ngưỡng không phải là cách đúng đắn để thực hiện điều này.

Xem thêm câu trả lời của tôi cho chủ đề "Ngưỡng xác suất phân loại" trước đó . Hoặc câu trả lời này của tôi . Hoặc là cái đó .


4

Các mối quan tâm triết học sang một bên, điều này sẽ gây ra những khó khăn tính toán.

Lý do tại sao các chức năng với đầu ra liên tục tương đối dễ dàng để tối ưu hóa. Bạn tìm hướng mà hàm tăng, rồi đi theo hướng đó. Nếu chúng ta thay đổi chức năng mất để bao gồm bước "cắt", đầu ra của chúng ta sẽ rời rạc và do đó chức năng mất của chúng ta cũng rời rạc. Bây giờ khi chúng ta thay đổi các tham số của hàm logistic bằng "một chút" và cùng thay đổi giá trị ngưỡng bằng "một chút", sự mất mát của chúng ta mang lại một giá trị giống hệt nhau và việc tối ưu hóa trở nên khó khăn. Tất nhiên, điều đó là không thể (Có cả một lĩnh vực nghiên cứu về tối ưu hóa rời rạc ) nhưng tối ưu hóa liên tục là cho đến nayvấn đề dễ giải quyết hơn khi bạn đang tối ưu hóa nhiều tham số. Thuận tiện, một khi mô hình logistic đã phù hợp, việc tìm ra điểm cắt tối ưu, mặc dù vẫn là một vấn đề đầu ra riêng biệt, giờ chỉ có một biến và chúng ta có thể thực hiện tìm kiếm dạng lưới, hoặc một số như vậy, hoàn toàn khả thi trong một biến.


3

Bất kể mô hình cơ bản nào, chúng ta có thể tìm ra các bản phân phối mẫu của TPR và FPR ở ngưỡng. Điều này ngụ ý rằng chúng ta có thể mô tả sự biến đổi trong TPR và FPR ở một số ngưỡng và chúng ta có thể quay trở lại một sự đánh đổi tỷ lệ lỗi mong muốn.

Đường cong ROC hơi lừa đảo một chút vì điều duy nhất bạn kiểm soát là ngưỡng, tuy nhiên, biểu đồ hiển thị TPR và FPR, là các chức năng của ngưỡng. Hơn nữa, TPR và FPR đều là số liệu thống kê , vì vậy chúng phải chịu sự mơ hồ của việc lấy mẫu ngẫu nhiên. Điều này ngụ ý rằng nếu bạn lặp lại quy trình (giả sử xác thực chéo), bạn có thể đưa ra một FPR và TPR khác nhau ở một số giá trị ngưỡng cụ thể.

Tuy nhiên, nếu chúng ta có thể ước tính độ biến thiên trong TPR và FPR, thì việc lặp lại thủ tục ROC là không cần thiết. Chúng tôi chỉ chọn một ngưỡng sao cho điểm cuối của khoảng tin cậy (với một số chiều rộng) có thể chấp nhận được. Đó là, chọn mô hình sao cho FPR thấp hơn mức tối đa do nhà nghiên cứu chỉ định và / hoặc TPR ở trên một cách hợp lý mức tối thiểu do nhà nghiên cứu chỉ định. Nếu mô hình của bạn không thể đạt được mục tiêu của bạn, bạn sẽ phải xây dựng một mô hình tốt hơn.

Tất nhiên, những giá trị TPR và FPR có thể chấp nhận được trong việc sử dụng của bạn sẽ phụ thuộc vào ngữ cảnh.

Để biết thêm thông tin, hãy xem Đường cong ROC cho dữ liệu liên tục của Wojtek J. Krzanowski và David J. Hand.


Điều này không thực sự trả lời câu hỏi của tôi, nhưng nó là một mô tả rất hay về các đường cong ROC.
Số liệu thống kê

Bằng cách nào điều này không trả lời câu hỏi của bạn? Câu hỏi của bạn là gì, nếu không hỏi về cách chọn ngưỡng để phân loại?
Sycorax nói Phục hồi lại

2
Tôi không biết về bất kỳ quy trình thống kê nào hoạt động theo cách đó. Tại sao bánh xe vuông này là một ý tưởng tốt? vấn đề gì nó giải quyết?
Sycorax nói Phục hồi lại

1
"Làm thế nào để tôi chọn một ngưỡng theo cách giảm thời gian đào tạo?" có vẻ như một câu hỏi rất khác với câu hỏi trong bài viết gốc của bạn.
Sycorax nói Phục hồi lại

1
Bất kể, tôi không thấy làm thế nào điều này tiết kiệm thời gian. Làm một đường cong ROC không phải là phần đắt nhất của ước lượng một mô hình, vì vậy di chuyển lựa chọn ngưỡng vào bước tối ưu hóa dường như ad-hoc và không cần thiết.
Sycorax nói Phục hồi lại

-2

Thông thường trong nghiên cứu y sinh, chúng tôi không sử dụng tập huấn luyện --- chúng tôi chỉ áp dụng hồi quy logistic trên tập dữ liệu đầy đủ để xem dự đoán nào là yếu tố rủi ro quan trọng cho kết quả mà chúng tôi đang xem xét; hoặc để xem xét một yếu tố dự đoán lợi ích trong khi kiểm soát ảnh hưởng của các yếu tố dự đoán khác có thể xảy ra đối với kết quả.
Tôi không chắc ý của bạn về giá trị ngưỡng, nhưng có nhiều tham số khác nhau mà người ta có thể tìm cách tối ưu hóa: AUC, các giá trị ngưỡng để phân đôi biến dự báo liên tục, giá trị tiên đoán dương và âm, khoảng tin cậy và giá trị p, tỷ lệ âm tính giả và âm tính giả. Hồi quy logistic xem xét một quần thể các đối tượng và đánh giá sức mạnh và hướng nguyên nhân của các yếu tố rủi ro góp phần vào kết quả quan tâm trong dân số đó. Cũng có thể "chạy ngược lại", có thể nói và xác định rủi ro của một cá nhân đối với kết quả do các yếu tố rủi ro mà cá nhân đó có. Hồi quy logistic gán cho mỗi cá nhân một rủi ro về kết quả, dựa trên các yếu tố rủi ro riêng của họ và theo mặc định, đây là 0,5. Nếu một chủ đề ' xác suất có kết quả (dựa trên tất cả dữ liệu và đối tượng trong mô hình của bạn) là 0,5 hoặc cao hơn, dự đoán anh ta sẽ có kết quả; nếu dưới 0,5 thì nó dự đoán anh sẽ không. Nhưng bạn có thể điều chỉnh mức cắt này, ví dụ để gắn cờ cho nhiều cá nhân có nguy cơ gặp phải kết quả, mặc dù cái giá của việc có nhiều kết quả dương tính giả được mô hình dự đoán. Bạn có thể điều chỉnh mức cắt này để tối ưu hóa các quyết định sàng lọc để dự đoán những cá nhân nào sẽ được khuyên nên theo dõi y tế thêm, ví dụ; và để xây dựng giá trị dự đoán dương của bạn, giá trị dự đoán âm tính và tỷ lệ dương tính giả và âm tính giả cho xét nghiệm sàng lọc dựa trên mô hình hồi quy logistic. Bạn có thể phát triển mô hình trên một nửa tập dữ liệu của mình và kiểm tra mô hình trên nửa kia, nhưng bạn không ' thực sự phải (và làm như vậy sẽ cắt giảm một nửa dữ liệu 'đào tạo' của bạn và do đó giảm sức mạnh để tìm các yếu tố dự đoán quan trọng trong mô hình). Vì vậy, có, bạn có thể 'đào tạo toàn bộ từ đầu đến cuối'. Tất nhiên, trong nghiên cứu y sinh, bạn sẽ muốn xác nhận nó trên một dân số khác, một bộ dữ liệu khác trước khi nói rằng kết quả của bạn có thể được khái quát cho dân số rộng hơn. Một cách tiếp cận khác là sử dụng cách tiếp cận kiểu bootstrapping trong đó bạn chạy mô hình của mình trên một mẫu con của dân số nghiên cứu của bạn, sau đó thay thế các đối tượng đó trở lại nhóm và lặp lại với một mẫu khác, nhiều lần (thường là 1000 lần). Nếu bạn nhận được kết quả quan trọng trong phần lớn thời gian quy định (ví dụ 95% thời gian) thì mô hình của bạn có thể được coi là hợp lệ --- ít nhất là trên dữ liệu của chính bạn. Nhưng một lần nữa, dân số nghiên cứu bạn chạy mô hình của bạn càng nhỏ, càng ít có khả năng một số yếu tố dự đoán sẽ là yếu tố rủi ro có ý nghĩa thống kê cho kết quả. Điều này đặc biệt đúng đối với các nghiên cứu y sinh với số lượng người tham gia hạn chế.
Sử dụng một nửa dữ liệu của bạn để 'đào tạo' mô hình của bạn và sau đó 'xác thực' nó cho nửa kia là một gánh nặng không cần thiết. Bạn không làm điều đó cho các bài kiểm tra t hoặc hồi quy tuyến tính, vậy tại sao lại làm điều đó trong hồi quy logistic? Điều tốt nhất sẽ làm là để bạn nói 'ừ nó hoạt động' nhưng nếu bạn sử dụng bộ dữ liệu đầy đủ của mình thì bạn sẽ xác định điều đó bằng mọi cách. Việc chia dữ liệu của bạn thành các bộ dữ liệu nhỏ hơn có nguy cơ không phát hiện ra các yếu tố rủi ro đáng kể trong dân số nghiên cứu (HOẶC dân số xác thực) khi chúng có mặt trên thực tế, do kích thước mẫu nhỏ, có quá nhiều yếu tố dự đoán cho quy mô nghiên cứu của bạn và khả năng rằng 'mẫu xác nhận' của bạn sẽ không hiển thị các liên kết chỉ do tình cờ. Logic đằng sau phương pháp 'đào tạo sau đó xác nhận' dường như là nếu các yếu tố rủi ro mà bạn xác định là không đủ mạnh, sau đó chúng sẽ không có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. t có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. t có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. s độ lớn của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất nên sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. s độ lớn của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất nên sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.