Thông thường trong nghiên cứu y sinh, chúng tôi không sử dụng tập huấn luyện --- chúng tôi chỉ áp dụng hồi quy logistic trên tập dữ liệu đầy đủ để xem dự đoán nào là yếu tố rủi ro quan trọng cho kết quả mà chúng tôi đang xem xét; hoặc để xem xét một yếu tố dự đoán lợi ích trong khi kiểm soát ảnh hưởng của các yếu tố dự đoán khác có thể xảy ra đối với kết quả.
Tôi không chắc ý của bạn về giá trị ngưỡng, nhưng có nhiều tham số khác nhau mà người ta có thể tìm cách tối ưu hóa: AUC, các giá trị ngưỡng để phân đôi biến dự báo liên tục, giá trị tiên đoán dương và âm, khoảng tin cậy và giá trị p, tỷ lệ âm tính giả và âm tính giả. Hồi quy logistic xem xét một quần thể các đối tượng và đánh giá sức mạnh và hướng nguyên nhân của các yếu tố rủi ro góp phần vào kết quả quan tâm trong dân số đó. Cũng có thể "chạy ngược lại", có thể nói và xác định rủi ro của một cá nhân đối với kết quả do các yếu tố rủi ro mà cá nhân đó có. Hồi quy logistic gán cho mỗi cá nhân một rủi ro về kết quả, dựa trên các yếu tố rủi ro riêng của họ và theo mặc định, đây là 0,5. Nếu một chủ đề ' xác suất có kết quả (dựa trên tất cả dữ liệu và đối tượng trong mô hình của bạn) là 0,5 hoặc cao hơn, dự đoán anh ta sẽ có kết quả; nếu dưới 0,5 thì nó dự đoán anh sẽ không. Nhưng bạn có thể điều chỉnh mức cắt này, ví dụ để gắn cờ cho nhiều cá nhân có nguy cơ gặp phải kết quả, mặc dù cái giá của việc có nhiều kết quả dương tính giả được mô hình dự đoán. Bạn có thể điều chỉnh mức cắt này để tối ưu hóa các quyết định sàng lọc để dự đoán những cá nhân nào sẽ được khuyên nên theo dõi y tế thêm, ví dụ; và để xây dựng giá trị dự đoán dương của bạn, giá trị dự đoán âm tính và tỷ lệ dương tính giả và âm tính giả cho xét nghiệm sàng lọc dựa trên mô hình hồi quy logistic. Bạn có thể phát triển mô hình trên một nửa tập dữ liệu của mình và kiểm tra mô hình trên nửa kia, nhưng bạn không ' thực sự phải (và làm như vậy sẽ cắt giảm một nửa dữ liệu 'đào tạo' của bạn và do đó giảm sức mạnh để tìm các yếu tố dự đoán quan trọng trong mô hình). Vì vậy, có, bạn có thể 'đào tạo toàn bộ từ đầu đến cuối'. Tất nhiên, trong nghiên cứu y sinh, bạn sẽ muốn xác nhận nó trên một dân số khác, một bộ dữ liệu khác trước khi nói rằng kết quả của bạn có thể được khái quát cho dân số rộng hơn. Một cách tiếp cận khác là sử dụng cách tiếp cận kiểu bootstrapping trong đó bạn chạy mô hình của mình trên một mẫu con của dân số nghiên cứu của bạn, sau đó thay thế các đối tượng đó trở lại nhóm và lặp lại với một mẫu khác, nhiều lần (thường là 1000 lần). Nếu bạn nhận được kết quả quan trọng trong phần lớn thời gian quy định (ví dụ 95% thời gian) thì mô hình của bạn có thể được coi là hợp lệ --- ít nhất là trên dữ liệu của chính bạn. Nhưng một lần nữa, dân số nghiên cứu bạn chạy mô hình của bạn càng nhỏ, càng ít có khả năng một số yếu tố dự đoán sẽ là yếu tố rủi ro có ý nghĩa thống kê cho kết quả. Điều này đặc biệt đúng đối với các nghiên cứu y sinh với số lượng người tham gia hạn chế.
Sử dụng một nửa dữ liệu của bạn để 'đào tạo' mô hình của bạn và sau đó 'xác thực' nó cho nửa kia là một gánh nặng không cần thiết. Bạn không làm điều đó cho các bài kiểm tra t hoặc hồi quy tuyến tính, vậy tại sao lại làm điều đó trong hồi quy logistic? Điều tốt nhất sẽ làm là để bạn nói 'ừ nó hoạt động' nhưng nếu bạn sử dụng bộ dữ liệu đầy đủ của mình thì bạn sẽ xác định điều đó bằng mọi cách. Việc chia dữ liệu của bạn thành các bộ dữ liệu nhỏ hơn có nguy cơ không phát hiện ra các yếu tố rủi ro đáng kể trong dân số nghiên cứu (HOẶC dân số xác thực) khi chúng có mặt trên thực tế, do kích thước mẫu nhỏ, có quá nhiều yếu tố dự đoán cho quy mô nghiên cứu của bạn và khả năng rằng 'mẫu xác nhận' của bạn sẽ không hiển thị các liên kết chỉ do tình cờ. Logic đằng sau phương pháp 'đào tạo sau đó xác nhận' dường như là nếu các yếu tố rủi ro mà bạn xác định là không đủ mạnh, sau đó chúng sẽ không có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. t có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. t có ý nghĩa thống kê khi được mô hình hóa trên một nửa dữ liệu được chọn ngẫu nhiên. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. Nhưng mẫu được chọn ngẫu nhiên đó có thể xảy ra cho thấy không có mối liên hệ nào chỉ là tình cờ, hoặc vì nó quá nhỏ để các yếu tố rủi ro có ý nghĩa thống kê. Nhưng đó là mức độ của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất là sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. s độ lớn của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất nên sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn. s độ lớn của (các) yếu tố rủi ro VÀ ý nghĩa thống kê của chúng quyết định tầm quan trọng của chúng và vì lý do đó, tốt nhất nên sử dụng bộ dữ liệu đầy đủ của bạn để xây dựng mô hình của bạn. Ý nghĩa thống kê sẽ trở nên ít quan trọng hơn với các cỡ mẫu nhỏ hơn, giống như với hầu hết các thử nghiệm thống kê. Thực hiện hồi quy logistic là một nghệ thuật gần như là một khoa học thống kê. Có nhiều cách tiếp cận khác nhau để sử dụng và các thông số khác nhau để tối ưu hóa tùy thuộc vào thiết kế nghiên cứu của bạn.