Lợi ích của việc phá vỡ một biến dự đoán liên tục là gì?


78

Tôi đang tự hỏi giá trị là gì khi lấy một biến dự đoán liên tục và phá vỡ nó (ví dụ, thành các nhóm tinh túy), trước khi sử dụng nó trong một mô hình.

Dường như với tôi, bằng cách biến đổi biến chúng ta mất thông tin.

  • Đây có phải chỉ để chúng ta có thể mô hình hóa các hiệu ứng phi tuyến tính?
  • Nếu chúng ta giữ biến liên tục và đó không thực sự là mối quan hệ tuyến tính thẳng, chúng ta có cần đưa ra một loại đường cong nào đó để phù hợp nhất với dữ liệu không?

12
1) Không. Bạn đúng khi binning mất thông tin. Nó nên được tránh nếu có thể. 2) Nói chung, hàm đường cong phù hợp với lý thuyết đằng sau dữ liệu được ưu tiên.
O_Devinyak

8
Tôi không biết về lợi ích, nhưng có một số nguy cơ được công nhận rộng rãi
Glen_b

2
Một lý lẽ miễn cưỡng cho nó, đôi khi: Nó có thể đơn giản hóa việc giải thích lâm sàng và trình bày kết quả - ví dụ. huyết áp thường là một yếu tố dự báo bậc hai và một bác sĩ lâm sàng có thể hỗ trợ việc sử dụng các mức cắt cho HA thấp, bình thường và cao và có thể quan tâm đến việc so sánh các nhóm rộng này.
20650

4
@ user20650: Tôi không chắc là tôi hiểu bạn, nhưng sẽ tốt hơn nếu phù hợp với mô hình tốt nhất bạn có thể, và sau đó sử dụng dự đoán của mô hình đó để nói bất cứ điều gì bạn muốn nói về các nhóm rộng lớn? "Nhóm huyết áp cao" trong nghiên cứu của tôi sẽ không nhất thiết phải có sự phân phối áp lực giống như dân số nói chung, vì vậy kết quả của họ sẽ không khái quát.
Scortchi

7
Giải thích lâm sàng đơn giản hóa là một ảo ảnh. Ước tính hiệu ứng từ các biến liên tục được phân loại không có giải thích được biết đến.
Frank Harrell

Câu trả lời:


64

Bạn đúng cả hai tính. Xem trang của Frank Harrell tại đây để biết danh sách dài các vấn đề với các biến liên tục. Nếu bạn sử dụng một vài thùng, bạn sẽ vứt đi rất nhiều thông tin trong các công cụ dự đoán; Nếu bạn sử dụng nhiều, bạn có xu hướng phù hợp với những cái lắc lư trong những gì nên trơn tru, nếu không phải là tuyến tính, mối quan hệ và sử dụng nhiều mức độ tự do. Nói chung tốt hơn để sử dụng đa thức ( ) hoặc splines (đa thức piecewise tham gia trơn tru) cho các dự đoán. Binning thực sự chỉ là một ý tưởng tốt khi bạn mong đợi sự gián đoạn trong phản hồi tại các điểm cắt giảm, nhiệt độ cho biết nhiệt độ có gì đó sôi sục, hoặc độ tuổi hợp pháp để lái xe, và khi phản hồi không ổn định giữa chúng ..x+x2+

Giá trị? Vwellwell, đó là một cách nhanh chóng và dễ dàng để tính đến độ cong mà không cần phải suy nghĩ về nó, và mô hình có thể đủ tốt cho những gì bạn đang sử dụng. Nó có xu hướng hoạt động tốt khi bạn có nhiều dữ liệu so với số lượng dự đoán, mỗi dự đoán được chia thành nhiều loại; trong trường hợp này trong mỗi dải dự đoán, phạm vi phản hồi là nhỏ & phản hồi trung bình được xác định chính xác.

[Chỉnh sửa để phản hồi ý kiến:

Đôi khi có các giới hạn tiêu chuẩn được sử dụng trong một trường cho một biến liên tục: ví dụ: trong đo huyết áp y học có thể được phân loại thành thấp, trung bình hoặc cao. Có thể có nhiều lý do tốt để sử dụng các giới hạn như vậy khi bạn trình bày hoặc áp dụng một mô hình. Cụ thể, các quy tắc quyết định thường dựa trên ít thông tin hơn là đi vào một mô hình, và có thể cần phải đơn giản để áp dụng. Nhưng nó không tuân theo việc các điểm giới hạn này phù hợp để tạo ra các yếu tố dự đoán khi bạn phù hợp với mô hình.

Giả sử một số phản ứng thay đổi liên tục với huyết áp. Nếu bạn xác định nhóm huyết áp cao là một yếu tố dự báo trong nghiên cứu của bạn, thì hiệu quả bạn ước tính là phản ứng trung bình đối với áp lực máu cụ thể của các cá nhân trong nhóm đó. Không phảimột ước tính về phản ứng trung bình của những người bị huyết áp cao trong dân số nói chung, hoặc của những người trong nhóm huyết áp cao trong một nghiên cứu khác, trừ khi bạn thực hiện các biện pháp cụ thể để làm như vậy. Nếu tôi biết sự phân phối huyết áp trong dân số nói chung, như tôi tưởng tượng, bạn sẽ làm tốt hơn để tính toán phản ứng trung bình của những người bị huyết áp cao trong dân số chung dựa trên dự đoán từ người mẫu có huyết áp như một biến số liên tục. Binning thô làm cho mô hình của bạn chỉ có thể khái quát.

Nói chung, nếu bạn có câu hỏi về hành vi phản hồi giữa các lần cắt, hãy phù hợp với mô hình tốt nhất trước tiên bạn có thể, và sau đó sử dụng nó để trả lời chúng.]

[Liên quan đến thuyết trình; Tôi nghĩ rằng đây là một cá trích đỏ:

(1) Dễ trình bày không biện minh cho các quyết định mô hình xấu. (Và trong trường hợp binning là một quyết định mô hình tốt, nó không cần biện minh thêm.) Chắc chắn điều này là hiển nhiên. Không ai từng khuyên nên lấy một tương tác quan trọng ra khỏi mô hình bởi vì thật khó để trình bày.

(2) Bất kể loại mô hình nào bạn phù hợp, bạn vẫn có thể trình bày kết quả của nó theo các danh mục nếu bạn nghĩ rằng nó sẽ hỗ trợ cho việc giải thích. Tuy nhiên ...

(3) Bạn phải cẩn thận để đảm bảo rằng nó không hỗ trợ việc giải thích sai , vì những lý do nêu trên.

(4) Trên thực tế không khó để trình bày các phản ứng phi tuyến tính. Ý kiến ​​cá nhân, rõ ràng, và khán giả khác nhau; nhưng tôi chưa bao giờ thấy một biểu đồ các giá trị phản hồi được trang bị so với các giá trị dự đoán đánh đố ai đó chỉ vì nó cong. Tương tác, đăng nhập, hiệu ứng ngẫu nhiên, đa cộng đồng, ... Đây là những điều khó giải thích hơn nhiều.]

[Một điểm bổ sung được đưa ra bởi @Roland là tính chính xác của phép đo của các yếu tố dự đoán; anh ấy gợi ý, tôi nghĩ rằng việc phân loại có thể phù hợp khi chúng không đặc biệt chính xác. Ý thức thông thường có thể gợi ý rằng bạn không cải thiện vấn đề bằng cách nêu lại chúng thậm chí ít chính xác hơn, và lẽ thường sẽ đúng: MacCallum et al (2002), "Về thực hành biến đổi số lượng biến", Phương pháp tâm lý , 7 , 1, trang17 Từ19.]


6
Nhận xét tuyệt vời về một vấn đề phổ biến. Điều quan trọng là tuyên truyền cho tư duy định lượng kỹ lưỡng ở đây. Đã có quá nhiều sự nhấn mạnh vào việc vượt qua các ngưỡng, ví dụ như trên một số thảm họa cấp độ, dưới một số mức độ thoải mái.
Nick Cox

14
Tôi sẽ thách thức bất cứ ai thể hiện sự xác nhận của bất kỳ điểm cắt nào được sử dụng bởi các bác sĩ.
Frank Harrell

Điều đáng chú ý là phương pháp đóng thùng này có một số lợi ích trong các lĩnh vực khác - nó đặc biệt phổ biến khi kết hợp với mạng lưới thần kinh lớn để dự đoán phân phối đa phương thức như định hướng phương tiện. Xem arxiv.org/abs/1612.00496 chẳng hạn.
N. McA.

11

Một phần của câu trả lời này mà tôi đã học được từ khi hỏi là không phải binning và binning tìm cách trả lời hai câu hỏi hơi khác nhau - Sự thay đổi gia tăng trong dữ liệu là gì? sự khác biệt giữa thấp nhất và cao nhất là gì? .

Không binning nói "đây là một lượng hóa của xu hướng được thấy trong dữ liệu" và binning nói "Tôi không có đủ thông tin để nói mức độ thay đổi của từng mức tăng, nhưng tôi có thể nói rằng đỉnh khác với đáy" .


5

Là một bác sĩ lâm sàng tôi nghĩ rằng câu trả lời phụ thuộc vào những gì bạn muốn làm. Nếu bạn muốn làm cho phù hợp nhất hoặc điều chỉnh tốt nhất, bạn có thể sử dụng các biến liên tục và bình phương.

Nếu bạn muốn mô tả và truyền đạt các liên kết phức tạp cho đối tượng không theo thống kê, việc sử dụng các biến được phân loại là tốt hơn, chấp nhận rằng bạn có thể đưa ra một số kết quả sai lệch trong thập phân cuối cùng. Tôi thích sử dụng ít nhất ba loại để hiển thị các hiệp hội phi tuyến. Thay thế là tạo ra các biểu đồ và dự đoán kết quả tại một số điểm nhất định. Sau đó, bạn có thể cần phải tạo ra một họ đồ thị cho mỗi hiệp phương sai liên tục có thể thú vị. Nếu bạn sợ bị thiên vị quá nhiều, tôi nghĩ bạn có thể thử nghiệm cả hai mô hình và xem sự khác biệt có quan trọng hay không. Bạn cần phải thực tế và thực tế.

Tôi nghĩ rằng chúng tôi có thể nhận ra rằng trong nhiều tình huống lâm sàng, các tính toán của chúng tôi không dựa trên dữ liệu chính xác và ví dụ khi tôi kê đơn thuốc cho người lớn, tôi không làm điều đó với chính xác mỗi kg (dù là lựa chọn giữa phẫu thuật và điều trị y tế chỉ là vô nghĩa).


1
Tại sao chính xác là vô nghĩa? Bởi vì phân loại các biến liên tục không bao giờ tạo ra các mô hình tồi tệ hơn đáng kể? Hoặc bởi vì sử dụng một mô hình tồi tệ hơn đáng kể không bao giờ có bất kỳ hậu quả thực tế?
Scortchi

9
Đó đơn giản không phải là trường hợp @Roland. Ước tính thu được từ các điểm cắt chỉ đơn giản vì mọi người không hiểu ước tính ước tính là gì. Đó là bởi vì họ không ước tính một đại lượng khoa học, tức là một đại lượng có ý nghĩa bên ngoài mẫu hoặc thí nghiệm. Ví dụ: tỷ lệ chênh lệch cao hoặc thấp sẽ tăng nếu bạn thêm bệnh nhân có giá trị cực cao hoặc cực thấp vào tập dữ liệu. Ngoài ra, việc sử dụng cutoffs ngụ ý rằng sinh học là không liên tục, đó không phải là trường hợp.
Frank Harrell

@Scortchi Thay đổi từ điều trị nội khoa sang phẫu thuật vì dễ giải thích hơn (có thực sự như vậy không?) Sẽ giống như thay thế tuổi bằng chiều cao như biến giải thích.
Roland

Tôi đồng ý về việc tránh các biến nhị phân. Y học lâm sàng không phải là một khoa học rocke trong đó thập phân cuối cùng là quan trọng. Trong các mô hình tôi làm việc với kết quả chỉ thay đổi ở số thập phân cuối cùng nếu tôi sử dụng các loại tuổi so với tuổi như các biến liên tục và bình phương nhưng làm tăng sự hiểu biết và khả năng giao tiếp của các hiệp hội.
Roland

4

Như các áp phích trước đã đề cập, nói chung là tốt nhất để tránh phân đôi một biến liên tục. Tuy nhiên, để trả lời câu hỏi của bạn, có những trường hợp phân đôi biến liên tục không mang lại lợi thế.

Chẳng hạn, nếu một biến đã cho chứa các giá trị bị thiếu cho một tỷ lệ đáng kể của dân số, nhưng được biết là có tính dự đoán cao và bản thân các giá trị bị thiếu mang giá trị dự đoán. Ví dụ: trong mô hình chấm điểm tín dụng, hãy xem xét một biến số, giả sử số dư tín dụng quay vòng trung bình (được cấp, không liên tục về mặt kỹ thuật, nhưng trong trường hợp này phản ánh phân phối bình thường đủ gần để được xử lý như vậy), có chứa thiếu giá trị cho khoảng 20% ​​nhóm ứng viên trong một thị trường mục tiêu nhất định. Trong trường hợp này, các giá trị còn thiếu cho biến này đại diện cho một lớp riêng biệt - những người không có hạn mức tín dụng mở, quay vòng; những khách hàng này sẽ hiển thị hành vi hoàn toàn khác so với những người có hạn mức tín dụng quay vòng có sẵn, nhưng những người thường xuyên không có số dư.

Một lợi ích khác của quá trình phân đôi: nó có thể được sử dụng để giảm thiểu tác động của các ngoại lệ quan trọng làm lệch hệ số, nhưng đại diện cho các trường hợp thực tế cần được xử lý. Nếu các ngoại lệ không khác biệt nhiều về kết quả so với các giá trị khác trong phần trăm gần nhất, nhưng làm lệch các tham số đủ để tạo ra độ chính xác cận biên, thì có thể có lợi khi nhóm chúng với các giá trị hiển thị các hiệu ứng tương tự.

Đôi khi một phân phối tự nhiên cho chính nó một tập hợp các lớp, trong trường hợp đó, sự phân đôi sẽ thực sự mang lại cho bạn mức độ chính xác cao hơn một hàm liên tục.

Ngoài ra, như đã đề cập trước đây, tùy thuộc vào đối tượng, sự dễ dàng của việc trình bày có thể lớn hơn các tổn thất về độ chính xác. Để sử dụng điểm tín dụng một lần nữa làm ví dụ, trong thực tế, mức độ cao của quy định không phải là một trường hợp thực tế để đôi khi rời rạc. Mặc dù mức độ chính xác cao hơn có thể giúp người cho vay cắt lỗ, các học viên cũng phải xem xét rằng các mô hình cần được các nhà quản lý dễ hiểu (những người có thể yêu cầu hàng ngàn trang tài liệu mô hình) và người tiêu dùng, nếu bị từ chối tín dụng, có quyền hợp pháp giải thích tại sao.

Tất cả phụ thuộc vào vấn đề trong tay và dữ liệu, nhưng chắc chắn có những trường hợp phân đôi có giá trị của nó.


Dichotomization được đưa vào hai thùng - bạn có nghĩa là rời rạc?
Scortchi

2
Trong cả hai ví dụ đầu tiên của bạn, sự cá nhân hóa đang cố gắng đi thẳng vào bữa tiệc bằng cách bám lấy một vị khách trung thực. Đừng để bị lừa. (1) Nếu bạn muốn mô hình hóa không có hạn mức tín dụng quay vòng mở như một lớp riêng biệt, chỉ cần sử dụng biến giả để chỉ ra điều kiện đó & gán bất kỳ giá trị không đổi nào cho số dư tín dụng quay vòng trung bình. (2) Nếu bạn muốn xử lý một số giá trị dự đoán cực đoan nhất định, như "lớn" hoặc "nhỏ", hãy cắt bớt chúng; không cần phải lẩm bẩm với phần còn lại của các giá trị. Trường hợp thứ 3 là không kiểm chứng - vui lòng thêm ví dụ.
Scortchi

3

Nếu một biến có hiệu ứng ở một ngưỡng cụ thể, hãy tạo một biến mới bằng cách tạo thùng, đó là một việc nên làm. Tôi luôn giữ cả hai biến, một biến gốc và một biến, và kiểm tra biến nào là yếu tố dự đoán tốt hơn.


3

Tôi là một người hâm mộ tận tâm với lời khuyên của Frank Harrell rằng các nhà phân tích nên chống lại sự rời rạc sớm của dữ liệu liên tục. Và tôi có một số câu trả lời trên CV và SO giải thích cách trực quan hóa các tương tác giữa các biến liên tục, vì tôi nghĩ đó là một dòng điều tra thậm chí còn có giá trị hơn. Tuy nhiên, tôi cũng có kinh nghiệm trong thế giới thực trong thế giới y khoa về những rào cản trong việc tuân thủ lời khuyên này. Thường có những bộ phận hấp dẫn mà cả bác sĩ lâm sàng và không phải bác sĩ lâm sàng đều mong đợi cho "sự chia tách". "Giới hạn trên của bình thường" thông thường là một điểm phân chia "tự nhiên" như vậy. Một là về cơ bản trước tiên là kiểm tra nền tảng thống kê của một mối quan hệ và sau đó truyền đạt bản chất của những phát hiện theo thuật ngữ mà khán giả của bạn mong đợi và có thể dễ dàng hiểu được. Mặc dù tôi "dị ứng" đối với barplots, chúng là cực kỳ phổ biến trong các diễn ngôn khoa học và y tế. Vì vậy, khán giả có thể có một mô hình nhận thức đã sẵn sàng để xử lý chúng và sẽ có thể tích hợp các kết quả trong cơ sở kiến ​​thức của họ.

Hơn nữa, việc hiển thị đồ họa của các tương tác được mô hình hóa giữa các dạng biến dự báo phi tuyến tính đòi hỏi phải trình bày các sơ đồ đường viền hoặc màn hình khung dây mà hầu hết khán giả sẽ gặp khó khăn trong việc tiêu hóa. Tôi đã tìm thấy công chúng và y tế nói chung dễ tiếp nhận hơn đối với các bài thuyết trình có kết quả rời rạc và phân đoạn. Vì vậy, tôi cho rằng kết luận là việc chia tách được thực hiện đúng sau khi phân tích thống kê hoàn tất; và được thực hiện trong giai đoạn trình bày.


1

Nhiều lần binning biến liên tục đi kèm với một cảm giác khó chịu gây ra thiệt hại do mất thông tin. Tuy nhiên, không chỉ bạn có thể ràng buộc việc mất thông tin, bạn có thể có được thông tin và nhận được nhiều lợi thế hơn.

Nếu bạn sử dụng binning và nhận các biến được phân loại, bạn có thể áp dụng các thuật toán học tập không áp dụng cho các biến continuos. Tập dữ liệu của bạn có thể phù hợp hơn với một trong những thuật toán này, vì vậy đây là lợi ích đầu tiên của bạn.

Ý tưởng ước tính tổn thất do đóng thùng dựa trên bài báo "Học PAC với các thuộc tính không liên quan". Giả sử khái niệm của chúng tôi là nhị phân để chúng tôi có thể chia các mẫu thành tích cực và tiêu cực. Đối với mỗi cặp mẫu âm tính và mẫu dương tính, sự khác biệt về khái niệm có thể được giải thích bằng sự khác biệt về một trong các tính năng (hoặc nói cách khác, không thể giải thích được bằng các tính năng đã cho). Tập hợp các khác biệt về tính năng là tập hợp các giải thích có thể có cho sự khác biệt về khái niệm, do đó dữ liệu được sử dụng để xác định khái niệm. Nếu chúng tôi thực hiện binning và chúng tôi vẫn nhận được cùng một bộ giải thích cho các cặp, chúng tôi sẽ không mất bất kỳ thông tin nào cần thiết (liên quan đến việc học các thuật toán hoạt động bằng cách so sánh như vậy). Nếu việc phân loại của chúng tôi sẽ rất nghiêm ngặt, có lẽ chúng tôi sẽ có một bộ giải thích nhỏ hơn có thể nhưng chúng tôi sẽ có thể đo chính xác số tiền và nơi chúng tôi mất. Điều đó sẽ cho phép chúng ta đánh đổi số lượng thùng so với bộ giải thích.

Cho đến nay chúng tôi thấy rằng chúng tôi có thể không bị mất do phân loại, nhưng nếu chúng tôi xem xét áp dụng một bước như vậy, chúng tôi muốn có lợi. Thật vậy, chúng ta có thể hưởng lợi từ việc phân loại

Nhiều thuật toán học tập sẽ được yêu cầu phân loại một mẫu với các giá trị không nhìn thấy trên tập tàu, sẽ coi giá trị là "không xác định". Do đó, chúng ta sẽ nhận được một thùng "không xác định" bao gồm TẤT CẢ các giá trị không được nhìn thấy trong chuyến tàu (hoặc thậm chí không nhìn thấy đủ). Đối với các thuật toán như vậy, sự khác biệt giữa các cặp giá trị không xác định sẽ không được sử dụng để cải thiện phân loại. So sánh các cặp của bạn sau khi ghép với các cặp không xác định và xem liệu việc đóng thùng của bạn có hữu ích không và bạn có thực sự đạt được không.

Bạn có thể ước tính mức độ phổ biến sẽ là các giá trị không xác định bằng cách kiểm tra phân phối giá trị của từng tính năng. Tính năng là các giá trị chỉ xuất hiện vài lần là một phần đáng kể trong phân phối của chúng là các ứng cử viên tốt để tạo thùng. Lưu ý rằng trong nhiều kịch bản, bạn sẽ có nhiều tính năng không xác định làm tăng xác suất mẫu sẽ chứa giá trị không xác định. Các thuật toán xử lý tất cả hoặc nhiều tính năng dễ bị lỗi trong các tình huống như vậy.

A. Dhagat và L. Hellerstein, "Học PAC với các thuộc tính không liên quan", trong 'Kỷ yếu của Symp IEEE. trên nền tảng của khoa học máy tính ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.