Tại sao nên tránh binning bằng mọi giá?


10

Vì vậy, tôi đã đọc một vài bài viết về việc tại sao di chuyển chuột nên luôn luôn phải tránh. Một tài liệu tham khảo phổ biến cho tuyên bố đó là liên kết này .

Nơi nghỉ ngơi chính là các điểm tạo thùng (hoặc các điểm cắt) khá tùy tiện cũng như việc mất thông tin, và nên ưu tiên các spline đó.

Tuy nhiên, tôi hiện đang làm việc với API Spotify, có một loạt các biện pháp tự tin liên tục cho một số tính năng của chúng.

Nhìn vào một tính năng, "tính công cụ", trạng thái tham chiếu:

Dự đoán liệu một bài hát không có giọng hát. Âm thanh của âm thanh trẻ em và âm thanh của người Hồi giáo được coi là công cụ trong bối cảnh này. Bản nhạc rap hay lời nói rõ ràng là giọng hát của người Viking. Giá trị của nhạc cụ càng gần với 1.0, khả năng bản nhạc không chứa nội dung giọng hát càng lớn. Các giá trị trên 0,5 được dự định đại diện cho các bản nhạc cụ , nhưng độ tin cậy cao hơn khi giá trị tiếp cận 1.0.

Do phân phối dữ liệu của tôi rất sai lệch (khoảng 90% số mẫu chỉ trên 0, tôi thấy việc chuyển đổi tính năng này thành hai tính năng phân loại: "công cụ" (tất cả các mẫu có giá trị trên 0,5) và "không_instrumental" "(Cho tất cả các mẫu có giá trị dưới 0,5).

Điều này có sai không? Và điều gì sẽ là sự thay thế, khi gần như tất cả dữ liệu (liên tục) của tôi đang xoay quanh một giá trị duy nhất? Từ những gì tôi hiểu về spline, chúng cũng sẽ không hoạt động với các vấn đề phân loại (những gì tôi đang làm).


10
Thiết lập mà bạn mô tả dường như không ngụ ý rằng binning là một ý tưởng tốt. Chính bạn đã nói rằng có thông tin gần bằng 1 giá trị. IMHO bạn sẽ làm tốt để có một tính năng liên tục có liên quan đến xác suất trở thành công cụ. Có lẽ bạn có thể mở rộng về câu hỏi của bạn.
Frank Harrell

Câu hỏi của tôi về cơ bản là khi sử dụng binning là ổn, nếu có. Trong trường hợp của tôi, tôi đã sử dụng nó trên cơ sở tên miền (nhạc cụ / không phải nhạc cụ), vì tôi tin rằng nó mang tính dự đoán hơn là nói một bản nhạc gần với nhạc cụ như thế nào (vì một bản nhạc là hoặc không phải là nhạc cụ). Bạn đã lập luận chống lại logic này tuy nhiên trong điểm 8 của bài viết của bạn. Tôi, như một người mới, chỉ có một thời gian khó khăn thực sự hiểu là tại sao nên như vậy.
Người đọc

1
Tôi đã viết một bài viết dài về điều này trong bối cảnh mô hình dự đoán: madrury.github.io/jekyll/update/statistic/2017/08/04/ Lỗi
Matthew Drury

Rất nhiều thông tin và kỹ lưỡng, cảm ơn. Tuy nhiên, tôi không thấy mối liên hệ với câu hỏi của mình (mặc dù tôi vẫn đạt được một số hiểu biết mới, vì vậy tất cả đều tốt!). Bài viết của bạn đang nói về việc biến biến dự đoán trong các vấn đề hồi quy và tại sao đó là một ý tưởng tồi (mà bài viết của bạn lập luận thuyết phục chống lại) và tại sao sử dụng spline giúp mô hình hồi quy. Tôi đã hỏi về lý do tại sao việc phân biệt các giá trị của một tính năng liên tục (một đầu vào) trong một vấn đề phân loại (có các biến dự đoán vốn là "thùng", tức là các lớp).
Người đọc

2
Nếu gần như tất cả các tính năng của bạn đều ở một thời điểm, thì có khả năng nó không có ích cho mô hình của bạn, bất kể bạn làm gì.
Tích lũy

Câu trả lời:


15

Có một chút cường điệu khi nói rằng nên tránh sử dụng binning bằng mọi giá , nhưng chắc chắn đó là trường hợp binning đưa ra các lựa chọn bin giới thiệu một số tùy tiện cho phân tích. Với các phương pháp thống kê hiện đại, thông thường không cần thiết phải tham gia vào quá trình tạo thùng, vì bất kỳ điều gì có thể được thực hiện trên dữ liệu "binned" rời rạc thường có thể được thực hiện trên các giá trị liên tục bên dưới.

Việc sử dụng "binning" phổ biến nhất trong thống kê là trong việc xây dựng biểu đồ. Biểu đồ tương tự như lớp chung của các công cụ ước tính mật độ hạt nhân (KDE), trong khi chúng liên quan đến việc tổng hợp các chức năng bước trên các thùng được chọn, trong khi KDE liên quan đến việc tổng hợp các hạt mịn hơn. Hàm bước được sử dụng trong biểu đồ không phải là hàm trơn tru và nói chung là các hàm nhân tốt hơn có thể được chọn ít tùy ý hơn theo phương pháp KDE, cũng mang lại ước tính tốt hơn về mật độ cơ bản của dữ liệu. Tôi thường nói với sinh viên rằng biểu đồ chỉ là "KDE của người nghèo". Cá nhân, tôi sẽ không bao giờ sử dụng nó, bởi vì rất dễ dàng để có được một KDE mà không cần xử lý dữ liệu và điều này mang lại kết quả vượt trội mà không có sự lựa chọn tùy ý.

Một cách sử dụng phổ biến khác của "binning" xảy ra khi một nhà phân tích muốn phân tách dữ liệu liên tục vào các thùng để sử dụng các kỹ thuật phân tích sử dụng các giá trị rời rạc. Điều này dường như là những gì đang được đề xuất trong phần bạn trích dẫn liên quan đến dự đoán âm thanh. Trong những trường hợp như vậy, có một số sự tùy tiện được giới thiệu bởi binning và cũng có sự mất thông tin. Một lần nữa tốt nhất là tránh điều này nếu có thể, bằng cách cố gắng hình thành một mô hình trực tiếp trên các giá trị liên tục cơ bản, thay vì hình thành một mô hình trên các giá trị "binned" rời rạc.

Theo nguyên tắc chung, các nhà thống kê mong muốn tránh các kỹ thuật phân tích đưa ra các giả định tùy ý, đặc biệt trong các trường hợp có sẵn các kỹ thuật thay thế để dễ dàng tránh các giả định này. Vì vậy, tôi đồng ý với tình cảm rằng binning nói chung là không cần thiết. Chắc chắn không nên tránh bằng mọi giá vì chi phí rất quan trọng, nhưng nói chung nên tránh khi có các kỹ thuật thay thế đơn giản cho phép tránh được mà không gặp bất kỳ sự bất tiện nghiêm trọng nào.


Tôi hiểu rồi. Mặc dù câu hỏi tiếp theo: nhìn vào phân phối của ví dụ được đề cập ở trên, xem ở đây (trớ trêu thay là biểu đồ), tôi chỉ không thấy hữu ích trong một biến liên tục trong đó gần như tất cả các mẫu xoay quanh một giá trị (ở đây là 0), đó là là những gì ban đầu dẫn tôi đến tính năng này. Bạn đã đề cập đến sự thay thế - bạn vui lòng giải thích hoặc chỉ cho tôi đi đúng hướng như nơi tôi có thể tìm hiểu thêm?
Người đọc


Tôi biểu đồ đó tôi thấy các giá trị ở khắp mọi nơi (nhưng, vâng, chủ yếu gần bằng không). Không nên có sự bất tiện trong việc sử dụng một spline fit, và điều đó chắc chắn sẽ cung cấp thêm thông tin. Vẽ các spline được trang bị! và, nếu vì lý do nào đó bạn phải bất mãn , cốt truyện đó có thể giúp bạn trong việc làm thế nào. Có thể là, đối với mục đích sử dụng cụ thể của bạn, một điểm cắt khác hơn 0,5 là tốt hơn.
kjetil b halvorsen 4/2/19

2
Một biểu đồ có thể được hiểu chính xác là KDE. Hạt nhân sẽ là gì?
whuber

1
Liên quan đến đoạn thứ ba của bạn, tôi đã có một câu hỏi tương tự xuất hiện khi tôi đang cố gắng tính toán mức tăng thông tin với một số dữ liệu số. Bạn có thể xem câu hỏi này và giải thích phải làm gì trong tình huống này? stats.stackexchange.com/questions/384684/ Mạnh
astel

4

Thông thường tôi sẽ tranh luận mạnh mẽ chống lại việc phân loại các biến liên tục vì những lý do được thể hiện rõ bởi những người khác đáng chú ý là Frank Harrell. Trong trường hợp này có thể hữu ích mặc dù tự hỏi bản thân về quá trình tạo ra điểm số. Có vẻ như hầu hết các điểm số có hiệu quả bằng không có lẽ với một số tiếng ồn được thêm vào. Một vài trong số chúng khá gần với sự thống nhất một lần nữa với tiếng ồn. Rất ít lời nói dối ở giữa. Trong trường hợp này dường như có nhiều lý do để phân loại hơn vì người ta có thể lập luận rằng modulo tiếng ồn đây là một biến nhị phân. Nếu một biến phù hợp với nó như là một biến liên tục, các hệ số sẽ có ý nghĩa về mặt thay đổi của biến dự đoán nhưng trong trường hợp này trên hầu hết phạm vi của nó, biến đó rất ít dân cư nên có vẻ không hấp dẫn.


4
Câu trả lời ngắn gọn của tôi khi sử dụng bin là OK để sử dụng là: Khi các điểm gián đoạn đã được biết trước khi xem dữ liệu (đây là các điểm cuối của bin) và nếu biết rằng mối quan hệ giữa x và y trong mỗi thùng có chiều dài khác không là phẳng.
Frank Harrell

2

Hãy tưởng tượng bạn có một chiếc đồng hồ chỉ hiển thị giờ. Chỉ có ý tôi là nó chỉ có mũi tên giờ mà một giờ một lần nhảy 1/12 sang giờ khác, nó không di chuyển trơn tru. Đồng hồ như vậy sẽ không hữu ích lắm, vì bạn sẽ không biết nếu đó là năm giờ hai, hai giờ rưỡi, hay mười đến ba. Đó là vấn đề với dữ liệu bị đánh cắp , nó mất thông tin chi tiết và đưa ra những thay đổi "tăng vọt".


1
(+1) Có, và thêm vào đó là vấn đề bổ sung mà nhà sản xuất đồng hồ có thể không chọn gia số hàng giờ, nhưng có thể tùy ý quyết định rằng đồng hồ của anh ta sẽ tăng thêm 19 phút và bạn có thêm một vấn đề ngoài việc mất thông tin .
Ben - Tái lập Monica

2

Đối với một số ứng dụng, rõ ràng bao gồm cả ứng dụng mà bạn đang dự tính, việc tạo thùng có thể rất cần thiết. Rõ ràng để thực hiện một vấn đề phân loại, tại một số điểm, bạn phải rút dữ liệu phân loại khỏi mô hình của mình và trừ khi đầu vào của bạn cũng là phân loại, bạn sẽ cần phải thực hiện việc tạo thùng. Hãy xem xét một ví dụ:

Một AI tinh vi đang chơi bài xì phé. Nó đã đánh giá khả năng tay của nó vượt trội hơn so với tay của những người chơi khác là 70%. Đến lượt đặt cược, tuy nhiên người ta đã nói rằng nên tránh việc đóng thùng bằng mọi giá, và do đó không bao giờ đặt cược; Nó gấp theo mặc định.

Tuy nhiên, những gì bạn đã nghe cũng có thể đúng, trong đó việc đóng gói sớm các giá trị trung gian sẽ từ bỏ thông tin có thể được bảo tồn. Nếu mục đích cuối cùng của dự án của bạn là xác định xem bạn có "thích" bài hát đang đề cập hay không, có thể được xác định bởi hai yếu tố: "nhạc cụ" và "độ cao", bạn có thể sẽ giữ lại những biến đó thành biến liên tục cho đến khi bạn cần phải rút ra "ý thích" như một biến phân loại.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

hoặc bất kỳ hệ số nào bạn cho là phù hợp nhất, hoặc bất kỳ mô hình nào khác phù hợp với tập huấn luyện của bạn.

Nếu thay vào đó, bạn quyết định xem một cái gì đó là "công cụ" (đúng hay sai) và "đá" (đúng hay sai), thì bạn có 4 danh mục của bạn được đặt ra trước ngày bạn:

  1. nhạc cụ, đá
  2. phi nhạc cụ, đá
  3. nhạc cụ, không có đá
  4. phi nhạc cụ, không có đá

Nhưng sau đó, tất cả những gì bạn có thể quyết định là loại nào trong số 4 loại bạn "thích". Bạn đã đầu hàng linh hoạt trong quyết định cuối cùng của bạn.

Quyết định bin hay không bin phụ thuộc hoàn toàn vào mục tiêu của bạn. Chúc may mắn.


2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)= =Σw= =wmTôinwmmộtxΣtôi= =tôi0tôi0+wP(R|tôi,w)P(tôi,w)P(tôi,w)~2(bạn0-tôi0)wmmộtx+wmTôin×(wmmộtx-wmTôin)

Tất nhiên, bây giờ bạn đã giới thiệu wmmộtx,wmTôin,tôi0 , vì vậy về mặt kỹ thuật P(R)P(R|wmmộtx,wmTôin,tôi0)P(R)P(R|wmmộtx,wmTôin,tôi0)= =P(R)

Trong bối cảnh câu hỏi của OP, tôi sẽ hài lòng nếu ngưỡng 0,5 tùy ý được đặt thành nhiều giá trị khác nhau giữa các giá trị tối thiểu và tối đa đáng tin cậy và để thấy rằng kết quả phân tích cơ bản của anh ấy phần lớn không phụ thuộc vào lựa chọn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.