Dữ liệu số nguyên: Phân loại hay liên tục?


7

Tôi tự hỏi liệu dữ liệu dự đoán số nguyên nên được coi là phân loại (do đó yêu cầu mã hóa) hoặc liên tục. Ví dụ: nếu phạm vi của một yếu tố dự đoán nhất định Xlà tất cả các số nguyên trong khoảng từ 1 đến 230, tôi có thể coi nó là biến liên tục hay tôi nên mã hóa nó để có được 230 (hoặc có thể 229) biến giả mới? Mục tiêu cuối cùng của phân tích là thực hiện hồi quy hoặc phân loại.


Bạn sẽ phải cụ thể hơn một chút về thiết lập của bạn. Đôi khi tốt hơn là coi như phân loại, đôi khi là liên tục.
Dougal

@Dougal Bạn cần thêm thông tin gì để giải thích về câu trả lời của bạn? Giả sử bạn đang thử các mô hình khác nhau (ví dụ: mạng thần kinh, hồi quy hạt nhân, cây được tăng cường tổng quát) trên một tập dữ liệu hỗn hợp. Một số dự đoán là "rõ ràng" phân loại (ví dụ: chuỗi), trong khi những người khác có thể là giá trị nguyên tự nhiên.
Bruno

Glen là chính xác. Nhưng bạn cũng có thể chuyển đổi một hoặc nhiều biến liên tục thành phân loại nếu điều đó làm cho phân tích của bạn có ý nghĩa hơn.
HelloWorld

Câu trả lời:


9

Nói chung, không phải là phù hợp. Các số nguyên là rời rạc , không liên tục, nhưng để coi chúng là các danh mục danh nghĩa sẽ loại bỏ hầu hết các thông tin, và thậm chí coi chúng là thứ tự có thể mất khá nhiều.

Trong một số tình huống, cái này hay cái khác có thể ổn, nhưng gần như luôn luôn coi chúng là tốt hơn - ví dụ, nếu dữ liệu được tính, hãy sử dụng phân tích phù hợp với số đếm .

Ví dụ, giả sử bạn muốn thực hiện hồi quy trên dữ liệu đếm; có một số mô hình hồi quy đếm, bao gồm (nhưng không giới hạn ở) hồi quy nhị thức, nhị thức và nhị thức âm.


Trong trường hợp số nguyên IV (bộ dự đoán), không cần phải làm bất cứ điều gì với số nguyên hơn là phải làm bất cứ điều gì với một số công cụ dự đoán liên tục - ít nhất là không dựa trên cơ sở rằng chúng là số nguyên.

Trong cả trường hợp của các yếu tố dự đoán nguyên và dự đoán liên tục, điều quan trọng là sự hiểu biết của bạn (cho dù từ lý thuyết, nghiên cứu trước đây hoặc một số phương tiện khác) về cách biến dự đoán có thể liên quan đến phản ứng, thay vì thực tế là chúng là số nguyên.


Cảm ơn! Tôi đã không nhận thức được hồi quy cho dữ liệu đếm. Tôi có dữ liệu hỗn hợp trong vấn đề của tôi. Một số cột trong tập dữ liệu là các danh mục (chuỗi) đa lớp rõ ràng, trong khi các cột khác là số nguyên (ví dụ: tuổi, số lần xuất hiện của một danh mục) và một số có thể là danh mục nhị phân. Nhưng nói chung, có thể có một số dữ liệu liên tục (thực) là tốt. Có vẻ như gói R pscl có một số chức năng liên quan (vượt rào và zeroinfl), nhưng tôi tự hỏi liệu thực tế là tôi có dữ liệu hỗn hợp sẽ yêu cầu một cách tiếp cận khác ... có nhận xét nào không?
Bruno

@Bruno Không có vấn đề gì nếu số IV được tính (nhiều hơn so với hồi quy thông thường), đó chỉ là hệ quả của DV là gì
Glen_b -Reinstate Monica

Nó phụ thuộc vào vấn đề. Tôi hiện đang thử nghiệm một số mô hình để phân loại nhị phân và hồi quy thông thường (các vấn đề khác nhau, tất nhiên). Tôi chỉ nghi ngờ về cách đối phó với những người dự đoán nhất định.
Bruno

Tại sao bạn cần phải làm bất cứ điều gì với họ?
Glen_b -Reinstate Monica

Đó là câu hỏi của tôi! :) Trước khi cung cấp dữ liệu cho mô hình, tôi tự hỏi tôi nên làm gì trước khi xử lý một số dự đoán "không rõ ràng". Như tôi đã đề cập, một số có thể là số nguyên (và trong một số trường hợp tôi có thể biết hỗ trợ của họ).
Bruno

2

Nó thực sự phụ thuộc vào bối cảnh.

Nếu biến số nguyên có một số thứ tự vốn có cho nó, ví dụ, đó có thể là màu sắc trong đó các số thấp hơn đại diện cho "các màu tối hơn" và các số cao hơn đại diện cho "các sắc thái sáng hơn", thì coi nó là một biến liên tục gần như chắc chắn là thích hợp hơn. Nó không chỉ có ý nghĩa hơn mà còn loại bỏ khoảng 200 biến khỏi mô hình của bạn, đây là một phần thưởng rất lớn.

Mặt khác, nếu các số nguyên này không có thứ tự vốn có, ví dụ như chúng đại diện cho các lô đất, thì chúng nên được coi là một biến phân loại. Sẽ không có nghĩa gì nếu coi chúng là một biến liên tục vì giá trị của nó không phụ thuộc vào thuộc tính của biến mà bạn quan tâm.


Tôi thấy ... là "tuổi" thường được coi là liên tục? Ngoài ra, một trong những yếu tố dự đoán tương ứng với số lần xuất hiện của một danh mục nhất định như là một phần của sự hỗ trợ của người dự đoán khác.
Bruno

0

Bạn không cần phải làm bất cứ điều gì trong số 2 bạn đã nêu. Những gì bạn có thể làm là hồi quy. Trong R in glm, bạn có tùy chọn đặt thuộc tính gia đình để bạn có thể đặt tùy chọn của mình. Ví dụ: khi bạn xem xét hồi quy bình thường họ = gaussian và nếu bạn muốn biến mục tiêu loại đếm như bạn đã giải thích trong câu hỏi thì tôi nghĩ bạn cần đặt nó là nhị thức (vui lòng kiểm tra một lần), nhưng có, đây là cách mô hình của bạn sẽ xem xét mục tiêu là loại đếm thay vì liên tục hoặc phân loại.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.