Định nghĩa nghiêm ngặt về mặt toán học của dữ liệu chunky là gì?


7

Khi ở nơi làm việc, một số thiết bị đo lường nhất định phải chịu độ chính xác số khác nhau; trong một số trường hợp, độ chính xác có thể khá yếu (nghĩa là chỉ một hoặc hai giá trị quan trọng). Do đó, thay vì các tập dữ liệu như thế này:

{0,012,0,033,0,042,0,982,1.028,1,037,1.950},
trong đó mỗi giá trị là duy nhất, chúng tôi kết thúc với một tập dữ liệu trông như thế này:
{0,0,0,0,0,0,1,1,1,2.0}.
Được vẽ trên một biểu đồ phạm vi di chuyển riêng lẻ, tập hợp sau xuất hiện nhiều "chunky" hơn và vấn đề cơ bản là ước tính sự thay đổi thực sự trong dữ liệu trở nên khó khăn hơn khi gia số đo quá lớn.

Câu hỏi của tôi là như sau: Nếu tôi muốn một máy tính phát hiện dữ liệu chunky, thì tôi phải cung cấp một định nghĩa logic cho hiện tượng này. Tôi đã thấy các định nghĩa nói rằng "3 hoặc ít hơn các giá trị khác nhau" hoặc "4 hoặc ít hơn các giá trị khác nhau", nhưng tôi không biết các định nghĩa đó thu được như thế nào, và cơ sở / biện minh nào cho các tiêu chuẩn đó.

Bất cứ ai cũng có thể giúp hướng tôi đến một định nghĩa và biện minh nghiêm ngặt?


1
Để bắt đầu, bạn sẽ làm gì khác nhau tùy theo dữ liệu có 'chunky' hay không?
Scortchi - Phục hồi Monica

Tôi sẽ gọi dữ liệu đó thưa thớt, không chunky.
Vladislavs Dovgalecs 11/2/2016

3
@xeon: thưa thớt thường có nghĩa là "rất nhiều số không". Trong khi 3/7 giá trị là 0, tôi không nghĩ đó là khía cạnh mà họ đang đề cập.
Vách đá AB

@CliffAB Mức độ thưa thớt thường có thể được kiểm soát, ví dụ Hồi quy logistic với l1-Norm. Trong ví dụ này, có vẻ như các giá trị gần bằng 0 được kẹp chính xác 0.
Vladislavs Dovgalecs

3
@xeon: với hồi quy logistic, bạn có thể tăng độ thưa của các hiệu ứng ước tính với Lasso, như bạn đã đề cập. Nhưng OP đang hỏi về dữ liệu được làm tròn, điều đó có thể có nghĩa là các giá trị thưa thớt nếu nhiều trong số chúng rơi vào khoảng [-0,5, 0,5), ví dụ, nhưng chắc chắn không nhất thiết. Một lần nữa, tôi không nghĩ họ đang hỏi "tôi phải làm gì nếu nhiều dữ liệu của tôi bằng 0?", Mà là "nếu tôi có dữ liệu bị đánh cắp" thì sao?
Vách đá AB

Câu trả lời:


8

Dữ liệu như thế này thường được gọi là lượng tử hóa , đặc biệt khi độ chính xác của các số bị giới hạn bởi thiết bị đo. Ví dụ: thang đo chỉ có thể hiển thị số nguyên gram hoặc pound. Điều này đặc biệt phổ biến khi tín hiệu tương tự (từ micrô, máy đo biến dạng, v.v.) được số hóa. Lỗi kết quả (ví dụ: chênh lệch giữa 0,012 và 0 cho điểm dữ liệu đầu tiên của bạn) được gọi là lỗi lượng tử hóa. Bạn cũng có thể gọi nó là làm tròn hoặc rời rạc , mặc dù điều này yếu ớt ngụ ý rằng nó đã được thực hiện trong suốt thời hậu xử lý.

Cắt ngắn cũng hoạt động ở đây, nhưng người ta cần phân biệt giữa việc cắt phạm vi của các quan sát (ví dụ: chuyển đổi bất cứ thứ gì trên 10 thành 10, hoặc dưới 0 thành 0) và cắt bớt các giá trị của các quan sát riêng lẻ.


Tôi không biết một cách mạnh mẽ để phát hiện lượng tử hóa trong mọi tình huống. Trên thực tế, gần như tất cả dữ liệu được lượng tử hóa ở một mức độ nào đó và lượng lượng hóa thường được biết trước từ thông số kỹ thuật của thiết bị đo. Tuy nhiên, có một số phương pháp phỏng đoán dễ dàng bạn có thể thử:

  • Bạn có bao nhiêu giá trị duy nhất? Bộ chuyển đổi kỹ thuật số sang tương tự sử dụng một số bit cố định (thường là 8, 12, 16 hoặc 24), cung cấp cho bạn2số 8,212,216 hoặc là 224 các giá trị duy nhất và các giá trị này thường cách đều nhau giữa giá trị tối đa và tối thiểu.

  • Có một kích thước bước nhất quán giữa các giá trị. Nói cách khác, sắp xếp chúng, loại bỏ các bản sao và xem các giá trị lân cận thường tăng theo cùng một lượng.

Tuy nhiên, tôi nghĩ rằng bạn nên tìm hiểu về cách dữ liệu được tạo để bắt đầu.


Nếu dữ liệu được lượng tử hóa "nhẹ", thì đó thường không phải là vấn đề. Ví dụ, tôi sẽ không lo lắng quá nhiều nếu trọng lượng của các đối tượng người của tôi được ghi lại bằng (số nguyên) hoặc kilôgam. Nếu dữ liệu được lượng tử hóa nhiều, bạn có thể coi nó là dữ liệu bị kiểm duyệt giữa chừng . Điều này đặc biệt phổ biến trong các phân tích sinh tồn, trong đó bạn chỉ có thể kiểm tra xem ai đó còn sống hay có gì đó đang hoạt động ở một khoảng thời gian cố định (ví dụ: kiểm tra hàng tuần của một nhà máy). Tìm kiếm hồi quy khoảng nếu điều này phù hợp với tình huống của bạn.

Bạn nên chắc chắn hiểu giả thuyết khống về bất kỳ bài kiểm tra nào bạn chạy trên dữ liệu đã bị đánh cắp. Ví dụ: dữ liệu được phân phối đồng đều trên 10 thùng khá khác với dữ liệu được phân phối đồng đều trên toàn bộ phạm vi.


6

Nói chung, "dữ liệu bị đánh cắp" là cách nó được đề cập đến.

Nếu bạn nghĩ về một biểu đồ, mỗi thanh đề cập đến một thùng. Nếu một giá trị nằm giữa đầu trên và dưới của một thùng nhất định, giá trị đó được đặt trong thùng này. Ví dụ: nếu bạn đã xử lý dữ liệu do làm tròn đơn giản (nghĩa là giá trị thực là 1,01 được biểu thị là 1,0 trong tập dữ liệu), bạn có thể nghĩ về giá trị quan sát 1.0 có nghĩa là giá trị thực sự thực sự nằm trong khoảng [0,5, 1,5) .

Thông thường , khía cạnh này của dữ liệu thường bị bỏ qua; thường có rất ít vấn đề với việc sử dụng tuổi nguyên của một đối tượng (28 tuổi) thay vì tuổi chính xác (28.153 ...). Trong các trường hợp, hiệu ứng tạo thùng có thể là đáng kể (ví dụ: năm ở công ty; 1/12 khác nhiều so với 5/12, nhưng làm tròn cả hai đều bằng 0), dữ liệu có thể được coi là khoảng kiểm duyệt để giải thích cho sự không chắc chắn này trong phản ứng chính xác giá trị.


2

Trong trường hợp của bạn, nó được gọi là lượng tử hóa , một vấn đề phổ biến với xử lý tín hiệu. Thông thường, bạn thấy dữ liệu cách đều nhau (ngay cả khi bạn không nhận được bội số).

Nói chung (có nhiều điểm gần nhau, không cần thiết có cùng giá trị hoặc khoảng cách), hãy nhìn vào cụm . Đối với các giá trị 1 chiều, sắp xếp chúng và lấy biểu đồ về sự khác biệt giữa các giá trị gần nhất.


0

Để thêm vào các câu trả lời hay khác, và nhận xét nhiều hơn về các nguồn gốc của sự chunkness - lượng tử hóa cũng có thể xảy ra vì lý do xã hội, ví dụ nếu bạn nhìn vào biểu đồ của bộ dữ liệu kim cương một cách chi tiết, bạn sẽ thấy các gai rõ ở "đẹp" các giá trị, 0,3, 0,4, 0,5, 0,7, 1,0, 1,2, 1,5, 2.0, v.v ... Có rất ít kim cương có trọng lượng 0,98, nhưng rất nhiều với trọng lượng chỉ hơn 1,0, được giải thích là - không ai muốn được tặng 0,98 kim cương carat ... họ muốn một viên kim cương 1,0 carat !!

nhập mô tả hình ảnh ở đây

library(ggplot2)
data(diamonds)
ggplot(diamonds, aes(x=carat)) + geom_histogram(bins=200) + xlim(0,2.1)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.