AUC không so sánh các lớp thực so với dự đoán với nhau. Nó không nhìn vào lớp dự đoán, mà là điểm dự đoán hoặc xác suất. Bạn có thể thực hiện dự đoán của lớp bằng cách áp dụng điểm cắt cho điểm này, giả sử, mọi mẫu có điểm dưới 0,5 được phân loại là âm. Nhưng ROC đến trước khi điều đó xảy ra. Nó đang làm việc với điểm số / xác suất của lớp.
Nó lấy các điểm số này và sắp xếp tất cả các mẫu theo điểm số đó. Bây giờ, bất cứ khi nào bạn tìm thấy một mẫu dương, đường cong ROC sẽ thực hiện một bước lên (dọc theo trục y). Bất cứ khi nào bạn tìm thấy một mẫu âm bạn di chuyển sang phải (dọc theo trục x). Nếu điểm số đó là khác nhau đối với hai lớp, các mẫu dương tính sẽ đến trước (thường). Điều đó có nghĩa là bạn thực hiện nhiều bước lên hơn bên phải. Tiếp tục xuống danh sách các mẫu âm tính sẽ đến, vì vậy bạn di chuyển sang trái. Khi bạn thông qua toàn bộ danh sách các mẫu bạn đạt được tại tọa độ (1,1) tương ứng với 100% mẫu dương tính và 100% mẫu âm tính.
Nếu điểm số tách biệt hoàn toàn dương với các mẫu âm bạn chuyển tất cả từ (x = 0, y = 0) sang (1,0) và sau đó từ đó sang (1, 1). Vậy, diện tích dưới đường cong là 1.
Nếu điểm của bạn có cùng phân phối cho các mẫu dương tính và âm tính thì xác suất tìm thấy mẫu dương tính hoặc âm tính trong danh sách được sắp xếp là bằng nhau và do đó xác suất di chuyển lên hoặc sang trái trong đường cong ROC là bằng nhau. Đó là lý do tại sao bạn di chuyển dọc theo đường chéo, bởi vì về cơ bản bạn di chuyển lên và sang trái, và lên và sang trái, v.v ... điều đó mang lại giá trị AROC khoảng 0,5.
Trong trường hợp của một tập dữ liệu không cân bằng, các bước là khác nhau. Vì vậy, bạn thực hiện các bước nhỏ hơn ở bên trái (nếu bạn có nhiều mẫu âm tính hơn). Đó là lý do tại sao điểm số ít nhiều độc lập với sự mất cân bằng.
Vì vậy, với đường cong ROC, bạn có thể hình dung cách các mẫu của bạn được phân tách và khu vực dưới đường cong có thể là một thước đo rất tốt để đo hiệu suất của thuật toán phân loại nhị phân hoặc bất kỳ biến nào có thể được sử dụng để phân tách các lớp.
Hình vẽ cho thấy các bản phân phối giống nhau với các cỡ mẫu khác nhau. Vùng màu đen cho thấy đường cong ROC của hỗn hợp ngẫu nhiên của các mẫu dương tính và âm tính sẽ được mong đợi.