GPU của tôi có bị chết không?


14

Tôi tạm thời vô hiệu hóa bảo vệ bộ nhớ ECC trên NVIDIA K20m (thiết bị 0 trong nút của tôi) và bây giờ tôi không thể mang nó trở lại hoạt động trở lại. Trước đó, nó đã hoạt động đúng với kích hoạt ECC. Vì vậy, đây là những gì tôi đã làm: Tôi đã vô hiệu hóa ECC với

nvidia-smi -i 0 --ecc-config=0

và khởi động lại. Khi xuất hiện, nó cho thấy việc sử dụng GPU 100% và nó sẽ không khởi động bất kỳ hạt nhân nào (nó thực sự đã thất bại khi tạo bối cảnh). Lý do là một lỗi kép. Tôi đặt lại nó với

nvidia-smi -i 0 --reset-ecc-errors=0

và khởi động lại nút. Sau khi khởi động lại, mức sử dụng thiết bị là 0% và tôi có thể bắt đầu công việc như bình thường. Vài giờ sau, thiết bị lại hiển thị mức sử dụng GPU 100%. Lần này, nó không báo lỗi một bit kép (thậm chí không phải là một lỗi bit). Tuy nhiên, vì tôi không thể chạy bất kỳ công việc nào, tôi đã khởi động lại nút và nó đã sử dụng 100% GPU, tôi không thể sử dụng nó, nhưng báo cáo không có lỗi bit. Có chuyện gì thế này?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
Có vẻ lạ; không bao giờ phát hiện bất cứ điều gì như thế này. Mặc dù nó có thể không giúp giải quyết vấn đề, nhưng hãy thử cài đặt lại trình điều khiển của bạn, có thể?
Ben Franchuk

Tôi đoán bạn đã cố gắng rõ ràng để chỉ phế liệu và cài đặt lại mọi thứ? Ý tôi là, uhm, tôi biết rất ít về phần cứng, vì vậy cách tiếp cận của tôi là luôn đảm bảo chắc chắn phần mềm - những gì tôi hiểu - nên hoạt động. Và sau đó tôi có thể sẽ tuyên bố mảnh vỡ cho đến khi mâu thuẫn bởi một ý kiến ​​hiểu biết hơn.
Ariane

Tôi đã xem qua nó, cũng như dành thời gian nghiên cứu vấn đề này và nguyên nhân của nó. Dường như giải pháp tốt nhất là thay thế phần cứng.
Adovi

1
Bạn đã thử thiết lập lại CMOS chưa?
Sergei

Câu trả lời:


2

GPU của tôi có bị chết không?

Tôi nói nó đã chết rồi. Nó không còn báo cáo lỗi bit vì bạn đã tắt thứ phát hiện ra chúng. (ECC phát hiện nhiều hơn mức có thể sửa.) Tuy nhiên, đó có thể là bộ nhớ trên thẻ (hoặc chính thẻ vật lý) đã phát triển lỗi.

Có hai nghi phạm khác trước khi tôi tặc nó trong thùng "tái chế": làm mát và cung cấp năng lượng. Làm mát là đủ dễ dàng để kiểm tra; sức mạnh, không quá nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.