Điều gì gây ra điều này? pcieport 0000: 00: 03.0: Lỗi bus PCIe: AER / TLP xấu


20

Tôi đang thấy các thông báo lỗi như thế này dưới đây:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Những điều này sẽ làm giảm hiệu suất ngay cả khi chúng đã được sửa chữa. Rõ ràng, vấn đề này cần phải được giải quyết. Tuy nhiên, tôi không thể tìm thấy nhiều về nó trên Internet. (Có lẽ tôi đang tìm sai chỗ.) Tôi chỉ tìm thấy một vài liên kết mà tôi sẽ đăng bên dưới.

Có ai biết thêm về những lỗi này?

Đây có phải là bo mạch chủ, Samsung 950 Pro hay GPU (hoặc một số kết hợp của những thứ này)?

Phần cứng là: Asus X99 Deluxe II Samsung 950 Pro NVMe trong M2. khe cắm trên mb (chia sẻ cổng PCIe 3). Không có gì khác được cắm vào cổng PCIe 3. Một GeForce GTX 1070 trong khe PCIe 1 CPU Core i7 6850K

Một vài liên kết tôi tìm thấy đề cập đến cùng một phần cứng (X99 Deluxe II mb & Samsung950 Pro). Tôi đang chạy Arch Linux.

Tôi không tìm thấy chuỗi "8086: 6f08" trong tạp chí hay bất cứ nơi nào khác mà tôi nghĩ sẽ tìm kiếm cho đến nay.

thông báo lỗi lẻ với nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: Thẻ của bạn có đang âm thầm vật lộn với truyền lại TLP không? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 ném lỗi xe buýt PCIe TLP xấu - Diễn đàn GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

trình điều khiển - Lỗi PCIe trong nhật ký dmesg - Hỏi Ubuntu https://askubfox.com/questions/643952/pcie-error-in-dmesg-log

Khóa cứng 780Ti X99 - Lỗi PCIE - Diễn đàn nhà phát triển NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


tôi đã chuyển gtx 710 của mình từ khe pcie x16 sang khe x1 (asus Prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Câu trả lời:


22

Tôi có thể cung cấp ít nhất một vài chi tiết, mặc dù tôi không thể giải thích đầy đủ những gì xảy ra.

Như được mô tả ví dụ ở đây , CPU giao tiếp với bộ điều khiển bus PCIe bằng các gói lớp giao dịch (TLP). Phần cứng phát hiện khi có lỗi và nhân Linux báo cáo đó là tin nhắn.

Tùy chọn kernel pci=nommconfvô hiệu hóa Không gian cấu hình PCI được gắn bộ nhớ, có sẵn trong Linux kể từ kernel 2.6. Rất đại khái, tất cả các thiết bị PCI đều có một khu vực mô tả thiết bị này (mà bạn thấy lspci -vv) và phương thức ban đầu để truy cập khu vực này bao gồm đi qua các cổng I / O, trong khi PCIe cho phép không gian này được ánh xạ vào bộ nhớ để truy cập đơn giản hơn.

Đó là phương tiện trong trường hợp đặc biệt này, một cái gì đó đi sai khi bộ điều khiển PCIe sử dụng phương pháp này để truy cập vào không gian configuraton của một thiết bị cụ thể. Nó có thể là một lỗi phần cứng trong thiết bị, trong bộ điều khiển gốc PCIe trên bo mạch chủ, trong sự tương tác cụ thể của hai thứ đó, hoặc một cái gì đó khác.

Bằng cách sử dụng pci=nommconf, không gian cấu hình của tất cả các thiết bị sẽ được truy cập theo cách ban đầu và thay đổi phương thức truy cập hoạt động xung quanh vấn đề này. Vì vậy, nếu bạn muốn, nó vừa giải quyết vừa triệt tiêu nó.


Tôi có thể biết nếu đó là vấn đề bo mạch chủ của tôi? Hoặc vấn đề CPU của tôi. Tôi có nên thay đổi chúng?
dùng10024395

@ user2675516: Không liên quan đến CPU. Đó là sự cố của bộ điều khiển gốc PCIe (thường ở Southbridge) và / hoặc bộ điều khiển PCIe của thiết bị hoặc sự tương tác của chúng. Có, thay đổi bo mạch chủ cho một phần cứng khác nhau thường được loại bỏ nó.
dirkt

Tôi đã thay đổi từ asus e-ws sang asus deluxe, nhưng vấn đề vẫn còn tồn tại. Đó là lý do tại sao tôi nghi ngờ nó là cpu. Hay là bởi vì cả hai đều là chipset X99?
dùng10024395

1
@ user2675516: Nếu chipset giống nhau, đặc biệt. Bộ điều khiển PCIe, sau đó thay đổi bo mạch chủ tất nhiên sẽ không giúp ích. Đó là lý do tại sao tôi viết "bo mạch chủ với phần cứng khác nhau ".
dirkt

yếu tố chung đối với tôi dường như là một bo mạch chủ với chipset X99
MountainX cho Monica Cellio

3

Hãy thử các bước này:

  1. cp /etc/default/grub ~/Desktop
  2. Chỉnh sửa grub. Thêm pci=noaervào cuối GRUB_CMDLINE_LINUX_DEFAULT. Dòng sẽ như thế này:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Khởi động lại ngay

Tôi đã áp dụng giải pháp của bạn nhưng thay vì pci=noaertôi đã sử dụng pci=nommconftheo đề xuất của @dirkt
user3405291

Cảm ơn, pci = noaer đã khắc phục sự cố slackware 14.2x64 của tôi được cài đặt trên máy tính xách tay hp (cài đặt máy tính để bàn không thể hiện vấn đề này)
John Forkosh

6
Bạn có phiền xây dựng một chút? Tùy chọn này làm gì và bạn mong đợi nó giải quyết vấn đề như thế nào?
Calimo

Tại sao bạn không sử dụng sudoeditđể chỉnh sửa an toàn? -1 cho các bản sao này ở đây và có các bước hoàn toàn vô nghĩa
LinuxSecurityFreak

3
pci=noaerchỉ vô hiệu hóa Báo cáo lỗi nâng cao. Vì vậy, bạn vẫn có những lỗi đó, bạn chỉ không nhìn thấy chúng ...
dirkt

2

Thêm tùy chọn dòng lệnh kernel đã pci=nommconfgiải quyết vấn đề cho tôi. Do đó, tôi cho rằng vấn đề này liên quan đến bo mạch chủ. Nó xảy ra trên tất cả các máy tính được trang bị bo mạch chủ X99 của tôi. Nó không xảy ra trên các hệ thống Z170 hoặc bất kỳ phần cứng nào khác mà tôi sở hữu.


1
Xin chào tôi cũng đang đối mặt với vấn đề này. Tôi có thể biết pci-nommconf làm gì không? Có phải chỉ là đàn áp vấn đề hoặc giải quyết vấn đề?
dùng10024395

Không thể xác nhận - nhận lỗi trên z170i, chạy vòm 4.13.12
sitilge

@sitilge - cảm ơn bình luận của bạn. Những thương hiệu / mô hình z170i? Bo mạch chủ của tôi là Asus. Một là X99 Deluxe II
MountainX cho Monica Cellio

Đó là chơi game asus z170i pro.
sitilge

2

Tôi nhận được các lỗi tương tự (TLP xấu liên quan đến thiết bị 8086: 6f08). Tôi có X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Những vấn đề này dường như có liên quan đến chipset X99 và thiết bị M.2, như Samsung Pro.

Bo mạch chủ X99 Deluxe II chia sẻ băng thông giữa khe PCIE16_3 và M.2 / U.2. Theo nhận xét từ @Nic, trong BIOS tôi đã thay đổi Cấu hình thiết bị trên bo mạch | Băng thông U.2_2 từ Tự động đến U.2_2. Điều này đã khắc phục vấn đề cho tôi.


Làm thế nào bạn xác định rằng nó chỉ là chipset đó? Đã thử mọi chipset khác? Nó xảy ra trên một loạt các phần cứng.
doug65536

2

Tôi đã thay đổi cấu hình khe PCIE16_3 trong Bios trên x99-E của tôi thành chế độ tĩnh thành chế độ x8 thay vì tự động được mặc định cho hỗ trợ thiết bị M.2. Hiện tại hoạt động tốt mà không có lỗi TLP trên cả hai thẻ 1070GTX của tôi được kết nối qua bảng mở rộng PCIe 1x đến 16x.

Trước tiên tôi không sử dụng cổng 16_3, đã chuyển sang vị trí đó để kiểm tra nhưng vẫn gặp sự cố trước khi thay đổi trong bios. Đồng thời thay đổi cài đặt bs ngủ cho tất cả các thẻ thành 30 trong cấu hình khai thác.

Trước khi thay đổi, tôi đã đăng nhập kernel bị lỗi. Cũng đã cố gắng để hệ thống power Motorcycle trước và sau khi thay đổi. Có vẻ là khá dai dẳng.


2

Tìm kiếm hướng dẫn sử dụng bo mạch chủ của bạn cho "AER". Bạn có thể tiêu diệt nguồn gốc của vấn đề bằng cách sửa lỗi không tương thích cụ thể hoặc vô hiệu hóa AER hoàn toàn. Chỉ sử dụng điều này nếu tất cả các lỗi spam liên quan đến sửa lỗi, nếu không bạn có thể che đậy một vấn đề thực tế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.