Linux e1000e (trình điều khiển mạng Intel) gặp sự cố, tôi phải bắt đầu từ đâu?


23

Tôi hiện đang gặp vấn đề lớn với e1000e(hoàn toàn không hoạt động) trong Ubuntu Maverick (1.0.2-k4), sau khi tiếp tục, tôi nhận được rất nhiều thứ trong dmesg:

[ 9085.820197] e1000e 0000:02:00.0: PCI INT A disabled
[ 9089.907756] e1000e: Intel(R) PRO/1000 Network Driver - 1.0.2-k4
[ 9089.907762] e1000e: Copyright (c) 1999 - 2009 Intel Corporation.
[ 9089.907797] e1000e 0000:02:00.0: Disabling ASPM  L1
[ 9089.907827] e1000e 0000:02:00.0: PCI INT A -> GSI 16 (level, low) -> IRQ 16
[ 9089.907857] e1000e 0000:02:00.0: setting latency timer to 64
[ 9089.908529] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X
[ 9089.908922] e1000e 0000:02:00.0: Disabling ASPM L0s 
[ 9089.908954] e1000e 0000:02:00.0: (unregistered net_device): PHY reset is blocked due to SOL/IDER session.
[ 9090.024625] e1000e 0000:02:00.0: eth0: (PCI Express:2.5GB/s:Width x1) 00:0a:e4:3e:ce:74
[ 9090.024630] e1000e 0000:02:00.0: eth0: Intel(R) PRO/1000 Network Connection
[ 9090.024712] e1000e 0000:02:00.0: eth0: MAC: 2, PHY: 2, PBA No: 005302-003
[ 9090.109492] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X
[ 9090.164219] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X

và, một loạt các

[ 2128.005447] e1000e 0000:02:00.0: eth0: Detected Hardware Unit Hang:
[ 2128.005452]   TDH                  <89>
[ 2128.005454]   TDT                  <27>
[ 2128.005456]   next_to_use          <27>
[ 2128.005458]   next_to_clean        <88>
[ 2128.005460] buffer_info[next_to_clean]:
[ 2128.005463]   time_stamp           <6e608>
[ 2128.005465]   next_to_watch        <8a>
[ 2128.005467]   jiffies              <6f929>
[ 2128.005469]   next_to_watch.status <0>
[ 2128.005471] MAC Status             <80080703>
[ 2128.005473] PHY Status             <796d>
[ 2128.005475] PHY 1000BASE-T Status  <4000>
[ 2128.005477] PHY Extended Status    <3000>
[ 2128.005480] PCI Status             <10>

Tôi quyết định biên dịch ổn định mới nhất e1000eđến 1.2.17, bây giờ tôi nhận được:

[ 9895.678050] e1000e: Intel(R) PRO/1000 Network Driver - 1.2.17-NAPI
[ 9895.678055] e1000e: Copyright(c) 1999 - 2010 Intel Corporation.
[ 9895.678098] e1000e 0000:02:00.0: Disabling ASPM  L1
[ 9895.678129] e1000e 0000:02:00.0: PCI INT A -> GSI 16 (level, low) -> IRQ 16
[ 9895.678162] e1000e 0000:02:00.0: setting latency timer to 64
[ 9895.679136] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X
[ 9895.679160] e1000e 0000:02:00.0: Disabling ASPM L0s 
[ 9895.679192] e1000e 0000:02:00.0: (unregistered net_device): PHY reset is blocked due to SOL/IDER session.
[ 9895.791758] e1000e 0000:02:00.0: eth0: (PCI Express:2.5GB/s:Width x1) 00:0a:e4:3e:ce:74
[ 9895.791766] e1000e 0000:02:00.0: eth0: Intel(R) PRO/1000 Network Connection
[ 9895.791850] e1000e 0000:02:00.0: eth0: MAC: 3, PHY: 2, PBA No: 005302-003
[ 9895.892464] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X
[ 9895.948175] e1000e 0000:02:00.0: irq 44 for MSI/MSI-X
[ 9895.949111] ADDRCONF(NETDEV_UP): eth0: link is not ready
[ 9895.954694] e1000e: eth0 NIC Link is Up 10 Mbps Full Duplex, Flow Control: RX/TX
[ 9895.954703] e1000e 0000:02:00.0: eth0: 10/100 speed: disabling TSO
[ 9895.955157] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 9906.832056] eth0: no IPv6 routers present

Với 1.2.20tôi nhận được:

[ 9711.525465] e1000e: Intel(R) PRO/1000 Network Driver - 1.2.20-NAPI
[ 9711.525472] e1000e: Copyright(c) 1999 - 2010 Intel Corporation.
[ 9711.525521] e1000e 0000:02:00.0: Disabling ASPM  L1
[ 9711.525554] e1000e 0000:02:00.0: PCI INT A -> GSI 16 (level, low) -> IRQ 16
[ 9711.525586] e1000e 0000:02:00.0: setting latency timer to 64
[ 9711.526460] e1000e 0000:02:00.0: irq 45 for MSI/MSI-X
[ 9711.526487] e1000e 0000:02:00.0: Disabling ASPM L0s 
[ 9711.526523] e1000e 0000:02:00.0: (unregistered net_device): PHY reset is blocked due to SOL/IDER session.
[ 9711.639763] e1000e 0000:02:00.0: eth0: (PCI Express:2.5GB/s:Width x1) 00:0a:e4:3e:ce:74
[ 9711.639771] e1000e 0000:02:00.0: eth0: Intel(R) PRO/1000 Network Connection
[ 9711.639854] e1000e 0000:02:00.0: eth0: MAC: 3, PHY: 2, PBA No: 005302-003
[ 9712.060770] e1000e 0000:02:00.0: irq 45 for MSI/MSI-X
[ 9712.116195] e1000e 0000:02:00.0: irq 45 for MSI/MSI-X
[ 9712.117098] ADDRCONF(NETDEV_UP): eth0: link is not ready
[ 9712.122684] e1000e: eth0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX/TX
[ 9712.122693] e1000e 0000:02:00.0: eth0: 10/100 speed: disabling TSO
[ 9712.123142] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 9722.920014] eth0: no IPv6 routers present

Nhưng, tôi vẫn nhận được những

[ 9982.992851] PCI Status             <10>
[ 9984.993602] e1000e 0000:02:00.0: eth0: Detected Hardware Unit Hang:
[ 9984.993606]   TDH                  <5d>
[ 9984.993608]   TDT                  <6b>
[ 9984.993611]   next_to_use          <6b>
[ 9984.993613]   next_to_clean        <5b>
[ 9984.993615] buffer_info[next_to_clean]:
[ 9984.993617]   time_stamp           <24da80>
[ 9984.993619]   next_to_watch        <5d>
[ 9984.993621]   jiffies              <24f200>
[ 9984.993624]   next_to_watch.status <0>
[ 9984.993626] MAC Status             <80080703>
[ 9984.993628] PHY Status             <796d>
[ 9984.993630] PHY 1000BASE-T Status  <4000>
[ 9984.993632] PHY Extended Status    <3000>
[ 9984.993635] PCI Status             <10>
[ 9986.001047] e1000e 0000:02:00.0: eth0: Reset adapter
[ 9986.176202] e1000e: eth0 NIC Link is Up 10 Mbps Full Duplex, Flow Control: RX/TX
[ 9986.176211] e1000e 0000:02:00.0: eth0: 10/100 speed: disabling TSO

Tôi không chắc bắt đầu khắc phục sự cố này ở đâu. Có ý kiến ​​gì không?

Đây là kết quả của ethtool -d eth0

MAC Registers
-------------
0x00000: CTRL (Device control register)  0x18100248
      Endian mode (buffers):             little
      Link reset:                        reset
      Set link up:                       1
      Invert Loss-Of-Signal:             no
      Receive flow control:              enabled
      Transmit flow control:             enabled
      VLAN mode:                         disabled
      Auto speed detect:                 disabled
      Speed select:                      1000Mb/s
      Force speed:                       no
      Force duplex:                      no
0x00008: STATUS (Device status register) 0x80080703
      Duplex:                            full
      Link up:                           link config
      TBI mode:                          disabled
      Link speed:                        10Mb/s
      Bus type:                          PCI Express
      Port number:                       0
0x00100: RCTL (Receive control register) 0x04048002
      Receiver:                          enabled
      Store bad packets:                 disabled
      Unicast promiscuous:               disabled
      Multicast promiscuous:             disabled
      Long packet:                       disabled
      Descriptor minimum threshold size: 1/2
      Broadcast accept mode:             accept
      VLAN filter:                       enabled
      Canonical form indicator:          disabled
      Discard pause frames:              filtered
      Pass MAC control frames:           don't pass
      Receive buffer size:               2048
0x02808: RDLEN (Receive desc length)     0x00001000
0x02810: RDH   (Receive desc head)       0x00000001
0x02818: RDT   (Receive desc tail)       0x000000F0
0x02820: RDTR  (Receive delay timer)     0x00000000
0x00400: TCTL (Transmit ctrl register)   0x3103F0FA
      Transmitter:                       enabled
      Pad short packets:                 enabled
      Software XOFF Transmission:        disabled
      Re-transmit on late collision:     enabled
0x03808: TDLEN (Transmit desc length)    0x00001000
0x03810: TDH   (Transmit desc head)      0x00000000
0x03818: TDT   (Transmit desc tail)      0x00000000
0x03820: TIDV  (Transmit delay timer)    0x00000008
PHY type:                                IGP2

ethtool -c eth0

Coalesce parameters for eth0:
Adaptive RX: off  TX: off
stats-block-usecs: 0
sample-interval: 0
pkt-rate-low: 0
pkt-rate-high: 0

rx-usecs: 3
rx-frames: 0
rx-usecs-irq: 0
rx-frames-irq: 0

tx-usecs: 0
tx-frames: 0
tx-usecs-irq: 0
tx-frames-irq: 0

rx-usecs-low: 0
rx-frame-low: 0
tx-usecs-low: 0
tx-frame-low: 0

rx-usecs-high: 0
rx-frame-high: 0
tx-usecs-high: 0
tx-frame-high: 0

Đây cũng là lspci -vvvbộ điều khiển này

02:00.0 Ethernet controller: Intel Corporation 82573L Gigabit Ethernet Controller
    Subsystem: Lenovo ThinkPad X60s
    Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr- Stepping- SERR+ FastB2B- DisINTx+
    Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
    Latency: 0, Cache Line Size: 64 bytes
    Interrupt: pin A routed to IRQ 45
    Region 0: Memory at ee000000 (32-bit, non-prefetchable) [size=128K]
    Region 2: I/O ports at 2000 [size=32]
    Capabilities: [c8] Power Management version 2
        Flags: PMEClk- DSI+ D1- D2- AuxCurrent=0mA PME(D0+,D1-,D2-,D3hot+,D3cold+)
        Status: D0 NoSoftRst- PME-Enable- DSel=0 DScale=1 PME-
    Capabilities: [d0] MSI: Enable+ Count=1/1 Maskable- 64bit+
        Address: 00000000fee0300c  Data: 415a
    Capabilities: [e0] Express (v1) Endpoint, MSI 00
        DevCap: MaxPayload 256 bytes, PhantFunc 0, Latency L0s <512ns, L1 <64us
            ExtTag- AttnBtn- AttnInd- PwrInd- RBE- FLReset-
        DevCtl: Report errors: Correctable+ Non-Fatal+ Fatal+ Unsupported+
            RlxdOrd+ ExtTag- PhantFunc- AuxPwr- NoSnoop+
            MaxPayload 128 bytes, MaxReadReq 512 bytes
        DevSta: CorrErr- UncorrErr- FatalErr- UnsuppReq- AuxPwr+ TransPend-
        LnkCap: Port #0, Speed 2.5GT/s, Width x1, ASPM L0s L1, Latency L0 <128ns, L1 <64us
            ClockPM+ Surprise- LLActRep- BwNot-
        LnkCtl: ASPM Disabled; RCB 64 bytes Disabled- Retrain- CommClk+
            ExtSynch- ClockPM+ AutWidDis- BWInt- AutBWInt-
        LnkSta: Speed 2.5GT/s, Width x1, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
    Capabilities: [100 v1] Advanced Error Reporting
        UESta:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq+ ACSViol-
        UEMsk:  DLP- SDES- TLP- FCP- CmpltTO- CmpltAbrt- UnxCmplt- RxOF- MalfTLP- ECRC- UnsupReq- ACSViol-
        UESvrt: DLP+ SDES- TLP- FCP+ CmpltTO- CmpltAbrt- UnxCmplt- RxOF+ MalfTLP+ ECRC- UnsupReq- ACSViol-
        CESta:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr-
        CEMsk:  RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr-
        AERCap: First Error Pointer: 14, GenCap- CGenEn- ChkCap- ChkEn-
    Capabilities: [140 v1] Device Serial Number 00-0a-e4-ff-ff-3e-ce-74
    Kernel driver in use: e1000e
    Kernel modules: e1000e

Tôi đã gửi một lỗi trên thượng nguồn này , vẫn không biết làm thế nào để có thêm thông tin hữu ích.

Đây là kết quả của việc chạy tập lệnh đó

CẬP NHẬT EEPROM CỐ ĐỊNH

$ sudo bash fixeep-82573-dspd.sh eth0
eth0: is a "82573L Gigabit Ethernet Controller"
This fixup is applicable to your hardware
Your eeprom is up to date, no changes were made

Tôi có cần phải làm gì không? Ngoài ra đây là bãi chứa EEPROM của tôi

$ sudo ethtool -e eth0
Offset      Values
------      ------
0x0000      00 0a e4 3e ce 74 30 0b b2 ff 51 00 ff ff ff ff 
0x0010      53 00 03 02 6b 02 7e 20 aa 17 9a 10 86 80 df 80 
0x0020      00 00 00 20 54 7e 00 00 14 00 da 00 04 00 00 27 
0x0030      c9 6c 50 31 3e 07 0b 04 8b 29 00 00 00 f0 02 0f 
0x0040      08 10 00 00 04 0f ff 7f 01 4d ff ff ff ff ff ff 
0x0050      14 00 1d 00 14 00 1d 00 af aa 1e 00 00 00 1d 00 
0x0060      00 01 00 40 1f 12 07 40 ff ff ff ff ff ff ff ff 
0x0070      ff ff ff ff ff ff ff ff ff ff ff ff ff ff 4a e0

Tôi cũng muốn lưu ý rằng tôi đã sử dụng eth0hàng ngày trong nhiều năm và cho đến gần đây không bao giờ có vấn đề.


Tôi đã đăng một QnA ở đây có thể giúp serverfault.com/questions/616485/
Kyle Coots

Câu trả lời:


19

Vui lòng thử khởi động kernel với pcie_aspm=offtham số kernel.


Kinh ngạc! Thế là xong, tôi lại kết nối và mọi thứ đang hoạt động !!
Evan Carroll

Tôi tìm thấy một chút thông tin ở đây .
Evan Carroll


2
btw, tôi đã thêm kopt=pcie_aspm=offvào /boot/grub/menu.lst- Tôi biết điều này là cơ bản (cách thêm thông số kernel), nhưng đối với những người không biết đó là tất cả thì cũng vậy nếu bạn đang sử dụng grub. Bạn cũng có thể chỉ cần thêm pcie_aspm=offvào dòng kernel của mình, nhưng sau đó nó chỉ hoạt động cho đến khi bạn nhận được bản phát hành bảo mật tiếp theo.
Evan Carroll

15

Từ trình điều khiển của Intel readme: downloadmirror.intel.com/9180/eng/README.txt

82573 (V / L / E) TX Đơn vị Tin nhắn Hang

Một số bộ điều hợp với chipset 82573 hiển thị thông báo "đơn vị TX treo" trong khi hoạt động bình thường với trình điều khiển e1000. Sự cố xuất hiện cả khi bật và tắt TSO và do chức năng quản lý nguồn được bật trong EEPROM. Việc phát hành sớm các chipset cho các nhà cung cấp có bit EEPROM cho phép tính năng này. Sau khi sự cố được phát hiện, các bộ điều hợp mới hơn đã được phát hành với tính năng bị vô hiệu hóa trong EEPROM.

Nếu bạn gặp phải sự cố trong bộ điều hợp và chipset là loại dựa trên 82573, bạn có thể xác minh rằng bộ điều hợp của bạn cần khắc phục bằng cách sử dụng ethtool:

 # ethtool -e eth0
 Offset          Values
 ------          ------
 0x0000          00 12 34 56 fe dc 30 0d 46 f7 f4 00 ff ff ff ff
 0x0010          ff ff ff ff 6b 02 8c 10 d9 15 8c 10 86 80 de 83
                                                           ^^

Giá trị tại offset 0x001e (de) có bit 0 không được đặt. Điều này cho phép các tính năng tiết kiệm năng lượng có vấn đề. Trong trường hợp này, EEPROM cần đọc "df" ở offset 0x001e.

Bản sửa lỗi EEPROM một lần có sẵn dưới dạng tập lệnh shell. Tập lệnh này sẽ xác minh rằng bộ điều hợp có thể áp dụng cho bản sửa lỗi và nếu bản sửa lỗi có cần thiết hay không. Nếu cần khắc phục, nó sẽ áp dụng thay đổi cho EEPROM và cập nhật tổng kiểm tra. Người dùng phải khởi động lại hệ thống sau khi áp dụng bản sửa lỗi nếu các thay đổi được thực hiện cho EEPROM.

Ví dụ đầu ra của tập lệnh:

 # bash fixeep-82573-dspd.sh eth0
 eth0: is a "82573E Gigabit Ethernet Controller"
 This fixup is applicable to your hardware
 executing command: ethtool -E eth0 magic 0x109a8086 offset 0x1e value 0xdf
 Change made. You *MUST* reboot your machine before changes take effect!

Tập lệnh có thể được tải xuống tại http://e1000.sourceforge.net/files/fixeep-82573-dspd.sh


3

Là một người đào mộ, tôi muốn khai thác chuỗi ass cũ này để chia sẻ giải pháp của mình cho Ubuntu. Tải xuống trình điều khiển mạng Intel mới nhất ( 3.4.0.2 tại thời điểm viết). Giải nén nó, nối một thứ vào một dòng trong Makefile, lấy bản vá, áp dụng bản vá, cài đặt, lắp lại mô-đun và cuối cùng, khởi động lại. Chúc may mắn.

wget https://downloadcenter.intel.com/download/15817/Intel-Network-Adapter-Driver-for-PCIe-Intel-Gigabit-Ethernet-Network-Connections-Under-Linux-?product=60019
tar -zxvf e1000e-3.4.0.2.tar.gz
vi e1000e-3.4.0.2/src/Makefile
    ## Locate line 152: EXTRA_CFLAGS += $(CFLAGS_EXTRA)
    ## Append -fno-pie
## Download the patch from https://sourceforge.net/p/e1000/bugs/_discuss/thread/9048ab8e 
## wget/curl won't work here. THANKS SOURCE FORGE.
patch -p0 < e1000e-3.4.0.2-timer-updates.patch
cd e1000e-3.4.0.2/src/
sudo make install
sudo rmmod e1000e && sudo modprobe e1000e
sudo reboot

Điều này đã hoàn thành trên Ubuntu 18.04, kernel 4.15.


Tôi sẽ cho nó một shot và xem nếu nó cố định. bạn có thể tìm thấy phiên bản bạn đang sử dụng modinfo -F version e1000e.
Evan Carroll

Tôi sẽ tò mò về những lỗi bạn nhận được với 18.04. Không chạy cái này, có vẻ như vấn đề đã tự giải quyết. Tôi sẽ không bị treo nữa mặc dù đây có thể là sự cố về bộ định tuyến / băng tần / tần số
Evan Carroll

1
Uhh, giao diện sẽ chỉ treo trong vài giây hoặc vài phút. Cuối cùng, nó thường sẽ làm sập hệ thống.
Justin

Cảm ơn vì điều đó; Tôi đã thấy điều này với một intel nuc trên ubfox 19.04 mỗi khi giao diện được khởi chạy. Với trình điều khiển được cài đặt thủ công, tôi không thấy điều này nữa. Tôi vừa nâng cấp lên 19.04 vì tôi có hệ thống treo đầy bí ẩn (infloop). Tôi tự hỏi nếu hai điều có liên quan?
Wez Furlong

1

Tôi gặp vấn đề tương tự với e1000e trên Ubuntu 18.04.1, hạt nhân 4.15.0-36 và không có gì giúp được. Tôi đã cập nhật trình điều khiển trực tiếp từ intel lên 3.4.2.1-NAPI mà không có bất kỳ cải tiến nào. Tất cả những điều được liệt kê trong này và các chủ đề khác đã không giúp đỡ. Đoán từ việc đọc qua báo cáo lỗi Ubuntu này, tôi đã tìm ra cách giải quyết để giảm đáng kể kích thước của ringbuffer:

sudo ethtool -G eth0 rx 256 tx 256

Điều này giải quyết hoàn toàn vấn đề cho tôi và dường như hoàn toàn không ảnh hưởng đến hiệu suất (Sử dụng máy tính để bàn, chỉ thực hiện các điểm chuẩn cơ bản).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.