Tại sao việc thêm các chú thích hợp ngữ nội tuyến lại gây ra sự thay đổi triệt để như vậy trong mã được tạo của GCC?

Question 1

Vì vậy, tôi đã có mã này:

constexpr unsigned N = 1000;
void f1(char* sum, char* a, char* b) {
    for(int i = 0; i < N; ++i) {
        sum[i] = a[i] + b[i];
    }
}

void f2(char* sum, char* a, char* b) {
    char* end = sum + N;
    while(sum != end) {
        *sum++ = *a++ + *b++;
    }
}

Tôi muốn xem mã mà GCC 4.7.2 sẽ tạo. Vì vậy, tôi đã chạy g++ -march=native -O3 -masm=intel -S a.c++ -std=c++11Và nhận được kết quả sau:

        .file   "a.c++"
        .intel_syntax noprefix
        .text
        .p2align 4,,15
        .globl  _Z2f1PcS_S_
        .type   _Z2f1PcS_S_, @function
_Z2f1PcS_S_:
.LFB0:
        .cfi_startproc
        lea     rcx, [rdx+16]
        lea     rax, [rdi+16]
        cmp     rdi, rcx
        setae   r8b
        cmp     rdx, rax
        setae   cl
        or      cl, r8b
        je      .L5
        lea     rcx, [rsi+16]
        cmp     rdi, rcx
        setae   cl
        cmp     rsi, rax
        setae   al
        or      cl, al
        je      .L5
        xor     eax, eax
        .p2align 4,,10
        .p2align 3
.L3:
        movdqu  xmm0, XMMWORD PTR [rdx+rax]
        movdqu  xmm1, XMMWORD PTR [rsi+rax]
        paddb   xmm0, xmm1
        movdqu  XMMWORD PTR [rdi+rax], xmm0
        add     rax, 16
        cmp     rax, 992
        jne     .L3
        mov     ax, 8
        mov     r9d, 992
.L2:
        sub     eax, 1
        lea     rcx, [rdx+r9]
        add     rdi, r9
        lea     r8, [rax+1]
        add     rsi, r9
        xor     eax, eax
        .p2align 4,,10
        .p2align 3
.L4:
        movzx   edx, BYTE PTR [rcx+rax]
        add     dl, BYTE PTR [rsi+rax]
        mov     BYTE PTR [rdi+rax], dl
        add     rax, 1
        cmp     rax, r8
        jne     .L4
        rep
        ret
.L5:
        mov     eax, 1000
        xor     r9d, r9d
        jmp     .L2
        .cfi_endproc
.LFE0:
        .size   _Z2f1PcS_S_, .-_Z2f1PcS_S_
        .p2align 4,,15
        .globl  _Z2f2PcS_S_
        .type   _Z2f2PcS_S_, @function
_Z2f2PcS_S_:
.LFB1:
        .cfi_startproc
        lea     rcx, [rdx+16]
        lea     rax, [rdi+16]
        cmp     rdi, rcx
        setae   r8b
        cmp     rdx, rax
        setae   cl
        or      cl, r8b
        je      .L19
        lea     rcx, [rsi+16]
        cmp     rdi, rcx
        setae   cl
        cmp     rsi, rax
        setae   al
        or      cl, al
        je      .L19
        xor     eax, eax
        .p2align 4,,10
        .p2align 3
.L17:
        movdqu  xmm0, XMMWORD PTR [rdx+rax]
        movdqu  xmm1, XMMWORD PTR [rsi+rax]
        paddb   xmm0, xmm1
        movdqu  XMMWORD PTR [rdi+rax], xmm0
        add     rax, 16
        cmp     rax, 992
        jne     .L17
        add     rdi, 992
        add     rsi, 992
        add     rdx, 992
        mov     r8d, 8
.L16:
        xor     eax, eax
        .p2align 4,,10
        .p2align 3
.L18:
        movzx   ecx, BYTE PTR [rdx+rax]
        add     cl, BYTE PTR [rsi+rax]
        mov     BYTE PTR [rdi+rax], cl
        add     rax, 1
        cmp     rax, r8
        jne     .L18
        rep
        ret
.L19:
        mov     r8d, 1000
        jmp     .L16
        .cfi_endproc
.LFE1:
        .size   _Z2f2PcS_S_, .-_Z2f2PcS_S_
        .ident  "GCC: (GNU) 4.7.2"
        .section        .note.GNU-stack,"",@progbits

Tôi rất chán khi đọc lắp ráp, vì vậy tôi quyết định thêm một số điểm đánh dấu để biết phần thân của các vòng lặp đã đi đâu:

constexpr unsigned N = 1000;
void f1(char* sum, char* a, char* b) {
    for(int i = 0; i < N; ++i) {
        asm("# im in ur loop");
        sum[i] = a[i] + b[i];
    }
}

void f2(char* sum, char* a, char* b) {
    char* end = sum + N;
    while(sum != end) {
        asm("# im in ur loop");
        *sum++ = *a++ + *b++;
    }
}

Và GCC nói ra điều này:

    .file   "a.c++"
    .intel_syntax noprefix
    .text
    .p2align 4,,15
    .globl  _Z2f1PcS_S_
    .type   _Z2f1PcS_S_, @function
_Z2f1PcS_S_:
.LFB0:
    .cfi_startproc
    xor eax, eax
    .p2align 4,,10
    .p2align 3
.L2:
#APP
# 4 "a.c++" 1
    # im in ur loop
# 0 "" 2
#NO_APP
    movzx   ecx, BYTE PTR [rdx+rax]
    add cl, BYTE PTR [rsi+rax]
    mov BYTE PTR [rdi+rax], cl
    add rax, 1
    cmp rax, 1000
    jne .L2
    rep
    ret
    .cfi_endproc
.LFE0:
    .size   _Z2f1PcS_S_, .-_Z2f1PcS_S_
    .p2align 4,,15
    .globl  _Z2f2PcS_S_
    .type   _Z2f2PcS_S_, @function
_Z2f2PcS_S_:
.LFB1:
    .cfi_startproc
    xor eax, eax
    .p2align 4,,10
    .p2align 3
.L6:
#APP
# 12 "a.c++" 1
    # im in ur loop
# 0 "" 2
#NO_APP
    movzx   ecx, BYTE PTR [rdx+rax]
    add cl, BYTE PTR [rsi+rax]
    mov BYTE PTR [rdi+rax], cl
    add rax, 1
    cmp rax, 1000
    jne .L6
    rep
    ret
    .cfi_endproc
.LFE1:
    .size   _Z2f2PcS_S_, .-_Z2f2PcS_S_
    .ident  "GCC: (GNU) 4.7.2"
    .section    .note.GNU-stack,"",@progbits

Điều này ngắn hơn đáng kể và có một số khác biệt đáng kể như thiếu hướng dẫn SIMD. Tôi đã mong đợi cùng một đầu ra, với một số nhận xét ở giữa nó. Tôi có đang đưa ra một giả định sai lầm nào đó ở đây không? Trình tối ưu hóa của GCC có bị cản trở bởi các nhận xét asm không?

Question 2

Các tương tác với tối ưu hóa được giải thích về nửa chừng của trang "Hướng dẫn lắp ráp với toán hạng biểu thức C" trong tài liệu.

GCC không cố gắng hiểu bất kỳ lắp ráp thực tế nào bên trong asm; điều duy nhất nó biết về nội dung là những gì bạn (tùy chọn) cho nó biết trong đặc tả toán hạng đầu ra và đầu vào và danh sách thanh ghi tắc nghẽn.

Đặc biệt, lưu ý:

Một asmlệnh không có bất kỳ toán hạng đầu ra nào sẽ được xử lý giống hệt với một asmlệnh dễ bay hơi .

và

Các volatiletừ khóa chỉ ra rằng hướng dẫn có quan trọng tác dụng phụ [...]

Vì vậy, sự hiện diện của asmvòng lặp bên trong của bạn đã hạn chế tối ưu hóa vectorisation, bởi vì GCC cho rằng nó có các tác dụng phụ.

Question 3

Lưu ý rằng gcc đã vectơ hóa mã, chia phần nội dung vòng lặp thành hai phần, phần đầu tiên xử lý 16 mục cùng một lúc và phần thứ hai thực hiện phần còn lại sau đó.

Như Ira nhận xét, trình biên dịch không phân tích cú pháp khối asm, vì vậy nó không biết rằng đó chỉ là một nhận xét. Ngay cả khi nó đã làm, nó không có cách nào để biết những gì bạn dự định. Các vòng optmized có phần thân tăng gấp đôi, nó có nên đặt asm của bạn vào mỗi vòng không? Bạn có muốn nó không được thực thi 1000 lần không? Nó không biết, vì vậy nó đi theo con đường an toàn và quay trở lại vòng lặp đơn giản.

Question 4

Tôi không đồng ý với "gcc không hiểu những gì trong asm()khối". Ví dụ: gcc có thể giải quyết khá tốt với việc tối ưu hóa các tham số và thậm chí sắp xếp lại asm()các khối sao cho nó xen lẫn với mã C đã tạo. Đây là lý do tại sao, nếu bạn nhìn vào trình hợp dịch nội tuyến trong hạt nhân Linux chẳng hạn, nó gần như luôn luôn có tiền tố là__volatile__ để đảm bảo rằng trình biên dịch "không di chuyển mã xung quanh". Tôi đã cho gcc di chuyển "rdtsc" của mình xung quanh, điều này làm cho phép đo của tôi về thời gian cần thiết để thực hiện một số việc.

Theo tài liệu, gcc xử lý một số loại asm() khối là "đặc biệt" và do đó không tối ưu hóa mã ở cả hai phía của khối.

Điều đó không có nghĩa là gcc đôi khi sẽ không bị nhầm lẫn bởi các khối trình hợp dịch nội tuyến, hoặc đơn giản là quyết định từ bỏ một số tối ưu hóa cụ thể vì nó không thể tuân theo hậu quả của mã trình hợp dịch, v.v. Quan trọng hơn, nó thường có thể bị nhầm lẫn khi thiếu các thẻ clobber - vì vậy nếu bạn có một số hướng dẫn nhưcpuidlàm thay đổi giá trị của EAX-EDX, nhưng bạn đã viết mã để nó chỉ sử dụng EAX, trình biên dịch có thể lưu trữ mọi thứ trong EBX, ECX và EDX, và sau đó mã của bạn hoạt động rất lạ khi các thanh ghi này bị ghi đè ... Nếu bạn thật may mắn, nó hỏng ngay lập tức - sau đó thật dễ dàng để tìm ra điều gì đang xảy ra. Nhưng nếu bạn không may mắn, nó sẽ rơi xuống dòng ... Một điều khó khăn khác là lệnh chia cho kết quả thứ hai trong edx. Nếu bạn không quan tâm đến modulo, rất dễ quên rằng EDX đã được thay đổi.

Question 5

Câu trả lời này hiện đã được sửa đổi: ban đầu nó được viết với tư duy coi Asm cơ bản nội tuyến là một công cụ được chỉ định khá mạnh, nhưng nó không giống như vậy trong GCC. Asm cơ bản là yếu và vì vậy câu trả lời đã được chỉnh sửa.

Mỗi nhận xét hợp ngữ hoạt động như một điểm ngắt.

CHỈNH SỬA: Nhưng một cái bị hỏng, khi bạn sử dụng Basic Asm. Inline asm(một asmcâu lệnh bên trong thân hàm) không có danh sách tắc nghẽn rõ ràng là một tính năng được chỉ định yếu trong GCC và hành vi của nó rất khó xác định. Có vẻ như nó không (tôi không hoàn toàn hiểu được các đảm bảo của nó) được gắn với bất kỳ thứ gì cụ thể, vì vậy trong khi mã hợp ngữ phải được chạy tại một số thời điểm nếu chức năng được chạy, không rõ khi nào nó được chạy cho bất kỳ mức tối ưu hóa tầm thường . Một điểm ngắt có thể được sắp xếp lại thứ tự với lệnh lân cận không phải là một "điểm ngắt" rất hữu ích. KẾT THÚC CHỈNH SỬA

Bạn có thể chạy chương trình của mình trong một trình thông dịch ngắt ở mỗi nhận xét và in ra trạng thái của mọi biến (sử dụng thông tin gỡ lỗi). Những điểm này phải tồn tại để bạn quan sát môi trường (trạng thái của thanh ghi và bộ nhớ).

Không có chú thích, không có điểm quan sát nào tồn tại và vòng lặp được biên dịch dưới dạng một hàm toán học duy nhất lấy một môi trường và tạo ra một môi trường đã sửa đổi.

Bạn muốn biết câu trả lời của một câu hỏi vô nghĩa: bạn muốn biết cách từng lệnh (hoặc có thể là khối, hoặc có thể là phạm vi lệnh) được biên dịch, nhưng không có lệnh (hoặc khối) riêng lẻ nào được biên dịch; toàn bộ nội dung được tổng hợp.

Một câu hỏi tốt hơn sẽ là:

Xin chào GCC. Tại sao bạn tin rằng đầu ra asm này đang thực hiện mã nguồn? Hãy giải thích từng bước, với mọi giả định.

Nhưng sau đó bạn sẽ không muốn đọc một bằng chứng dài hơn đầu ra asm, được viết theo thuật ngữ của biểu diễn nội bộ GCC.