Thử thách hiệu suất C ++: chuyển đổi số nguyên sang std

123

Có ai có thể đánh bại hiệu suất của số nguyên của tôi thành mã std :: string, được liên kết bên dưới không?

Đã có một số câu hỏi giải thích cách chuyển một số nguyên thành a std::stringtrong C ++, chẳng hạn như câu hỏi này , nhưng không có giải pháp nào được cung cấp là hiệu quả.

Đây là mã sẵn sàng cho biên dịch cho một số phương pháp phổ biến để cạnh tranh với:

"Cách C ++", sử dụng stringstream: http://ideone.com/jh3Sa
sprintf, mà SO-ers thường đề xuất cho hiệu suất có ý thức: http://ideone.com/82kwR

Trái với suy nghĩ thông thường , boost::lexical_castcó cách triển khai riêng (sách trắng ) và không sử dụng stringstreamvà các toán tử chèn số. Tôi thực sự muốn xem hiệu suất của nó được so sánh, bởi vì câu hỏi khác này cho thấy rằng nó thật khốn khổ .

Và đóng góp của riêng tôi, có tính cạnh tranh trên máy tính để bàn và thể hiện một cách tiếp cận chạy với tốc độ tối đa trên các hệ thống nhúng, không giống như các thuật toán phụ thuộc vào modulo số nguyên:

Các thuật toán của Ben: http://ideone.com/SsEUW

Nếu bạn muốn sử dụng mã đó, tôi sẽ cung cấp mã đó theo giấy phép BSD đơn giản (được phép sử dụng cho mục đích thương mại, yêu cầu ghi công). Chỉ hỏi thôi.

Cuối cùng, chức năng ltoakhông phải là tiêu chuẩn nhưng có sẵn rộng rãi.

phiên bản ltoa, dành cho bất kỳ ai có trình biên dịch cung cấp nó (Ideone thì không): http://ideone.com/T5Wim

Tôi sẽ sớm đăng các phép đo hiệu suất của mình dưới dạng câu trả lời.

Quy tắc cho các thuật toán

Cung cấp mã để chuyển đổi ít nhất 32 bit số nguyên có dấu và không dấu thành số thập phân.
Sản xuất đầu ra như a std::string.
Không có thủ thuật nào không tương thích với luồng và tín hiệu (ví dụ: bộ đệm tĩnh).
Bạn có thể giả định một bộ ký tự ASCII.
Đảm bảo kiểm tra mã của bạn trên INT_MINmáy bổ sung của hai máy trong đó giá trị tuyệt đối không thể đại diện được.
Tốt nhất, đầu ra phải là ký tự-cho-ký tự giống với phiên bản C ++ chuẩn bằng cách sử dụng stringstream, http://ideone.com/jh3Sa , nhưng bất kỳ thứ gì có thể hiểu được rõ ràng là số chính xác cũng được.
MỚI : Mặc dù bạn có thể sử dụng bất kỳ tùy chọn trình biên dịch và trình tối ưu hóa nào (ngoại trừ bị tắt hoàn toàn) mà bạn muốn để so sánh, mã cũng cần phải được biên dịch và đưa ra kết quả chính xác ít nhất là VC ++ 2010 và g ++.

Cuộc thảo luận hy vọng

Bên cạnh các thuật toán tốt hơn, tôi cũng muốn nhận được một số điểm chuẩn trên một số nền tảng và trình biên dịch khác nhau (hãy sử dụng thông lượng MB / s làm đơn vị đo tiêu chuẩn của chúng tôi). Tôi tin rằng mã cho thuật toán của tôi (tôi biết sprintfđiểm chuẩn có một số phím tắt - hiện đã được sửa) là hành vi được xác định rõ theo tiêu chuẩn, ít nhất là theo giả định ASCII, nhưng nếu bạn thấy bất kỳ hành vi hoặc đầu vào không xác định nào mà đầu ra không hợp lệ, vui lòng chỉ ra điều đó.

Kết luận:

Các thuật toán khác nhau thực hiện cho g ++ và VC2010, có thể là do các triển khai khác nhau của std::string mỗi thuật toán. VC2010 rõ ràng hoạt động tốt hơn với NRVO, loại bỏ tính năng trả về theo giá trị chỉ được hỗ trợ trên gcc.

Mã đã được tìm thấy rằng hoạt động tốt hơn sprintftheo thứ tự độ lớn. ostringstreamtụt hậu từ 50 trở lên.

Người chiến thắng trong thử thách là user434507, người tạo ra mã chạy 350% tốc độ của chính tôi trên gcc. Các mục khác bị đóng do ý kiến bất thường của cộng đồng SO.

Các nhà vô địch tốc độ (cuối cùng?) Hiện tại là:

Đối với gcc: user434507, nhanh hơn 8 lần so với sprintf: http://ideone.com/0uhhX
Đối với Visual C ++: Timo, nhanh hơn 15 lần so với sprintf: http://ideone.com/VpKO3

— Ben Voigt
nguồn

5

Tôi nghĩ "Câu hỏi" này phù hợp hơn ở đây programmers.stackexchange.com

— Juarrow

3

Vấn đề của bạn không được xác định rõ, vì nó không giải thích chuỗi kết quả trông như thế nào. Rất có thể, việc luôn trả về chuỗi trống sẽ không được coi là chấp nhận được, nhưng tuân theo đặc điểm kỹ thuật.

— Martin kiện Löwis

7

Tôi đã bỏ phiếu để mở lại câu hỏi này, không có lý do gì để đóng nó.

— Puppy

4

Đối với câu hỏi này, các liên kết Ideone hầu hết đã chết. Bạn có vui lòng đưa mã vào nơi nào đó đáng tin cậy hơn không?

— nhahtdh

6

@BenVoigt Tôi cũng sẽ hỏi như vậy. Các liên kết đều đã chết. Tôi rất muốn xem xét những điều này kỹ hơn

— MAnd

33

#include <string>

const char digit_pairs[201] = {
  "00010203040506070809"
  "10111213141516171819"
  "20212223242526272829"
  "30313233343536373839"
  "40414243444546474849"
  "50515253545556575859"
  "60616263646566676869"
  "70717273747576777879"
  "80818283848586878889"
  "90919293949596979899"
};


std::string& itostr(int n, std::string& s)
{
    if(n==0)
    {
        s="0";
        return s;
    }

    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
    if(val>=10000)
    {
        if(val>=10000000)
        {
            if(val>=1000000000)
                size=10;
            else if(val>=100000000)
                size=9;
            else 
                size=8;
        }
        else
        {
            if(val>=1000000)
                size=7;
            else if(val>=100000)
                size=6;
            else
                size=5;
        }
    }
    else 
    {
        if(val>=100)
        {
            if(val>=1000)
                size=4;
            else
                size=3;
        }
        else
        {
            if(val>=10)
                size=2;
            else
                size=1;
        }
    }
    size -= sign;
    s.resize(size);
    char* c = &s[0];
    if(sign)
        *c='-';

    c += size-1;
    while(val>=100)
    {
       int pos = val % 100;
       val /= 100;
       *(short*)(c-1)=*(short*)(digit_pairs+2*pos); 
       c-=2;
    }
    while(val>0)
    {
        *c--='0' + (val % 10);
        val /= 10;
    }
    return s;
}

std::string& itostr(unsigned val, std::string& s)
{
    if(val==0)
    {
        s="0";
        return s;
    }

    int size;
    if(val>=10000)
    {
        if(val>=10000000)
        {
            if(val>=1000000000)
                size=10;
            else if(val>=100000000)
                size=9;
            else 
                size=8;
        }
        else
        {
            if(val>=1000000)
                size=7;
            else if(val>=100000)
                size=6;
            else
                size=5;
        }
    }
    else 
    {
        if(val>=100)
        {
            if(val>=1000)
                size=4;
            else
                size=3;
        }
        else
        {
            if(val>=10)
                size=2;
            else
                size=1;
        }
    }

    s.resize(size);
    char* c = &s[size-1];
    while(val>=100)
    {
       int pos = val % 100;
       val /= 100;
       *(short*)(c-1)=*(short*)(digit_pairs+2*pos); 
       c-=2;
    }
    while(val>0)
    {
        *c--='0' + (val % 10);
        val /= 10;
    }
    return s;
}

Điều này sẽ làm nổ tung các hệ thống không cho phép truy cập bộ nhớ chưa được căn chỉnh (trong trường hợp đó, bài tập chưa được căn chỉnh đầu tiên qua *(short*) sẽ gây ra lỗi mặc định), nhưng ngược lại sẽ hoạt động rất tốt.

Một điều quan trọng cần làm là giảm thiểu việc sử dụng std::string. (Thật mỉa mai, tôi biết.) Ví dụ: trong Visual Studio, hầu hết các lệnh gọi đến các phương thức của std :: string không được nội tuyến, ngay cả khi bạn chỉ định / Ob2 trong tùy chọn trình biên dịch. Vì vậy, ngay cả một thứ nhỏ nhặt như một cuộc gọi std::string::clear(), mà bạn có thể mong đợi là rất nhanh, có thể mất 100 thanh đồng hồ khi liên kết CRT dưới dạng thư viện tĩnh và nhiều nhất là 300 thanh đồng hồ khi liên kết dưới dạng DLL.

Vì lý do tương tự, trả về bằng tham chiếu sẽ tốt hơn vì nó tránh được một phép gán, một hàm tạo và một hàm hủy.

— Eugene Smith
nguồn

Cảm ơn vì sự cố gắng của bạn. Trên Ideone ( ideone.com/BCp5r ), nó đạt 18,5 MB / s, bằng khoảng một nửa tốc độ sprintf. Và với VC ++ 2010, nó đạt khoảng 50 MB / s, gấp đôi tốc độ của sprintf.

— Ben Voigt

MB / s là một số liệu kỳ lạ, đặc biệt là cách bạn không xóa khoảng trắng ở cuối chuỗi khỏi chuỗi trong triển khai của mình. Mã cập nhật của tôi chạy nhanh hơn so với việc triển khai của bạn với x64 VC ++ 2005 trên Core i7 920 (16,2M ops / s so với 14,8M ops / s), _ltoa thực hiện 8,5M ops / s và sprintf () đạt 3,85M ops / s.

— Eugene Smith

Mã của bạn không thay đổi kích thước chuỗi đúng cách, mã của tôi thì có (xem dòng 81, 198 và 290). Tôi đã sprintfthực hiện một số phím tắt trong quá trình triển khai, tôi đã đề cập đến điều đó trong câu hỏi của mình, nhưng tôi tin rằng mã để đánh bại cho kết quả chính xác giống như chuỗi ký tự.

— Ben Voigt

Tôi cũng đã sửa sprintftrình bao bọc để tránh nhầm lẫn.

— Ben Voigt

BTW, phiên bản cải tiến của bạn ( ideone.com/GLAbS ) đạt 41,7 MB / giây trên Ideone và ngay khoảng 120 MB / giây trên VC ++ 2010 32-bit.

— Ben Voigt

21

À, nhân tiện, thử thách tuyệt vời ... Tôi đã rất vui với điều này.

Tôi có hai thuật toán để gửi (mã ở dưới cùng nếu bạn cảm thấy muốn bỏ qua nó). Trong các so sánh của mình, tôi yêu cầu hàm trả về một chuỗi và nó có thể xử lý int và unsigned int. So sánh những thứ không tạo chuỗi với những thứ không thực sự có ý nghĩa.

Cách đầu tiên là một triển khai thú vị không sử dụng bất kỳ bảng tra cứu tính toán trước nào hoặc phân chia / mô-đun rõ ràng. Cái này cạnh tranh với những cái khác bằng gcc và với tất cả trừ Timo trên msvc (vì một lý do chính đáng mà tôi giải thích bên dưới). Thuật toán thứ hai là trình thực tế của tôi để đạt hiệu suất cao nhất. Trong các thử nghiệm của tôi, nó đánh bại tất cả những người khác trên cả gcc và msvc.

Tôi nghĩ rằng tôi biết tại sao một số kết quả trên MSVC rất tốt. std :: string có hai hàm tạo có liên quan std::string(char* str, size_t n)
và
std::string(ForwardIterator b, ForwardIterator e)
gcc thực hiện điều tương tự cho cả hai ... đó là nó sử dụng hàm thứ hai để triển khai hàm thứ nhất. Hàm tạo đầu tiên có thể được triển khai hiệu quả hơn đáng kể và MSVC làm như vậy. Lợi ích phụ của việc này là trong một số trường hợp (như mã nhanh của tôi và mã của Timo), hàm tạo chuỗi có thể được nội tuyến. Trên thực tế, chỉ cần chuyển đổi giữa các hàm tạo này trong MSVC gần như là sự khác biệt gấp đôi đối với mã của tôi.

Kết quả kiểm tra hiệu suất của tôi:

Nguồn mã:

- Voigt
- Timo
- ergosys
- user434507
- user-voigt-timo
- hopman-fun
- hopman-fast

gcc 4.4.5 -O2 trên Ubuntu 10.10 64-bit, Core i5

hopman_fun: 124,688 MB / giây --- 8,020 giây
hopman_fast: 137,552 MB / giây --- 7,270 giây
voigt: 120,192 MB / giây --- 8,320 giây
user_voigt_timo: 97,9432 MB / giây --- 10,210 giây
timo: 120.482 MB / giây --- 8.300 giây
người dùng: 97,7517 MB / giây --- 10,230 giây
ergosys: 101,42 MB / giây --- 9,860 giây

MSVC 2010 64-bit / Ox trên Windows 7 64-bit, Core i5

hopman_fun: 127 MB / giây --- 7.874 giây
hopman_fast: 259 MB / giây --- 3,861 giây
voigt: 221,435 MB / giây --- 4,516 giây
user_voigt_timo: 195,695 MB / giây --- 5.110 giây
timo: 253.165 MB / giây --- 3.950 giây
người dùng: 212,63 MB / giây --- 4,703 giây
ergosys: 78,0518 MB / giây --- 12,812 giây

Dưới đây là một số kết quả và khuôn khổ kiểm tra / định thời trên Ideone
http://ideone.com/XZRqp
Lưu ý rằng Ideone là môi trường 32 bit. Cả hai thuật toán của tôi đều bị như vậy, nhưng ít nhất hopman_fast vẫn có tính cạnh tranh.

Lưu ý rằng đối với hai hoặc tương tự không tạo chuỗi, tôi đã thêm mẫu hàm sau:

template <typename T>
std::string itostr(T t) {
    std::string ret;
    itostr(t, ret);
    return ret;
}

Bây giờ đối với mã của tôi ... đầu tiên là đoạn thú vị:

    // hopman_fun

template <typename T> 
T reduce2(T v) {
    T k = ((v * 410) >> 12) & 0x000F000F000F000Full;
    return (((v - k * 10) << 8) + k);
}

template <typename T>
T reduce4(T v) {
    T k = ((v * 10486) >> 20) & 0xFF000000FFull;
    return reduce2(((v - k * 100) << 16) + (k));
}

typedef unsigned long long ull;
inline ull reduce8(ull v) {
    ull k = ((v * 3518437209u) >> 45);
    return reduce4(((v - k * 10000) << 32) + (k));
}

template <typename T>
std::string itostr(T o) {
    union {
        char str[16];
        unsigned short u2[8];
        unsigned u4[4];
        unsigned long long u8[2];
    };

    unsigned v = o < 0 ? ~o + 1 : o;

    u8[0] = (ull(v) * 3518437209u) >> 45;
    u8[0] = (u8[0] * 28147497672ull);
    u8[1] = v - u2[3] * 100000000;

    u8[1] = reduce8(u8[1]);
    char* f;
    if (u2[3]) {
        u2[3] = reduce2(u2[3]);
        f = str + 6;
    } else {
        unsigned short* k = u4[2] ? u2 + 4 : u2 + 6;
        f = *k ? (char*)k : (char*)(k + 1);
    }
    if (!*f) f++;

    u4[1] |= 0x30303030;
    u4[2] |= 0x30303030;
    u4[3] |= 0x30303030;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 16) - f);
}

Và sau đó là nhanh:

    // hopman_fast

struct itostr_helper {
    static unsigned out[10000];

    itostr_helper() {
        for (int i = 0; i < 10000; i++) {
            unsigned v = i;
            char * o = (char*)(out + i);
            o[3] = v % 10 + '0';
            o[2] = (v % 100) / 10 + '0';
            o[1] = (v % 1000) / 100 + '0';
            o[0] = (v % 10000) / 1000;
            if (o[0]) o[0] |= 0x30;
            else if (o[1] != '0') o[0] |= 0x20;
            else if (o[2] != '0') o[0] |= 0x10;
            else o[0] |= 0x00;
        }
    }
};
unsigned itostr_helper::out[10000];

itostr_helper hlp_init;

template <typename T>
std::string itostr(T o) {
    typedef itostr_helper hlp;

    unsigned blocks[3], *b = blocks + 2;
    blocks[0] = o < 0 ? ~o + 1 : o;
    blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
    blocks[2] = hlp::out[blocks[2]];

    if (blocks[0]) {
        blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[1] = hlp::out[blocks[1]];
        blocks[2] |= 0x30303030;
        b--;
    }

    if (blocks[0]) {
        blocks[0] = hlp::out[blocks[0] % 10000];
        blocks[1] |= 0x30303030;
        b--;
    }

    char* f = ((char*)b);
    f += 3 - (*f >> 4);

    char* str = (char*)blocks;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 12) - f);
}

— Chris Hopman
nguồn

Đối với những người quan tâm đến cách Hopman-fun công trình nhưng không cảm thấy như đánh đố nó ra, tôi đã tạo ra một phiên bản nhận xét tại ideone.com/rnDxk

— Chris Hopman

Tôi không hiểu cách đầu tiên hoạt động ngay cả với các nhận xét. : D Cái nhanh thật sự rất đẹp, mặc dù nó có giá của nó trong việc sử dụng bộ nhớ. Nhưng tôi đoán 40kB vẫn có thể chấp nhận được. Tôi thực sự đã sửa đổi mã của riêng mình để sử dụng 4 nhóm ký tự và có tốc độ tương tự. Ideone.com/KbTFe

— Timo

Có khó sửa đổi nó để hoạt động với uint64_t không? Tôi đã chuyển mã này sang C và thay thế 'T' bằng kiểu int và nó hoạt động, nhưng nó không hoạt động với uint64_t và tôi không có manh mối về cách tùy chỉnh nó.

— pbn

11

Dữ liệu điểm chuẩn cho mã được cung cấp trong câu hỏi:

Trên Ideone (gcc 4.3.4):

stringstreams: 4,4 MB / s
sprintf: 25.0 MB / s
của tôi (Ben Voigt) : 55,8 MB / s
Timo : 58,5 MB / s
user434507 : 199 MB / s
Lai Ben-Timo-507 của user434507 : 263 MB / s

Core i7, Windows 7 64-bit, RAM 8 GB, Visual C ++ 2010 32-bit:

cl /Ox /EHsc

stringstreams: 3,39 MB / s, 3,67 MB / s
sprintf: 16,8 MB / s, 16,2 MB / s
của tôi: 194 MB / s, 207 MB / s (bật PGO: 250 MB / s)

Core i7, Windows 7 64-bit, RAM 8 GB, Visual C ++ 2010 64-bit:

cl /Ox /EHsc

stringstreams: 4,42 MB / s, 4,92 MB / s
sprintf: 21,0 MB / s, 20,8 MB / s
của tôi: 238 MB / s, 228 MB / s

Core i7, Windows 7 64-bit, RAM 8 GB, cygwin gcc 4.3.4:

g++ -O3

stringstreams: 2,19 MB / s, 2,17 MB / s
sprintf: 13,1 MB / s, 13,4 MB / s
của tôi: 30,0 MB / s, 30,2 MB / s

chỉnh sửa : Tôi đã định thêm câu trả lời của riêng mình, nhưng câu hỏi đã bị đóng nên tôi sẽ thêm nó vào đây. :) Tôi đã viết thuật toán của riêng mình và tìm cách cải thiện đáng kể mã của Ben, mặc dù tôi chỉ thử nghiệm nó trong MSVC 2010. Tôi cũng đã thực hiện một điểm chuẩn của tất cả các triển khai được trình bày cho đến nay, sử dụng cùng một thiết lập thử nghiệm trong bản gốc của Ben mã. - Timo

Intel Q9450, Win XP 32bit, MSVC 2010

cl /O2 /EHsc

stringstream: 2,87 MB / s
sprintf: 16,1 MB / s
Ben: 202 MB / s
Ben (bộ đệm không dấu): 82,0 MB / s
ergosys (phiên bản cập nhật): 64,2 MB / s
user434507: 172 MB / s
Timo: 241 MB / s

-

const char digit_pairs[201] = {
  "00010203040506070809"
  "10111213141516171819"
  "20212223242526272829"
  "30313233343536373839"
  "40414243444546474849"
  "50515253545556575859"
  "60616263646566676869"
  "70717273747576777879"
  "80818283848586878889"
  "90919293949596979899"
};

static const int BUFFER_SIZE = 11;

std::string itostr(int val)
{
  char buf[BUFFER_SIZE];
  char *it = &buf[BUFFER_SIZE-2];

  if(val>=0) {
    int div = val/100;
    while(div) {
      memcpy(it,&digit_pairs[2*(val-div*100)],2);
      val = div;
      it-=2;
      div = val/100;
    }
    memcpy(it,&digit_pairs[2*val],2);
    if(val<10)
      it++;
  } else {
    int div = val/100;
    while(div) {
      memcpy(it,&digit_pairs[-2*(val-div*100)],2);
      val = div;
      it-=2;
      div = val/100;
    }
    memcpy(it,&digit_pairs[-2*val],2);
    if(val<=-10)
      it--;
    *it = '-';
  }

  return std::string(it,&buf[BUFFER_SIZE]-it);
}

std::string itostr(unsigned int val)
{
  char buf[BUFFER_SIZE];
  char *it = (char*)&buf[BUFFER_SIZE-2];

  int div = val/100;
  while(div) {
    memcpy(it,&digit_pairs[2*(val-div*100)],2);
    val = div;
    it-=2;
    div = val/100;
  }
  memcpy(it,&digit_pairs[2*val],2);
  if(val<10)
    it++;

  return std::string((char*)it,(char*)&buf[BUFFER_SIZE]-(char*)it);
}

— Timo
nguồn

cảm ơn vì những thông tin này, vui lòng giải thích về tốc độ gcc! nó rất thấp :(

— Behrouz.M

@Behrouz: Thật vậy. Tôi không chắc chính xác tại sao gcc lại chậm như vậy, cho dù đó là phiên bản của gcc std::stringhay mã số học được tối ưu hóa kém. Tôi sẽ tạo một phiên bản khác không chuyển đổi thành std::stringở cuối và xem liệu gcc có tốt hơn không.

— Ben Voigt

@Timo: Rất tuyệt. Tôi không thực sự mong đợi sự thay đổi đối với bộ đệm không dấu sẽ giúp với VC ++, vốn đã khá nhanh, vì vậy nó chỉ có thể áp dụng cho gcc và bây giờ user434507 đã cung cấp một phiên bản tốt hơn ở đó.

— Ben Voigt

Tôi nghĩ bạn nên thêm phiên bản không chuyển đổi thành std :: string. Chỉ cần thay đổi một dòng mã, chức năng sẽ chạy trong một nửa thời gian trên máy của tôi, sử dụng GCC. Và bằng cách loại bỏ chuỗi std :: mọi người sẽ có thể sử dụng hàm này trong các chương trình C.

— dùng1593842

11

Mặc dù thông tin chúng tôi nhận được ở đây cho các thuật toán là khá tốt, nhưng tôi nghĩ rằng câu hỏi là "bị hỏng" và tôi sẽ giải thích lý do tại sao tôi nghĩ như vậy:

Câu hỏi yêu cầu tính đến hiệu suất của int-> std::stringchuyển đổi và điều này có thể được quan tâm khi so sánh một phương pháp thường có sẵn, chẳng hạn như triển khai chuỗi chuỗi khác nhau hoặc boost :: lexical_cast. Tuy nhiên, nó không có ý nghĩa khi yêu cầu mã mới , một thuật toán chuyên biệt, để làm điều này. Lý do là int2string sẽ luôn liên quan đến phân bổ heap từ std :: string và nếu chúng ta đang cố gắng rút ngắn thuật toán chuyển đổi cuối cùng của mình, tôi không nghĩ rằng việc kết hợp các phép đo này với phân bổ heap được thực hiện bởi std: :chuỗi. Nếu tôi muốn chuyển đổi hiệu quả, tôi sẽ luôn sử dụng bộ đệm có kích thước cố định và chắc chắn không bao giờ phân bổ bất cứ thứ gì trên heap!

Tóm lại, tôi nghĩ thời gian nên được chia nhỏ:

Đầu tiên, chuyển đổi (int -> bộ đệm cố định) nhanh nhất.
Thứ hai, thời gian của (bộ đệm cố định -> std :: string) sao chép.
Thứ ba, kiểm tra cách phân bổ chuỗi std :: có thể được sử dụng trực tiếp làm bộ đệm, để lưu bản sao.

Không nên trộn lẫn những khía cạnh này trong một thời điểm, IMHO.

— Martin Ba
nguồn

3

<quote> int2string sẽ luôn liên quan đến phân bổ heap từ std :: string </quote> Không phải với tối ưu hóa chuỗi nhỏ, có trong hầu hết các triển khai hiện tại của Thư viện chuẩn.

— Ben Voigt

Tuy nhiên, cuối cùng, std::stringyêu cầu "đầu ra là " được đặt ở đó chỉ để làm cho mọi thứ trở nên công bằng và nhất quán cho tất cả các lần gửi. Các thuật toán nhanh hơn để tạo ra std::stringkết quả cũng sẽ nhanh hơn để lấp đầy bộ đệm được phân bổ trước.

— Ben Voigt

3

@Ben - ý kiến tốt. Esp. sm.str.opt. là điều tôi sẽ phải nhớ trong tương lai khi đánh giá hiệu suất std.string.

— Martin Ba

6

Tôi không thể kiểm tra theo VS, nhưng điều này có vẻ nhanh hơn mã của bạn cho g ++, khoảng 10%. Nó có thể được điều chỉnh, các giá trị quyết định được chọn là phỏng đoán. int only, xin lỗi.

typedef unsigned buf_t; 

static buf_t * reduce(unsigned val, buf_t * stp) {
   unsigned above = val / 10000; 
   if (above != 0) {
      stp = reduce(above, stp); 
      val -= above * 10000; 
   }

   buf_t digit  = val / 1000; 
   *stp++ = digit + '0'; 
   val -= digit * 1000; 

   digit  = val / 100; 
   *stp++ = digit + '0'; 
   val -= digit * 100; 

   digit  = val / 10; 
   *stp++ = digit + '0'; 
   val -= digit * 10; 
   *stp++ = val + '0'; 
   return stp; 
}

std::string itostr(int input) {

   buf_t buf[16]; 


   if(input == INT_MIN) {  
      char buf2[16]; 
      std::sprintf(buf2, "%d", input); 
      return std::string(buf2); 
   }

   // handle negative
   unsigned val = input;
   if(input < 0) 
      val = -input;

   buf[0] = '0'; 
   buf_t* endp = reduce(val, buf+1); 
   *endp = 127; 

   buf_t * stp = buf+1; 
   while (*stp == '0') 
      stp++;
   if (stp == endp)
      stp--; 

   if (input < 0) { 
      stp--; 
      *stp = '-'; 
   }
   return std::string(stp, endp); 
}

— ergosys
nguồn

Với biến thể không dấu: Ideone.com/pswq9 . Có vẻ như việc thay đổi loại bộ đệm từ charsang unsignedtạo ra sự cải thiện tốc độ tương tự trong mã của tôi, ít nhất là trên gcc / ideone ideone.com/uthKK . Tôi sẽ kiểm tra trên VS vào ngày mai.

— Ben Voigt

6

Đã cập nhật câu trả lời của người dùng2985907 ... modp_ufast ...

Integer To String Test (Type 1)
[modp_ufast]Numbers: 240000000  Total:   657777786      Time:  1.1633sec        Rate:206308473.0686nums/sec
[sprintf] Numbers: 240000000    Total:   657777786      Time: 24.3629sec        Rate:  9851045.8556nums/sec
[karma]   Numbers: 240000000    Total:   657777786      Time:  5.2389sec        Rate: 45810870.7171nums/sec
[strtk]   Numbers: 240000000    Total:   657777786      Time:  3.3126sec        Rate: 72450283.7492nums/sec
[so   ]   Numbers: 240000000    Total:   657777786      Time:  3.0828sec        Rate: 77852152.8820nums/sec
[timo ]   Numbers: 240000000    Total:   657777786      Time:  4.7349sec        Rate: 50687912.9889nums/sec
[voigt]   Numbers: 240000000    Total:   657777786      Time:  5.1689sec        Rate: 46431985.1142nums/sec
[hopman]  Numbers: 240000000    Total:   657777786      Time:  4.6169sec        Rate: 51982554.6497nums/sec
Press any key to continue . . .

Integer To String Test(Type 2)
[modp_ufast]Numbers: 240000000  Total:   660000000      Time:  0.5072sec        Rate:473162716.4618nums/sec
[sprintf] Numbers: 240000000    Total:   660000000      Time: 22.3483sec        Rate: 10739062.9383nums/sec
[karma]   Numbers: 240000000    Total:   660000000      Time:  4.2471sec        Rate: 56509024.3035nums/sec
[strtk]   Numbers: 240000000    Total:   660000000      Time:  2.1683sec        Rate:110683636.7123nums/sec
[so   ]   Numbers: 240000000    Total:   660000000      Time:  2.7133sec        Rate: 88454602.1423nums/sec
[timo ]   Numbers: 240000000    Total:   660000000      Time:  2.8030sec        Rate: 85623453.3872nums/sec
[voigt]   Numbers: 240000000    Total:   660000000      Time:  3.4019sec        Rate: 70549286.7776nums/sec
[hopman]  Numbers: 240000000    Total:   660000000      Time:  2.7849sec        Rate: 86178023.8743nums/sec
Press any key to continue . . .

Integer To String Test (type 3)
[modp_ufast]Numbers: 240000000  Total:   505625000      Time:  1.6482sec        Rate:145610315.7819nums/sec
[sprintf] Numbers: 240000000    Total:   505625000      Time: 20.7064sec        Rate: 11590618.6109nums/sec
[karma]   Numbers: 240000000    Total:   505625000      Time:  4.3036sec        Rate: 55767734.3570nums/sec
[strtk]   Numbers: 240000000    Total:   505625000      Time:  2.9297sec        Rate: 81919227.9275nums/sec
[so   ]   Numbers: 240000000    Total:   505625000      Time:  3.0278sec        Rate: 79266003.8158nums/sec
[timo ]   Numbers: 240000000    Total:   505625000      Time:  4.0631sec        Rate: 59068204.3266nums/sec
[voigt]   Numbers: 240000000    Total:   505625000      Time:  4.5616sec        Rate: 52613393.0285nums/sec
[hopman]  Numbers: 240000000    Total:   505625000      Time:  4.1248sec        Rate: 58184194.4569nums/sec
Press any key to continue . . .

int ufast_utoa10(unsigned int value, char* str)
{
#define JOIN(N) N "0", N "1", N "2", N "3", N "4", N "5", N "6", N "7", N "8", N "9"
#define JOIN2(N) JOIN(N "0"), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN3(N) JOIN2(N "0"), JOIN2(N "1"), JOIN2(N "2"), JOIN2(N "3"), JOIN2(N "4"), \
                 JOIN2(N "5"), JOIN2(N "6"), JOIN2(N "7"), JOIN2(N "8"), JOIN2(N "9")
#define JOIN4    JOIN3("0"), JOIN3("1"), JOIN3("2"), JOIN3("3"), JOIN3("4"), \
                 JOIN3("5"), JOIN3("6"), JOIN3("7"), JOIN3("8"), JOIN3("9")
#define JOIN5(N) JOIN(N), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN6    JOIN5(), JOIN5("1"), JOIN5("2"), JOIN5("3"), JOIN5("4"), \
                 JOIN5("5"), JOIN5("6"), JOIN5("7"), JOIN5("8"), JOIN5("9")
#define F(N)     ((N) >= 100 ? 3 : (N) >= 10 ? 2 : 1)
#define F10(N)   F(N),F(N+1),F(N+2),F(N+3),F(N+4),F(N+5),F(N+6),F(N+7),F(N+8),F(N+9)
#define F100(N)  F10(N),F10(N+10),F10(N+20),F10(N+30),F10(N+40),\
                 F10(N+50),F10(N+60),F10(N+70),F10(N+80),F10(N+90)
  static const short offsets[] = { F100(0), F100(100), F100(200), F100(300), F100(400),
                                  F100(500), F100(600), F100(700), F100(800), F100(900)};
  static const char table1[][4] = { JOIN("") }; 
  static const char table2[][4] = { JOIN2("") }; 
  static const char table3[][4] = { JOIN3("") };
  static const char table4[][5] = { JOIN4 }; 
  static const char table5[][4] = { JOIN6 };
#undef JOIN
#undef JOIN2
#undef JOIN3
#undef JOIN4
  char *wstr;
  int remains[2];
  unsigned int v2;
  if (value >= 100000000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    v2 = value / 10000;
    remains[1] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
    }
    *(__int32 *) wstr = *(__int32 *) table4[remains[1]];
    wstr += 4;
    *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
    wstr += 4;
    *wstr = 0;
    return (wstr - str);
  }
  else if (value >= 10000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return 8;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return (wstr - str);
    }
  }
  else {
    if (value >= 1000) {
      *(__int32 *) str = *(__int32 *) table4[value];
      str += 4;
      *str = 0;
      return 4;
    } else if (value >= 100) {
      *(__int32 *) str = *(__int32 *) table3[value];
      return 3;
    } else if (value >= 10) {
      *(__int16 *) str = *(__int16 *) table2[value];
      str += 2;
      *str = 0;
      return 2;
    } else {
      *(__int16 *) str = *(__int16 *) table1[value];
      return 1;
    }
  }
}

int ufast_itoa10(int value, char* str) {
  if (value < 0) { *(str++) = '-'; 
    return ufast_utoa10(-value, str) + 1; 
  }
  else return ufast_utoa10(value, str);
}


    void ufast_test() {

   print_mode("[modp_ufast]");

   std::string s;
   s.reserve(32);
   std::size_t total_length = 0;
   strtk::util::timer t;
   t.start();

   char buf[128];
   int len;
   for (int i = (-max_i2s / 2); i < (max_i2s / 2); ++i)
   {
      #ifdef enable_test_type01
      s.resize(ufast_itoa10(((i & 1) ? i : -i), const_cast<char*>(s.c_str())));
      total_length += s.size();
      #endif

      #ifdef enable_test_type02
      s.resize(ufast_itoa10(max_i2s + i, const_cast<char*>(s.c_str())));
      total_length += s.size();
      #endif

      #ifdef enable_test_type03
      s.resize(ufast_itoa10(randval[(max_i2s + i) & 1023], const_cast<char*>(s.c_str())));
      total_length += s.size();
      #endif
   }
   t.stop();
   printf("Numbers:%10lu\tTotal:%12lu\tTime:%8.4fsec\tRate:%14.4fnums/sec\n",
          static_cast<unsigned long>(3 * max_i2s),
          static_cast<unsigned long>(total_length),
          t.time(),
          (3.0 * max_i2s) / t.time());
}

— người dùng2985907
nguồn

4

Bạn không bao giờ đặt nó vào chuỗi. Ngoài ra, tôi không biết tại sao kết quả của bạn cho mã của những người khác quá thấp, CPU của bạn không chậm.

— Ben Voigt

modp_ufast có lỗi, nó trả về 10 thay vì 1000000, 19 thay vì 1090000, v.v., cho đến 11000000.

— Denis Zaikin

Ufast được sửa đổi trả về giá trị không hợp lệ (bị dừng sau một vài lỗi).

Mismatch found: Generated: -99 Reference: -9099999  Mismatch found: Generated: -99 Reference: -9099998  Mismatch found: Generated: -99 Reference: -9099997

— Waldemar

Có một phiên bản di động hơn với các điểm chuẩn có sẵn tại đây: github.com/fmtlib/format-benchmark/blob/master/src/u2985907.h

— vitaut

2

Đây là nỗ lực nhỏ của tôi về câu đố vui nhộn này.

Thay vì sử dụng bảng tra cứu, tôi muốn trình biên dịch tìm ra tất cả. Đặc biệt trong trường hợp này - nếu bạn đọc Hackers 'Delight, bạn sẽ thấy cách phân chia và mô-đun hoạt động - điều này giúp bạn rất có thể tối ưu hóa điều đó bằng cách sử dụng hướng dẫn SSE / AVX.

Chuẩn hiệu suất

Về tốc độ, điểm chuẩn của tôi ở đây cho tôi biết nó nhanh hơn 1,5 lần so với công việc của Timo (trên Intel Haswell của tôi, nó chạy trên khoảng 1 GB / s).

Những điều bạn có thể coi là gian lận

Đối với cheat not-make-a-std-string mà tôi sử dụng - tất nhiên tôi cũng đã cân nhắc điều đó để làm điểm chuẩn cho phương pháp của Timo.

Tôi sử dụng nội tại: BSR. Nếu bạn thích, bạn cũng có thể sử dụng bảng DeBruijn thay thế - đó là một trong những điều tôi đã viết khá nhiều về bài đăng '2log nhanh nhất' của mình. Tất nhiên, điều này có một hình phạt hiệu suất (* tốt ... nếu bạn đang thực hiện nhiều thao tác itoa, bạn thực sự có thể tạo ra một BSR nhanh hơn nhưng tôi đoán điều đó không công bằng ...).

Cách nó hoạt động

Điều đầu tiên cần làm là tìm ra dung lượng bộ nhớ chúng ta cần. Về cơ bản, đây là một 10log, có thể được thực hiện theo một số cách thông minh. Xem " Bit Twiddling Hacks " thường được trích dẫn để biết chi tiết.

Điều tiếp theo cần làm là thực hiện đầu ra số. Tôi sử dụng đệ quy mẫu cho việc này, vì vậy trình biên dịch sẽ tìm ra nó.

Tôi sử dụng 'modulo' và 'div' ngay cạnh nhau. Nếu bạn đọc Hacker's Delight, bạn sẽ nhận thấy rằng cả hai có liên quan chặt chẽ với nhau, vì vậy nếu bạn có một câu trả lời, có thể bạn cũng có câu trả lời kia. Tôi đã tìm ra trình biên dịch có thể tìm ra chi tiết ... :-)

Mật mã

Lấy số chữ số bằng nhật ký (đã sửa đổi )10:

struct logarithm
{
    static inline int log2(unsigned int value)
    {
        unsigned long index;
        if (!_BitScanReverse(&index, value))
        {
            return 0;
        }

        // add 1 if x is NOT a power of 2 (to do the ceil)
        return index + (value&(value - 1) ? 1 : 0);
    }

    static inline int numberDigits(unsigned int v)
    {
        static unsigned int const PowersOf10[] =
        { 0, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000, 1000000000 };

        int t = (logarithm::log2(v) + 1) * 1233 >> 12; // (use a lg2 method from above)
        return 1 + t - (v < PowersOf10[t]);
    }
};

Lấy cho mình chuỗi:

template <int count>
struct WriteHelper
{
    inline static void WriteChar(char* buf, unsigned int value)
    {
        unsigned int div = value / 10;
        unsigned int rem = value % 10;
        buf[count - 1] = rem + '0';

        WriteHelper<count - 1>::WriteChar(buf, div);
    }
};

template <>
struct WriteHelper<1>
{
    inline static void WriteChar(char* buf, unsigned int value) 
    {
        buf[0] = '0' + value;
    }
};

// Boring code that converts a length into a switch.
// TODO: Test if recursion with an 'if' is faster.
static inline void WriteNumber(char* data, int len, unsigned int val) 
{
    switch (len) {
    case 1:
        WriteHelper<1>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 2:
        WriteHelper<2>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 3:
        WriteHelper<3>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 4:
        WriteHelper<4>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 5:
        WriteHelper<5>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 6:
        WriteHelper<6>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 7:
        WriteHelper<7>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 8:
        WriteHelper<8>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 9:
        WriteHelper<9>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    case 10:
        WriteHelper<10>::WriteChar(data, static_cast<unsigned int>(val));
        break;
    }
}

// The main method you want to call...
static int Write(char* data, int val) 
{
    int len;
    if (val >= 0) 
    {
        len = logarithm::numberDigits(val);
        WriteNumber(data, len, unsigned int(val));
        return len;
    }
    else 
    {
        unsigned int v(-val);
        len = logarithm::numberDigits(v);
        WriteNumber(data+1, len, v);
        data[0] = '-';
        return len + 1;
    }
}

— không vui
nguồn

Thật thú vị, gần đây tôi đã tặng một bản sao của Hacker's Delight cho một đồng nghiệp. Bất kỳ phần cụ thể? Tất nhiên, hãy lưu ý rằng modulo và div, mặc dù cả hai đều được trả về từ một lệnh chia duy nhất, sẽ không được lấy theo cách đó, bởi vì phép chia cho một hằng số được thực hiện nhanh hơn nhiều bằng cách sử dụng phần cứng nhân hơn phép chia.

— Ben Voigt

@BenVoigt thực sự nếu bạn chạy 'remove' trên VS2013, bạn sẽ nhận được chính xác mã mà bạn mong đợi sau khi đọc H thích thú. Chương bạn đang tìm là chương 10.

— atlaste

Vâng, đó là cách triển khai sử dụng nhân phần cứng mà tôi đã đề cập đến.

— Ben Voigt

@BenVoigt Tất nhiên, đó là ý của tôi. Cả modulo và nhân (theo hằng số) đều sử dụng cùng một số ma thuật, shift (arith và normal). Giả định của tôi ở đây là trình biên dịch có thể tìm ra nó đang phát ra các lệnh giống nhau nhiều lần và tối ưu hóa điều đó - và vì tất cả các hoạt động đều có thể được vector hóa, nên nó cũng có thể tìm ra điều đó (hãy gọi đó là một phần thưởng :-). Quan điểm của tôi với niềm vui của H là nếu bạn biết cách các phép toán này được biên dịch (nhân số nguyên, dịch chuyển), bạn có thể đưa ra những giả định này.

— atlaste

2

Tôi đã ngồi quanh đây một lúc và cuối cùng đã đăng nó lên.

Thêm một số phương pháp so với từ kép tại một thời điểm hopman_fast . Kết quả dành cho chuỗi std :: string ngắn được tối ưu hóa của GCC vì nếu không thì sự khác biệt về hiệu suất bị che khuất bởi phần đầu của mã quản lý chuỗi sao chép-ghi. Thông lượng được đo theo cách tương tự như ở những nơi khác trong chủ đề này, số chu kỳ dành cho các phần tuần tự hóa thô của mã trước khi sao chép bộ đệm đầu ra thành một chuỗi.

HOPMAN_FAST - performance reference  
TM_CPP, TM_VEC - scalar and vector versions of Terje Mathisen algorithm  
WM_VEC - intrinsics implementation of Wojciech Mula's vector algorithm  
AK_BW - word-at-a-time routine with a jump table that fills a buffer in reverse  
AK_FW - forward-stepping word-at-a-time routine with a jump table in assembly  
AK_UNROLLED - generic word-at-a-time routine that uses an unrolled loop

Thông lượng

Nguyên giá

Chuyển đổi thời gian biên dịch:

-DVSTRING - bật các chuỗi SSO cho các thiết lập GCC cũ hơn
-DBSR1 - cho phép
ghi nhật ký nhanh10 -DRDTSC - cho phép bộ đếm chu kỳ

#include <cstdio>
#include <iostream>
#include <climits>
#include <sstream>
#include <algorithm>
#include <cstring>
#include <limits>
#include <ctime>
#include <stdint.h>
#include <x86intrin.h>

/* Uncomment to run */
// #define HOPMAN_FAST
// #define TM_CPP
// #define TM_VEC
// #define WM_VEC
// #define AK_UNROLLED
// #define AK_BW
// #define AK_FW

using namespace std;
#ifdef VSTRING
#include <ext/vstring.h>
typedef __gnu_cxx::__vstring string_type;
#else
typedef string string_type;
#endif

namespace detail {

#ifdef __GNUC__
#define ALIGN(N) __attribute__ ((aligned(N)))
#define PACK __attribute__ ((packed))
  inline size_t num_digits(unsigned u) {
    struct {
      uint32_t count;
      uint32_t max;
    } static digits[32] ALIGN(64) = {
    { 1, 9 }, { 1, 9 }, { 1, 9 }, { 1, 9 },
    { 2, 99 }, { 2, 99 }, { 2, 99 },
    { 3, 999 }, { 3, 999 }, { 3, 999 },
    { 4, 9999 }, { 4, 9999 }, { 4, 9999 }, { 4, 9999 },
    { 5, 99999 }, { 5, 99999 }, { 5, 99999 },
    { 6, 999999 }, { 6, 999999 }, { 6, 999999 },
    { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 },
    { 8, 99999999 }, { 8, 99999999 }, { 8, 99999999 },
    { 9, 999999999 }, { 9, 999999999 }, { 9, 999999999 },
    { 10, UINT_MAX }, { 10, UINT_MAX }
    };
#if (defined(i386) || defined(__x86_64__)) && (defined(BSR1) || defined(BSR2))
    size_t l = u;
#if defined(BSR1)
    __asm__ __volatile__ (
      "bsrl %k0, %k0    \n\t"
      "shlq $32, %q1    \n\t" 
      "movq %c2(,%0,8), %0\n\t" 
      "cmpq %0, %q1     \n\t"
      "seta %b1         \n\t"
      "addl %1, %k0     \n\t"
      : "+r" (l), "+r"(u)
      : "i"(digits)
      : "cc"
    );
    return l;
#else
    __asm__ __volatile__ ( "bsr %0, %0;"  : "+r" (l) );
    return digits[l].count + ( u > digits[l].max );
#endif
#else
    size_t l = (u != 0) ? 31 - __builtin_clz(u) : 0;
    return digits[l].count + ( u > digits[l].max );
#endif 
  }
#else 
  inline unsigned msb_u32(unsigned x) {
    static const unsigned bval[] = { 0,1,2,2,3,3,3,3,4,4,4,4,4,4,4,4 };
    unsigned base = 0;
    if (x & (unsigned) 0xFFFF0000) { base += 32/2; x >>= 32/2; }
    if (x & (unsigned) 0x0000FF00) { base += 32/4; x >>= 32/4; }
    if (x & (unsigned) 0x000000F0) { base += 32/8; x >>= 32/8; }
    return base + bval[x];
  }

  inline size_t num_digits(unsigned x) {
    static const unsigned powertable[] = {
  0,10,100,1000,10000,100000,1000000,10000000,100000000, 1000000000 };
    size_t lg_ten = msb_u32(x) * 1233 >> 12;
    size_t adjust = (x >= powertable[lg_ten]);
    return lg_ten + adjust;
  }
#endif /* __GNUC__ */

  struct CharBuffer {
    class reverse_iterator : public iterator<random_access_iterator_tag, char> {
        char* m_p;
      public:
        reverse_iterator(char* p) : m_p(p - 1) {}
        reverse_iterator operator++() { return --m_p; }
        reverse_iterator operator++(int) { return m_p--; }
        char operator*() const { return *m_p; }
        bool operator==( reverse_iterator it) const { return m_p == it.m_p; }
        bool operator!=( reverse_iterator it) const { return m_p != it.m_p; }
        difference_type operator-( reverse_iterator it) const { return it.m_p - m_p; }
    };
  };

  union PairTable {
    char c[2];
    unsigned short u;
  } PACK table[100] ALIGN(1024) = {
    {{'0','0'}},{{'0','1'}},{{'0','2'}},{{'0','3'}},{{'0','4'}},{{'0','5'}},{{'0','6'}},{{'0','7'}},{{'0','8'}},{{'0','9'}},
    {{'1','0'}},{{'1','1'}},{{'1','2'}},{{'1','3'}},{{'1','4'}},{{'1','5'}},{{'1','6'}},{{'1','7'}},{{'1','8'}},{{'1','9'}},
    {{'2','0'}},{{'2','1'}},{{'2','2'}},{{'2','3'}},{{'2','4'}},{{'2','5'}},{{'2','6'}},{{'2','7'}},{{'2','8'}},{{'2','9'}},
    {{'3','0'}},{{'3','1'}},{{'3','2'}},{{'3','3'}},{{'3','4'}},{{'3','5'}},{{'3','6'}},{{'3','7'}},{{'3','8'}},{{'3','9'}},
    {{'4','0'}},{{'4','1'}},{{'4','2'}},{{'4','3'}},{{'4','4'}},{{'4','5'}},{{'4','6'}},{{'4','7'}},{{'4','8'}},{{'4','9'}},
    {{'5','0'}},{{'5','1'}},{{'5','2'}},{{'5','3'}},{{'5','4'}},{{'5','5'}},{{'5','6'}},{{'5','7'}},{{'5','8'}},{{'5','9'}},
    {{'6','0'}},{{'6','1'}},{{'6','2'}},{{'6','3'}},{{'6','4'}},{{'6','5'}},{{'6','6'}},{{'6','7'}},{{'6','8'}},{{'6','9'}},
    {{'7','0'}},{{'7','1'}},{{'7','2'}},{{'7','3'}},{{'7','4'}},{{'7','5'}},{{'7','6'}},{{'7','7'}},{{'7','8'}},{{'7','9'}},
    {{'8','0'}},{{'8','1'}},{{'8','2'}},{{'8','3'}},{{'8','4'}},{{'8','5'}},{{'8','6'}},{{'8','7'}},{{'8','8'}},{{'8','9'}},
    {{'9','0'}},{{'9','1'}},{{'9','2'}},{{'9','3'}},{{'9','4'}},{{'9','5'}},{{'9','6'}},{{'9','7'}},{{'9','8'}},{{'9','9'}}
  };
} // namespace detail

struct progress_timer {
    clock_t c;
    progress_timer() : c(clock()) {}
    int elapsed() { return clock() - c; }
    ~progress_timer() {
        clock_t d = clock() - c;
        cout << d / CLOCKS_PER_SEC << "."
            << (((d * 1000) / CLOCKS_PER_SEC) % 1000 / 100)
            << (((d * 1000) / CLOCKS_PER_SEC) % 100 / 10)
            << (((d * 1000) / CLOCKS_PER_SEC) % 10)
            << " s" << endl;
    }
};

#ifdef HOPMAN_FAST
namespace hopman_fast {

    static unsigned long cpu_cycles = 0;

    struct itostr_helper {
        static ALIGN(1024) unsigned out[10000];

        itostr_helper() {
            for (int i = 0; i < 10000; i++) {
                unsigned v = i;
                char * o = (char*)(out + i);
                o[3] = v % 10 + '0';
                o[2] = (v % 100) / 10 + '0';
                o[1] = (v % 1000) / 100 + '0';
                o[0] = (v % 10000) / 1000;
                if (o[0]) o[0] |= 0x30;
                else if (o[1] != '0') o[0] |= 0x20;
                else if (o[2] != '0') o[0] |= 0x10;
                else o[0] |= 0x00;
            }
        }
    };
    unsigned itostr_helper::out[10000];

    itostr_helper hlp_init;

    template <typename T>
    string_type itostr(T o) {
        typedef itostr_helper hlp;
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        unsigned blocks[3], *b = blocks + 2;
        blocks[0] = o < 0 ? ~o + 1 : o;
        blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[2] = hlp::out[blocks[2]];

        if (blocks[0]) {
            blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
            blocks[1] = hlp::out[blocks[1]];
            blocks[2] |= 0x30303030;
            b--;
        }

        if (blocks[0]) {
            blocks[0] = hlp::out[blocks[0] % 10000];
            blocks[1] |= 0x30303030;
            b--;
        }

        char* f = ((char*)b);
        f += 3 - (*f >> 4);

        char* str = (char*)blocks;
        if (o < 0) *--f = '-';

        str += 12;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(f, str);
    }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
}
#endif

namespace ak {
#ifdef AK_UNROLLED
  namespace unrolled {
    static unsigned long cpu_cycles = 0;

    template <typename value_type> class Proxy {
      static const size_t MaxValueSize = 16;

      static inline char* generate(int value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value < 0 ? unsigned(~value) + 1 : value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        *(b.pc -= (u >= 10)) = '-';
        return b.pc + (value >= 0);
      }
      static inline char* generate(unsigned value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        return b.pc + (u < 10);
      }
    public:
      static inline string_type convert(value_type v) {
        char buf[MaxValueSize];
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        char* p = generate(v, buf);
        char* e = buf + MaxValueSize;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(p, e);
      }
    };
    string_type itostr(int i) { return Proxy<int>::convert(i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }
  }
#endif

#if defined(AK_BW)
  namespace bw {
    static unsigned long cpu_cycles = 0;
    typedef uint64_t u_type;

    template <typename value_type> class Proxy {

      static inline void generate(unsigned v, size_t len, char* buffer) {
        u_type u = v;
        switch(len) {
        default: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 8) = detail::table[v -= 100 * u].u; 
        case  8: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 6) = detail::table[u -= 100 * v].u; 
        case  6: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 4) = detail::table[v -= 100 * u].u;
        case  4: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 2) = detail::table[u -= 100 * v].u;
        case  2: *(uint16_t*)buffer = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 7) = detail::table[v -= 100 * u].u;
        case  7: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 5) = detail::table[u -= 100 * v].u;
        case  5: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 3) = detail::table[v -= 100 * u].u;
        case  3: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 1) = detail::table[u -= 100 * v].u;
        case  1: *buffer = v + 0x30;
        }
      }
    public:
      static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        size_t len = detail::num_digits(val);
        buf[0] = '-';

        char* e = buf + neg;
        generate(val, len, e);
        e += len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(buf, e);
      }
    };
    string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }
  }
#endif

#if defined(AK_FW)
  namespace fw {
        static unsigned long cpu_cycles = 0;
        typedef uint32_t u_type;
        template <typename value_type> class Proxy {

        static inline void generate(unsigned v, size_t len, char* buffer) {
#if defined(__GNUC__) && defined(__x86_64__)
          uint16_t w;
          uint32_t u;
          __asm__ __volatile__ (
        "jmp %*T%=(,%3,8)       \n\t"
        "T%=: .quad L0%=        \n\t"
        "     .quad L1%=        \n\t"
        "     .quad L2%=        \n\t"
        "     .quad L3%=        \n\t"
        "     .quad L4%=        \n\t"
        "     .quad L5%=        \n\t"
        "     .quad L6%=        \n\t"
        "     .quad L7%=        \n\t"
        "     .quad L8%=        \n\t"
        "     .quad L9%=        \n\t"
        "     .quad L10%=       \n\t"
        "L10%=:         \n\t"
        " imulq $1441151881, %q0, %q1\n\t"
        " shrq $57, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L8%=:          \n\t"
        " imulq $1125899907, %q0, %q1\n\t"
        " shrq $50, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000000, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -8(%4,%3)   \n\t"
        "L6%=:          \n\t"
        " imulq $429497, %q0, %q1   \n\t"
        " shrq $32, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -6(%4,%3)   \n\t"
        "L4%=:          \n\t"
        " imull $167773, %0, %1 \n\t"
        " shrl $24, %1      \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -4(%4,%3)   \n\t"
        "L2%=:          \n\t"
        " movw %c5(,%q0,2), %w2 \n\t"
        " movw %w2, -2(%4,%3)   \n\t"
        "L0%=: jmp 1f       \n\t"
        "L9%=:          \n\t"
        " imulq $1801439851, %q0, %q1\n\t"
        " shrq $54, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L7%=:          \n\t"
        " imulq $43980466, %q0, %q1 \n\t"
        " shrq $42, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000, %1, %1 \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -7(%4,%3)   \n\t"
        "L5%=:          \n\t"
        " imulq $268436, %q0, %q1   \n\t"
        " shrq $28, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -5(%4,%3)   \n\t"
        "L3%=:          \n\t"
        " imull $6554, %0, %1   \n\t"
        " shrl $15, %1      \n\t"
        " andb $254, %b1        \n\t"
        " movw %c5(,%q1), %w2   \n\t"
        " leal (%1,%1,4), %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -3(%4,%3)   \n\t"
        "L1%=:          \n\t"
        " addl $48, %0      \n\t"
        " movb %b0, -1(%4,%3)   \n\t"
        "1:             \n\t"
        : "+r"(v), "=&q"(u), "=&r"(w)
        : "r"(len), "r"(buffer), "i"(detail::table)
        : "memory", "cc"
          ); 
#else
          u_type u;
          switch(len) {
        default: u = (v * 1441151881ULL) >> 57; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 100000000;
        case  8: u = (v * 1125899907ULL) >> 50; *(uint16_t*)(buffer + len - 8) = detail::table[u].u; v -= u * 1000000;
        case  6: u = (v * 429497ULL) >> 32; *(uint16_t*)(buffer + len - 6) = detail::table[u].u; v -= u * 10000;
        case  4: u = (v * 167773) >> 24; *(uint16_t*)(buffer + len - 4) = detail::table[u].u; v -= u * 100;
        case  2: *(uint16_t*)(buffer + len - 2) = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1801439851ULL) >> 54; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 10000000; 
        case  7: u = (v * 43980466ULL) >> 42; *(uint16_t*)(buffer + len - 7) = detail::table[u].u; v -= u * 100000; 
        case  5: u = (v * 268436ULL) >> 28;  *(uint16_t*)(buffer + len - 5) = detail::table[u].u; v -= u * 1000;
        case  3: u = (v * 6554) >> 16; *(uint16_t*)(buffer + len - 3) = detail::table[u].u; v -= u * 10;
        case  1: *(buffer + len - 1) = v + 0x30;
          }
#endif
        }
      public:
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        size_t len = detail::num_digits(val);
        if (neg) buf[0] = '-';
        char* e = buf + len + neg;
        generate(val, len, buf + neg);
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(buf, e);
        }
      };
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
  }
#endif
} // ak

namespace wm {
#ifdef WM_VEC
#if defined(__GNUC__) && defined(__x86_64__)
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

      static inline unsigned generate(unsigned v, char* buf) {
        static struct {
          unsigned short mul_10[8];
          unsigned short div_const[8];
          unsigned short shl_const[8];
          unsigned char  to_ascii[16];
        } ALIGN(64) bits = 
        {
          { // mul_10
           10, 10, 10, 10, 10, 10, 10, 10
          },
          { // div_const
            8389, 5243, 13108, 0x8000, 8389, 5243, 13108, 0x8000
          },
          { // shl_const
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15),
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15)
          },
          { // to_ascii 
            '0', '0', '0', '0', '0', '0', '0', '0',
            '0', '0', '0', '0', '0', '0', '0', '0'
          }
        };
        unsigned x, y, l;
        x = (v * 1374389535ULL) >> 37;
        y = v;
        l = 0;
        if (x) {
          unsigned div = 0xd1b71759;
          unsigned mul = 55536;
          __m128i z, m, a, o;
          y -= 100 * x;
          z = _mm_cvtsi32_si128(x);
          m = _mm_load_si128((__m128i*)bits.mul_10);
          o = _mm_mul_epu32( z, _mm_cvtsi32_si128(div));
          z = _mm_add_epi32( z, _mm_mul_epu32( _mm_cvtsi32_si128(mul), _mm_srli_epi64( o, 45) ) );
          z = _mm_slli_epi64( _mm_shuffle_epi32( _mm_unpacklo_epi16(z, z), 5 ), 2 );
          a = _mm_load_si128((__m128i*)bits.to_ascii);
          z = _mm_mulhi_epu16( _mm_mulhi_epu16( z, *(__m128i*)bits.div_const ), *(__m128i*)bits.shl_const );
          z = _mm_sub_epi16( z, _mm_slli_epi64( _mm_mullo_epi16( m, z ), 16 ) );
          z = _mm_add_epi8( _mm_packus_epi16( z, _mm_xor_si128(o, o) ), a );
          x = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( a, z ) ) );
          l = 8 - x;
          uint64_t q = _mm_cvtsi128_si64(z) >> (x * 8);
          *(uint64_t*)buf = q;
          buf += l;
          x = 1;
        }
        v = (y * 6554) >> 16;
        l += 1 + (x | (v != 0));
            *(unsigned short*)buf = 0x30 + ((l > 1) ? ((0x30 + y - v * 10) << 8) + v : y);
            return l;
        }
      public:
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        buf[0] = '-';
        unsigned len = generate(val, buf + neg);
        char* e = buf + len + neg;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(buf, e);
        }
      };
      inline string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      inline string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
  }
#endif
#endif
} // wm

namespace tmn {

#ifdef TM_CPP
  namespace cpp {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline void generate(unsigned v, char* buffer) {
          unsigned const f1_10000 = (1 << 28) / 10000;
          unsigned tmplo, tmphi;

          unsigned lo = v % 100000;
          unsigned hi = v / 100000;

          tmplo = lo * (f1_10000 + 1) - (lo >> 2);
          tmphi = hi * (f1_10000 + 1) - (hi >> 2);

          unsigned mask = 0x0fffffff;
          unsigned shift = 28;

          for(size_t i = 0; i < 5; i++)
          {
            buffer[i + 0] = '0' + (char)(tmphi >> shift);
            buffer[i + 5] = '0' + (char)(tmplo >> shift);
            tmphi = (tmphi & mask) * 5;
            tmplo = (tmplo & mask) * 5;
            mask >>= 1;
            shift--;
          }
        }
      public:
        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        char buf[16];
        size_t len = detail::num_digits(val);
        char* e = buf + 11;
        generate(val, buf + 1);
        buf[10 - len] = '-';
        len += neg;
        char* b = e - len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(b, e);
        }
      };
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
  }
#endif

#ifdef TM_VEC
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline unsigned generate(unsigned val, char* buffer) {
        static struct {
            unsigned char mul_10[16];
            unsigned char to_ascii[16];
            unsigned char gather[16];
            unsigned char shift[16];
        } ALIGN(64) bits = {
            { 10,0,0,0,10,0,0,0,10,0,0,0,10,0,0,0 },
            { '0','0','0','0','0','0','0','0','0','0','0','0','0','0','0','0' },
            { 3,5,6,7,9,10,11,13,14,15,0,0,0,0,0,0 },
            { 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15 }
        };

        unsigned u = val / 1000000;
        unsigned l = val - u * 1000000;

        __m128i x, h, f, m, n;

        n = _mm_load_si128((__m128i*)bits.mul_10);
        x = _mm_set_epi64x( l, u );
        h = _mm_mul_epu32( x, _mm_set1_epi32(4294968) );
        x = _mm_sub_epi64( x, _mm_srli_epi64( _mm_mullo_epi32( h, _mm_set1_epi32(1000) ), 32 ) );
        f = _mm_set1_epi32((1 << 28) / 1000 + 1);
        m = _mm_srli_epi32( _mm_cmpeq_epi32(m, m), 4 );
        x = _mm_shuffle_epi32( _mm_blend_epi16( x, h, 204 ), 177 );
        f = _mm_sub_epi32( _mm_mullo_epi32(f, x), _mm_srli_epi32(x, 2) );

        h = _mm_load_si128((__m128i*)bits.to_ascii);

        x = _mm_srli_epi32(f, 28);
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 8) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 16) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 24) );

        x = _mm_add_epi8( _mm_shuffle_epi8(x, *(__m128i*)bits.gather), h );
        l = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( h, x ) ) | (1 << 9) );

        x = _mm_shuffle_epi8( x, _mm_add_epi8(*(__m128i*)bits.shift, _mm_set1_epi8(l) ) );

        _mm_store_si128( (__m128i*)buffer, x );
        return 10 - l;
        }

      public:
        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
#endif
        char arena[32];
        char* buf = (char*)((uintptr_t)(arena + 16) & ~(uintptr_t)0xf);
        *(buf - 1)= '-';
        unsigned len = generate(val, buf) + neg;
        buf -= neg;
        char* end = buf + len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
#endif
        return string_type(buf, end);
        }
      };
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
  }
#endif
}

bool fail(string in, string_type out) {
    cout << "failure: " << in << " => " << out << endl;
    return false;
}

#define TEST(x, n) \
    stringstream ss; \
    string_type s = n::itostr(x); \
    ss << (long long)x; \
    if (::strcmp(ss.str().c_str(), s.c_str())) { \
        passed = fail(ss.str(), s); \
        break; \
    }

#define test(x) { \
    passed = true; \
    if (0 && passed) { \
        char c = CHAR_MIN; \
        do { \
            TEST(c, x); \
        } while (c++ != CHAR_MAX); \
        if (!passed) cout << #x << " failed char!!!" << endl; \
    } \
    if (0 && passed) { \
        short c = numeric_limits<short>::min(); \
        do { \
            TEST(c, x); \
        } while (c++ != numeric_limits<short>::max()); \
        if (!passed) cout << #x << " failed short!!!" << endl; \
    } \
    if (passed) { \
        int c = numeric_limits<int>::min(); \
        do { \
            TEST(c, x); \
        } while ((c += 100000) < numeric_limits<int>::max() - 100000); \
        if (!passed) cout << #x << " failed int!!!" << endl; \
    } \
    if (passed) { \
        unsigned c = numeric_limits<unsigned>::max(); \
        do { \
            TEST(c, x); \
        } while ((c -= 100000) > 100000); \
        if (!passed) cout << #x << " failed unsigned int!!!" << endl; \
    } \
}

#define time(x, N) \
if (passed) { \
    static const int64_t limits[] = \
        {0, 10, 100, 1000, 10000, 100000, \
         1000000, 10000000, 100000000, 1000000000, 10000000000ULL }; \
    long passes = 0; \
    cout << #x << ": "; \
    progress_timer t; \
    uint64_t s = 0; \
    if (do_time) { \
        for (int n = 0; n < N1; n++) { \
            int i = 0; \
            while (i < N2) { \
                int v = ((NM - i) % limits[N]) | (limits[N] / 10); \
                int w = x::itostr(v).size() + \
                    x::itostr(-v).size(); \
                i += w * mult; \
                                passes++; \
            } \
            s += i / mult; \
        } \
    } \
    k += s; \
    cout << N << " digits: " \
          << s / double(t.elapsed()) * CLOCKS_PER_SEC/1000000 << " MB/sec, " << (x::cycles() / passes >> 1) << " clocks per pass "; \
    x::reset(); \
}

#define series(n) \
    { if (do_test) test(n);    if (do_time) time(n, 1); if (do_time) time(n, 2); \
      if (do_time) time(n, 3); if (do_time) time(n, 4); if (do_time) time(n, 5); \
      if (do_time) time(n, 6); if (do_time) time(n, 7); if (do_time) time(n, 8); \
      if (do_time) time(n, 9); if (do_time) time(n, 10); }

int N1 = 1, N2 = 500000000, NM = INT_MAX;
int mult = 1; //  used to stay under timelimit on ideone
unsigned long long k = 0;

int main(int argc, char** argv) {
    bool do_time = 1, do_test = 1;
    bool passed = true;
#ifdef HOPMAN_FAST
    series(hopman_fast)
#endif
#ifdef WM_VEC
    series(wm::vec)
#endif
#ifdef TM_CPP
    series(tmn::cpp)
#endif
#ifdef TM_VEC
    series(tmn::vec)
#endif
#ifdef AK_UNROLLED
    series(ak::unrolled)
#endif
#if defined(AK_BW)
    series(ak::bw)
#endif
#if defined(AK_FW)
    series(ak::fw)
#endif
    return k;
}

— Alexander Korobka
nguồn

1

Tôi tin rằng tôi đã tạo ra thuật toán chuyển số nguyên thành chuỗi nhanh nhất. Đó là một biến thể của thuật toán Modulo 100 nhanh hơn khoảng 33% và quan trọng nhất là nó nhanh hơn cho cả số lượng nhỏ và lớn. Nó được gọi là Thuật toán ItoS Script. Để đọc bài báo giải thích cách tôi thiết kế thuật toán @see https://github.com/kabuki-starship/kabuki-toolkit/wiki/Engineering-a-Faster-Integer-to-String-Algorithm . Bạn có thể sử dụng thuật toán nhưng hãy suy nghĩ về việc đóng góp lại cho Kabuki VM và xem Script ; đặc biệt nếu bạn quan tâm đến AMIL-NLP và / hoặc các giao thức mạng do phần mềm xác định.

/** Kabuki Toolkit
    @version 0.x
    @file    ~/source/crabs/print_itos.cc
    @author  Cale McCollough <cale.mccollough@gmail.com>
    @license Copyright (C) 2017-2018 Cale McCollough <calemccollough@gmail.com>;
             All right reserved (R). Licensed under the Apache License, Version 
             2.0 (the "License"); you may not use this file except in 
             compliance with the License. You may obtain a copy of the License 
             [here](http://www.apache.org/licenses/LICENSE-2.0). Unless 
             required by applicable law or agreed to in writing, software 
             distributed under the License is distributed on an "AS IS" BASIS, 
             WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
             implied. See the License for the specific language governing 
             permissions and limitations under the License.
*/

#include <stdafx.h>
#include "print_itos.h"

#if MAJOR_SEAM >= 1 && MINOR_SEAM >= 1

#if MAJOR_SEAM == 1 && MINOR_SEAM == 1
#define DEBUG 1

#define PRINTF(format, ...) printf(format, __VA_ARGS__);
#define PUTCHAR(c) putchar(c);
#define PRINT_PRINTED\
    sprintf_s (buffer, 24, "%u", value); *text_end = 0;\
    printf ("\n    Printed \"%s\" leaving value:\"%s\":%u",\
            begin, buffer, (uint)strlen (buffer));
#define PRINT_BINARY PrintBinary (value);
#define PRINT_BINARY_TABLE PrintBinaryTable (value);
#else
#define PRINTF(x, ...)
#define PUTCHAR(c)
#define PRINT_PRINTED
#define PRINT_BINARY
#define PRINT_BINARY_TABLE
#endif

namespace _ {

void PrintLine (char c) {
    std::cout << '\n';
    for (int i = 80; i > 0; --i) 
        std::cout << c;
}

char* Print (uint32_t value, char* text, char* text_end) {

    // Lookup table for powers of 10.
    static const uint32_t k10ToThe[]{
        1, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000,
        1000000000, ~(uint32_t)0 };

    /** Lookup table of ASCII char pairs for 00, 01, ..., 99.
        To convert this algorithm to big-endian, flip the digit pair bytes. */
    static const uint16_t kDigits00To99[100] = {
        0x3030, 0x3130, 0x3230, 0x3330, 0x3430, 0x3530, 0x3630, 0x3730, 0x3830,
        0x3930, 0x3031, 0x3131, 0x3231, 0x3331, 0x3431, 0x3531, 0x3631, 0x3731,
        0x3831, 0x3931, 0x3032, 0x3132, 0x3232, 0x3332, 0x3432, 0x3532, 0x3632,
        0x3732, 0x3832, 0x3932, 0x3033, 0x3133, 0x3233, 0x3333, 0x3433, 0x3533,
        0x3633, 0x3733, 0x3833, 0x3933, 0x3034, 0x3134, 0x3234, 0x3334, 0x3434,
        0x3534, 0x3634, 0x3734, 0x3834, 0x3934, 0x3035, 0x3135, 0x3235, 0x3335,
        0x3435, 0x3535, 0x3635, 0x3735, 0x3835, 0x3935, 0x3036, 0x3136, 0x3236,
        0x3336, 0x3436, 0x3536, 0x3636, 0x3736, 0x3836, 0x3936, 0x3037, 0x3137,
        0x3237, 0x3337, 0x3437, 0x3537, 0x3637, 0x3737, 0x3837, 0x3937, 0x3038,
        0x3138, 0x3238, 0x3338, 0x3438, 0x3538, 0x3638, 0x3738, 0x3838, 0x3938,
        0x3039, 0x3139, 0x3239, 0x3339, 0x3439, 0x3539, 0x3639, 0x3739, 0x3839,
        0x3939, };

    static const char kMsbShift[] = { 4, 7, 11, 14, 17, 21, 24, 27, 30, };

    if (!text) {
        return nullptr;
    }
    if (text >= text_end) {
        return nullptr;
    }

    uint16_t* text16;
    char      digit;
    uint32_t  scalar;
    uint16_t  digits1and2,
              digits3and4,
              digits5and6,
              digits7and8;
    uint32_t  comparator;

    #if MAJOR_SEAM == 1 && MINOR_SEAM == 1
    // Write a bunches of xxxxxx to the buffer for debug purposes.
    for (int i = 0; i <= 21; ++i) {
        *(text + i) = 'x';
    }
    *(text + 21) = 0;
    char* begin = text;
    char buffer[256];
    #endif

    if (value < 10) {
        PRINTF ("\n    Range:[0, 9] length:1 ")
        if (text + 1 >= text_end) {
            return nullptr;
        }
        *text++ = '0' + (char)value;
        PRINT_PRINTED
        return text;
    }
    if (value < 100) {
        PRINTF ("\n    Range:[10, 99] length:2 ")
        if (text + 2 >= text_end) {
            return nullptr;
        }
        *reinterpret_cast<uint16_t*> (text) = kDigits00To99[value];
        PRINT_PRINTED
        return text + 2;
    }
    if (value >> 14) {
        if (value >> 27) {
            if (value >> 30) {
                PRINTF ("\n    Range:[1073741824, 4294967295] length:10")
                Print10:
                if (text + 10 >= text_end) {
                    return nullptr;
                }
                comparator = 100000000;
                digits1and2 = (uint16_t)(value / comparator);
                PRINTF ("\n    digits1and2:%u", digits1and2)
                value -= digits1and2 * comparator;
                *reinterpret_cast<uint16_t*> (text) = kDigits00To99[digits1and2];
                PRINT_PRINTED
                text += 2;
                goto Print8;
            }
            else {
                comparator = 1000000000;
                if (value >= comparator) {
                    PRINTF ("\n    Range:[100000000, 1073741823] length:10")
                    goto Print10;
                }
                PRINTF ("\n    Range:[134217727, 999999999] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                }
                comparator = 100000000;
                digit = (char)(value / comparator);
                *text++ = digit + '0';
                PRINT_PRINTED
                value -= comparator * digit;
                goto Print8;
            }
        }
        else if (value >> 24) {
            comparator = k10ToThe[8];
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000000, 134217728] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                }
                *text++ = '1';
                PRINT_PRINTED
                value -= comparator;
            }
            PRINTF ("\n    Range:[16777216, 9999999] length:8")
            if (text + 8 >= text_end) {
                return nullptr;
            }
            Print8:
            PRINTF ("\n    Print8:")
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            *reinterpret_cast<uint16_t*> (text + 6) = 
                kDigits00To99[digits1and2];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text + 4) = 
                kDigits00To99[digits3and4];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text + 2) = 
                kDigits00To99[digits5and6];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text) = 
                kDigits00To99[digits7and8];
            PRINT_PRINTED
            return text + 8;
        }
        else if (value >> 20) {
            comparator = 10000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[10000000, 16777215] length:8")
                if (text + 8 >= text_end) {
                    return nullptr;
                }
                *text++ = '1';
                PRINT_PRINTED
                value -= comparator;
            }
            else {
                PRINTF ("\n    Range:[1048576, 9999999] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
                }
            }
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;;
            *reinterpret_cast<uint16_t*> (text + 5) = 
                kDigits00To99[digits1and2];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text + 3) = 
                kDigits00To99[digits3and4];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text + 1) = 
                kDigits00To99[digits5and6];
            PRINT_PRINTED
            *text = (char)digits7and8 + '0';
            return text + 7;
        }
        else if (value >> 17) {
            comparator = 1000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000, 1048575] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
                }
                *text++ = '1';
                PRINT_PRINTED
                value -= comparator;
            }
            else {
                PRINTF ("\n    Range:[131072, 999999] length:6")
                if (text + 6 >= text_end) {
                    return nullptr;
                }
            }
            Print6:
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 6);
            *reinterpret_cast<uint16_t*> (text + 4) = kDigits00To99[digits1and2];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits3and4];
            PRINT_PRINTED
            *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits5and6];
            PRINT_PRINTED
            return text + 6;
        }
        else { // (value >> 14)
            if (value >= 100000) {
                PRINTF ("\n    Range:[65536, 131071] length:6")
                goto Print6;
            }
            PRINTF ("\n    Range:[10000, 65535] length:5")
            if (text + 5 >= text_end) {
                return nullptr;
            }
            digits5and6 = 10000;
            digit = (uint8_t)(value / digits5and6);
            value -= digits5and6 * digit;
            *text = digit + '0';
            PRINT_PRINTED
            digits1and2 = (uint16_t)value;
            digits5and6 = 100;
            digits3and4 = digits1and2 / digits5and6;
            digits1and2 -= digits3and4 * digits5and6;
            *reinterpret_cast<uint16_t*> (text + 1) = 
                kDigits00To99[digits3and4];
            PRINT_PRINTED
                PRINTF ("\n    digits1and2:%u", digits1and2)
            *reinterpret_cast<uint16_t*> (text + 3) = 
                kDigits00To99[digits1and2];
            PRINT_PRINTED
            return text + 5;
        }
    }
    digits1and2 = (uint16_t)value;
    if (value >> 10) {
        digits5and6 = 10000;
        if (digits1and2 >= digits5and6) {
            if (text + 5 >= text_end) {
                return nullptr;
            }
            PRINTF ("\n    Range:[10000, 16383] length:5")
            *text++ = '1';
            PRINT_PRINTED
            digits1and2 -= digits5and6;

        }
        else {
            PRINTF ("\n    Range:[1024, 9999] length:4")
            if (text + 4 >= text_end) {
                return nullptr;
            }
        }
        digits5and6 = 100;
        digits3and4 = digits1and2 / digits5and6;
        digits1and2 -= digits3and4 * digits5and6;
        *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits3and4];
        PRINT_PRINTED
        *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits1and2];
        PRINT_PRINTED
        return text + 4;
    }
    else {
        if (text + 4 >= text_end) {
            return nullptr;
        }
        digits3and4 = 1000;
        if (digits1and2 >= digits3and4) {
            PRINTF ("\n    Range:[1000, 1023] length:4")
            digits1and2 -= digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 2);
            *text16-- = kDigits00To99[digits1and2];
            PRINT_PRINTED
            *text16 = (((uint16_t)'1') | (((uint16_t)'0') << 8));
            PRINT_PRINTED
            return text + 4;
        }
        PRINTF ("\n    Range:[100, 999] length:3")
        digits1and2 = (uint16_t)value;
        digits3and4 = 100;
        digit = (char)(digits1and2 / digits3and4);
        digits1and2 -= digit * digits3and4;
        *text = digit + '0';
        PRINT_PRINTED
        *reinterpret_cast<uint16_t*> (text + 1) = kDigits00To99[digits1and2];
        PRINT_PRINTED
        return text + 3;
    }
}

}       //< namespace _
#undef  PRINTF
#undef  PRINT_PRINTED
#endif  //< MAJOR_SEAM >= 1 && MINOR_SEAM >= 1

Tác giả

Cale McCollough <cale.mccollough@gmail.com>

3

FYI: Bằng cách đăng bài này trên Stack Overflow, bạn đã xuất bản không thể hủy ngang theo CC BY-SA 3.0 (theo điều khoản sử dụng của Stack Exchange). Tuyên bố của bạn rằng nó được xuất bản theo GPL 3 cấu thành một giấy phép bổ sung mà người dùng có thể tùy ý sử dụng như một sự thay thế cho CC BY-SA 3.0. Việc sử dụng giấy phép nào là tùy thuộc vào quyết định của người dùng sao chép mã. Nếu đây là vấn đề đối với bạn, tôi khuyên bạn nên nhờ tư vấn pháp lý có thẩm quyền. (IANAL) Lưu ý rằng không có gì sai với điều này, nhưng tôi nghĩ rằng nó nên được lưu ý đến bạn.

— Makyen

Rất đẹp. Tuy nhiên, nó cần phải trả về một std::stringđể so sánh với các phương pháp khác được liệt kê ở đây là hợp lệ. Lúc đầu, tôi không thể tìm ra cách sử dụng toán tử shift cho cây tìm kiếm nhị phân, vì so sánh đã rất nhanh, nhưng bây giờ tôi nhận ra rằng nó sẽ hữu ích cho việc tính toán trước giá trị đã dịch chuyển đó nếu bạn cần. Tuy nhiên, bạn không sử dụng nó. Mặt khác, bạn không kết thúc với các ký tự lớn được mã hóa bên trong các hướng dẫn, vì vậy có lẽ đó là đủ lý do.

— Ben Voigt

Tôi đã quên làm điều đó. Nó chỉ là một chức năng bao bọc khác. Tất cả những thứ của tôi đều được Apache Licensed nhưng tôi đã nghĩ rằng tôi sẽ thử GNU nhưng vâng ... nó không có ý nghĩa gì cả.

Được rồi, tôi đã đổi lại giấy phép và thêm các hàm chuỗi. Script là một nhóm ngôn ngữ dựa trên socket dành cho máy tính phân tán để thực hiện IGEEK của tôi trên các siêu máy tính với Phòng Trung Quốc. Lớp chuỗi của tôi là một bộ đệm vòng. {: -) - + = <Tôi cũng có một số cấu trúc dữ liệu liền kề rất nhanh, nhanh hơn nhiều so với JSON. Tôi đã có một từ điển, bản đồ không có thứ tự, danh sách tuple, bản đồ, ngăn xếp, một mảng cho phép sắp xếp dữ liệu và tập lệnh mã hóa byte, văn bản được biên dịch JIT và tất cả các loại VM tốt. Nó vẫn chưa hoàn toàn sẵn sàng.

Tôi vừa cập nhật thuật toán và cải thiện đáng kể hiệu suất của các số lớn hơn.

0

Sửa đổi giải pháp của user434507. Được sửa đổi để sử dụng mảng ký tự thay vì chuỗi C ++. Chạy nhanh hơn một chút. Cũng chuyển séc cho 0 thấp hơn trong mã ... vì điều này không bao giờ xảy ra đối với trường hợp cụ thể của tôi. Di chuyển nó trở lại nếu nó phổ biến hơn cho trường hợp của bạn.

// Int2Str.cpp : Defines the entry point for the console application.
//
#include <stdio.h>
#include <iostream>
#include "StopWatch.h"

using namespace std;

const char digit_pairs[201] = {
  "00010203040506070809"
  "10111213141516171819"
  "20212223242526272829"
  "30313233343536373839"
  "40414243444546474849"
  "50515253545556575859"
  "60616263646566676869"
  "70717273747576777879"
  "80818283848586878889"
  "90919293949596979899"
};

void itostr(int n, char* c) {
    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
    if(val>=10000) {
        if(val>=10000000) {
            if(val>=1000000000) {
                size=10;
            }
            else if(val>=100000000) {
                size=9;
            }
            else size=8;
        }
        else {
            if(val>=1000000) {
                size=7;
            }
            else if(val>=100000) {
                size=6;
            }
            else size=5;
        }
    }
    else {
        if(val>=100) {
            if(val>=1000) {
                size=4;
            }
            else size=3;
        }
        else {
            if(val>=10) {
                size=2;
            }
            else if(n==0) {
                c[0]='0';
                c[1] = '\0';
                return;
            }
            else size=1;
        }
    }
    size -= sign;
    if(sign)
    *c='-';

    c += size-1;
    while(val>=100) {
        int pos = val % 100;
        val /= 100;
        *(short*)(c-1)=*(short*)(digit_pairs+2*pos); 
        c-=2;
    }
    while(val>0) {
        *c--='0' + (val % 10);
        val /= 10;
    }
    c[size+1] = '\0';
}

void itostr(unsigned val, char* c)
{
    int size;
    if(val>=10000)
    {
        if(val>=10000000)
        {
            if(val>=1000000000)
                size=10;
            else if(val>=100000000)
                size=9;
            else 
                size=8;
        }
        else
        {
            if(val>=1000000)
                size=7;
            else if(val>=100000)
                size=6;
            else
                size=5;
        }
    }
    else 
    {
        if(val>=100)
        {
            if(val>=1000)
                size=4;
            else
                size=3;
        }
        else
        {
            if(val>=10)
                size=2;
            else if (val==0) {
                c[0]='0';
                c[1] = '\0';
                return;
            }
            else
                size=1;
        }
    }

    c += size-1;
    while(val>=100)
    {
       int pos = val % 100;
       val /= 100;
       *(short*)(c-1)=*(short*)(digit_pairs+2*pos); 
       c-=2;
    }
    while(val>0)
    {
        *c--='0' + (val % 10);
        val /= 10;
    }
    c[size+1] = '\0';
}

void test() {
    bool foundmismatch = false;
    char str[16];
    char compare[16];
    for(int i = -1000000; i < 1000000; i++) {
        int random = rand();
        itostr(random, str);
        itoa(random, compare, 10);
        if(strcmp(str, compare) != 0) {
            cout << "Mismatch found: " << endl;
            cout << "Generated: " << str << endl;
            cout << "Reference: " << compare << endl;
            foundmismatch = true;
        }
    }
    if(!foundmismatch) {
        cout << "No mismatch found!" << endl;
    }
    cin.get();
}

void benchmark() {
    StopWatch stopwatch;
    stopwatch.setup("Timer");
    stopwatch.reset();
    stopwatch.start();
    char str[16];
    for(unsigned int i = 0; i < 2000000; i++) {
        itostr(i, str);
    }
    stopwatch.stop();
    cin.get();
}

int main( int argc, const char* argv[]) {
    benchmark();
}

— PentiumPro200
nguồn

2

Tôi đã kiểm tra nó từ 0x80000000 đến 0x7FFFFFFF và đã ở -999999999 bạn nhận được các giá trị không hợp lệ (tôi đã dừng lại sau một vài lần không khớp).

Mismatch found: Generated: -9999999990 Reference: -999999999  Mismatch found: Generated: -9999999980 Reference: -999999998  Mismatch found: Generated: -9999999970 Reference: -999999997

— Waldemar

0

Chúng tôi sử dụng mã sau (cho MSVC):

Templated tBitScanReverse:

#include <intrin.h>

namespace intrin {

#pragma intrinsic(_BitScanReverse)
#pragma intrinsic(_BitScanReverse64)

template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 4), unsigned char>
{
    return _BitScanReverse(out_index, mask);
}
template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 8), unsigned char>
{
#if !(_M_IA64 || _M_AMD64)
    auto res = _BitScanReverse(out_index, (unsigned long)(mask >> 32));
    if (res) {
        out_index += 32;
        return res;
    }
    return _BitScanReverse(out_index, (unsigned long)mask);
#else
    return _BitScanReverse64(out_index, mask);
#endif
}

}

Người trợ giúp char / wchar_t:

template<typename TChar> inline constexpr TChar   ascii_0();
template<>               inline constexpr char    ascii_0() { return  '0'; }
template<>               inline constexpr wchar_t ascii_0() { return L'0'; }

template<typename TChar, typename TInt> inline constexpr TChar ascii_DEC(TInt d) { return (TChar)(ascii_0<TChar>() + d); }

Quyền hạn của 10 bảng:

static uint32 uint32_powers10[] = {
    1,
    10,
    100,
    1000,
    10000,
    100000,
    1000000,
    10000000,
    100000000,
    1000000000
//   123456789
};
static uint64 uint64_powers10[] = {
    1ULL,
    10ULL,
    100ULL,
    1000ULL,
    10000ULL,
    100000ULL,
    1000000ULL,
    10000000ULL,
    100000000ULL,
    1000000000ULL,
    10000000000ULL,
    100000000000ULL,
    1000000000000ULL,
    10000000000000ULL,
    100000000000000ULL,
    1000000000000000ULL,
    10000000000000000ULL,
    100000000000000000ULL,
    1000000000000000000ULL,
    10000000000000000000ULL
//   1234567890123456789
};

template<typename TUint> inline constexpr const TUint  * powers10();
template<>               inline constexpr const uint32 * powers10() { return uint32_powers10; }
template<>               inline constexpr const uint64 * powers10() { return uint64_powers10; }

Bản in thực tế:

template<typename TChar, typename TUInt>
__forceinline auto
print_dec(
    TUInt u,
    TChar * & buffer) -> typename std::enable_if_t<std::is_unsigned<TUInt>::value>
{
    if (u < 10) {                                                   // 1-digit, including 0  
        *buffer++ = ascii_DEC<TChar>(u);
    }
    else {
        DWORD log2u;
        intrin::tBitScanReverse(&log2u, u);                         //  log2u [3,31]  (u >= 10)
        DWORD log10u = ((log2u + 1) * 77) >> 8;                     //  log10u [1,9]   77/256 = ln(2) / ln(10)
        DWORD digits = log10u + (u >= powers10<TUInt>()[log10u]);   //  digits [2,10]

        buffer += digits;
        auto p = buffer;

        for (--digits; digits; --digits) {
            auto x = u / 10, d = u - x * 10;
            *--p = ascii_DEC<TChar>(d);
            u = x;
        }
        *--p = ascii_DEC<TChar>(u);
    }
}

Vòng lặp cuối cùng có thể được hủy cuộn:

switch (digits) {
case 10: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  9: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  8: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  7: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  6: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  5: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  4: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  3: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  2: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; *--p = ascii_DEC<TChar>(u); break; }
default: __assume(0);
}

Ý tưởng chính giống như @atlaste đã đề xuất trước đây: https://stackoverflow.com/a/29039967/2204001

— Ilyan
nguồn

0

Chỉ gặp điều này vì hoạt động gần đây; Tôi thực sự không có thời gian để thêm điểm chuẩn, nhưng tôi muốn thêm những gì tôi đã viết trong quá khứ khi tôi cần chuyển đổi số nguyên thành chuỗi nhanh chóng ...

https://github.com/CarloWood/ai-utils/blob/master/itoa.h
https://github.com/CarloWood/ai-utils/blob/master/itoa.cxx

Thủ thuật được sử dụng ở đây là người dùng phải cung cấp một mảng std :: đủ lớn (trên ngăn xếp của họ) và mã này viết chuỗi vào đó ngược lại, bắt đầu từ các đơn vị, sau đó trả về một con trỏ vào mảng với một khoảng cách đến nơi kết quả thực sự bắt đầu.

Do đó, điều này không phân bổ hoặc di chuyển bộ nhớ, nhưng nó vẫn yêu cầu phân chia và mô-đun cho mỗi chữ số kết quả (mà tôi tin là đủ nhanh vì đó chỉ đơn thuần là mã chạy nội bộ trên CPU; truy cập bộ nhớ thường là vấn đề).

— Gỗ Carlo
nguồn

-1

Tại sao không ai sử dụng hàm div từ stdlib khi cần cả hai, thương và phần dư?
Sử dụng mã nguồn của Timo, tôi đã kết thúc với một cái gì đó như thế này:

if(val >= 0)
{
    div_t   d2 = div(val,100);
    while(d2.quot)
    {
        COPYPAIR(it,2 * d2.rem);
        it-=2;
        d2 = div(d2.quot,100);
    }
    COPYPAIR(it,2*d2.rem);
    if(d2.quot<10)
        it++;
}
else
{
    div_t   d2 = div(val,100);
    while(d2.quot)
    {
        COPYPAIR(it,-2 * d2.rem);
        it-=2;
        d2 = div(d2.quot,100);
    }
    COPYPAIR(it,-2*d2.rem);
    if(d2.quot<=-10)
        it--;
    *it = '-';
}

Ok, đối với int unsigned, hàm div không thể được sử dụng nhưng unsigned's có thể được xử lý riêng biệt.
Tôi đã định nghĩa macro COPYPAIR như sau để kiểm tra các biến thể cách sao chép 2 ký tự từ các cặp chữ số (không tìm thấy lợi thế rõ ràng nào của bất kỳ phương pháp nào trong số này):

#define COPYPAIR0(_p,_i) { memcpy((_p), &digit_pairs[(_i)], 2); }
#define COPYPAIR1(_p,_i) { (_p)[0] = digit_pairs[(_i)]; (_p)[1] = digit_pairs[(_i)+1]; }
#define COPYPAIR2(_p,_i) { unsigned short * d = (unsigned short *)(_p); unsigned short * s = (unsigned short *)&digit_pairs[(_i)]; *d = *s; }

#define COPYPAIR COPYPAIR2

— người dùng1979854
nguồn

1

Đó là bởi vì thách thức này là về tốc độ, không phải là ít dòng mã nhất.

— Ben Voigt

1

PS: Và đối với những người mà muốn sử dụng này trong dung dịch của tôi: (1) nó nhiều chậm hơn nhiều và (2) vì công trình div trên ký số nguyên - mà phá vỡ abs (INT32_MIN).

— atlaste

Thử thách hiệu suất C ++: chuyển đổi số nguyên sang std :: chuỗi

Quy tắc cho các thuật toán

Cuộc thảo luận hy vọng

Kết luận:

Nguồn mã:

gcc 4.4.5 -O2 trên Ubuntu 10.10 64-bit, Core i5

MSVC 2010 64-bit / Ox trên Windows 7 64-bit, Core i5

Trên Ideone (gcc 4.3.4):

Core i7, Windows 7 64-bit, RAM 8 GB, Visual C ++ 2010 32-bit:

Core i7, Windows 7 64-bit, RAM 8 GB, Visual C ++ 2010 64-bit:

Core i7, Windows 7 64-bit, RAM 8 GB, cygwin gcc 4.3.4:

Intel Q9450, Win XP 32bit, MSVC 2010

Tác giả