Trong SQL Server, tôi có thể đảm bảo một đơn hàng mà không có mệnh đề ORDER BY rõ ràng khi tìm kiếm chỉ mục bị buộc trên một bảng chỉ có một chỉ mục được nhóm không?


24

Cập nhật 2014-12-18

Với câu trả lời áp đảo cho câu hỏi chính là "Không", các câu trả lời thú vị hơn đã tập trung vào phần 2, làm thế nào để giải câu đố hiệu suất một cách rõ ràng ORDER BY. Mặc dù tôi đã đánh dấu một câu trả lời rồi, tôi sẽ không ngạc nhiên nếu có một giải pháp hiệu quả tốt hơn nữa.

Nguyên

Câu hỏi này xuất hiện bởi vì giải pháp cực kỳ nhanh chóng duy nhất tôi có thể tìm thấy cho một vấn đề cụ thể chỉ hoạt động mà không có một ORDER BYmệnh đề. Dưới đây là toàn bộ T-SQL cần thiết để tạo ra sự cố, cùng với giải pháp được đề xuất của tôi (tôi đang sử dụng SQL Server 2008 R2, nếu có vấn đề.)

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

Dưới đây là các kế hoạch thực hiện cho Giải pháp A và B, tương ứng:

Sol A

Sol B

Giải pháp A mang lại hiệu suất tôi cần, nhưng tôi không thể làm cho nó hoạt động với cùng hiệu suất khi thêm bất kỳ mệnh đề ORDER BY nào (ví dụ: xem Giải pháp B). Và có vẻ như Giải pháp A sẽ phải cung cấp kết quả theo thứ tự, vì 1) bảng chỉ có một chỉ mục trên đó, 2) tìm kiếm bị ép buộc, do đó loại trừ khả năng sử dụng quét thứ tự phân bổ dựa trên các trang IAM .

Vì vậy, câu hỏi của tôi là:

  1. Tôi có đúng rằng nó sẽ đảm bảo trật tự trong trường hợp này mà không có thứ tự theo mệnh đề?

  2. Nếu không, có một phương pháp nào khác để buộc một kế hoạch nhanh như Giải pháp A, tốt nhất là một kế hoạch tránh các loại? Lưu ý rằng nó sẽ phải giải quyết chính xác cùng một vấn đề (vì StoreID = 1, hãy tìm 500 khách hàng hàng đầu được đặt hàng theo số tiền mua đắt nhất của họ). Nó cũng sẽ vẫn phải sử dụng #Ordersbảng, nhưng các sơ đồ lập chỉ mục khác nhau sẽ ổn.


16
Đặt hàng chỉ được đảm bảo nếu bạn sử dụng ORDER BY.
alroc

8
" Tôi có đúng rằng nó sẽ đảm bảo trật tự trong trường hợp này mà không cần đặt hàng theo mệnh đề " - không, hoàn toàn không.
a_horse_with_no_name 17/12/14

3
Đây là một bài viết mà làm một công việc tuyệt vời giải thích điều này. blog.msdn.com/b/conor_castyham_msft/archive/2008/08/27/ cường
Sean Lange

@SeanLange: Giống như bạn và những người khác, tôi không thoải mái khi để lại đơn đặt hàng vì tất cả các lý do tương tự. Tuy nhiên, a) Tôi không thể tìm thấy một truy vấn có hiệu suất tương tự như Giải pháp A sử dụng ORDER BY và b) Tôi không biết bất kỳ cách nào nó có thể đặt hàng chúng không chính xác. Phải không Tôi không nói là không có cách nào, tôi chỉ không biết về một người, và hy vọng ai đó có thể nói rõ nếu nó tồn tại. Ngay cả các ví dụ trong bài viết bạn tham chiếu chỉ áp dụng cho các lần quét không tìm kiếm.
JohnnyM

CẬP NHẬT: Tôi đã thay đổi loại dữ liệu & phương pháp tính toán để tránh có quá nhiều trùng lặp. Các nguyên tắc tất cả vẫn được áp dụng. Mặc dù trong vấn đề này, tôi không quan tâm ai thắng khi có hòa, có quá nhiều ràng buộc khiến chúng ta khó thấy điều gì đang xảy ra khi xem dữ liệu. Bây giờ rõ ràng hơn là ngoại trừ các mối quan hệ, Giải pháp A và B cho kết quả tương tự.
JohnnyM

Câu trả lời:


23
  1. Tôi có đúng rằng nó sẽ đảm bảo trật tự trong trường hợp này mà không có thứ tự theo mệnh đề?

Số Một luồng riêng biệt mà để bảo tồn (cho phép ORDER BYmà không có một loại) không được thực hiện trong SQL Server ngày hôm nay. Về nguyên tắc có thể thực hiện, nhưng sau đó nhiều điều có thể nếu chúng ta được phép thay đổi mã nguồn SQL Server. Nếu bạn có thể tạo ra một trường hợp tốt cho công việc phát triển này, bạn có thể đề xuất nó cho Microsoft .

  1. Nếu không, có một phương pháp nào khác để buộc một kế hoạch nhanh như Giải pháp A, tốt nhất là một kế hoạch tránh các loại?

Vâng. (Gợi ý bảng & truy vấn chỉ được yêu cầu khi sử dụng công cụ ước tính số lượng thẻ trước năm 2014):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

Kế hoạch thực hiện

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

Giải pháp SQL CLR

Kịch bản sau đây cho thấy sử dụng hàm có giá trị bảng SQL CLR để đáp ứng các yêu cầu đã nêu. Tôi không phải là chuyên gia về C #, vì vậy mã có thể được cải thiện:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

Bảng kiểm tra và dữ liệu mẫu từ câu hỏi:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

Kiểm tra chức năng:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

Kế hoạch thực hiện (lưu ý xác nhận ORDERbảo lãnh):

Kế hoạch thực hiện chức năng CLR

Trên máy tính xách tay của tôi, điều này thường thực hiện trong 80-100ms. Đây không phải là nhanh như viết lại T-SQL ở trên, nhưng nó sẽ cho thấy sự ổn định hiệu suất tốt khi đối mặt với các phân phối dữ liệu khác nhau.

Mã nguồn:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

Không có ORDER BY rất nhiều thứ có thể đi sai. Bạn đã loại trừ tất cả các vấn đề có thể xảy ra mà tôi có thể nghĩ ra, nhưng điều đó không có nghĩa là không có vấn đề gì và cũng sẽ không có vấn đề nào trong bản phát hành trong tương lai.

Điều này sẽ làm việc:

Kéo các lô 500 hàng từ bảng trong một vòng lặp và dừng lại khi bạn có 500 ID khách hàng riêng biệt. Truy vấn tìm nạp có thể trông như thế này:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

Điều này sẽ thực hiện quét phạm vi theo thứ tự trên chỉ mục. Vị Amount <= @lastAmountFetchedngữ ở đó để tăng dần các bản ghi. Mỗi truy vấn sẽ chỉ chạm vào 500 bản ghi. Điều đó có nghĩa là nó là O (1). Nó không trở nên đắt hơn khi bạn càng đi sâu vào chỉ mục.

Bạn phải duy trì biến @lastAmountFetchedđể giảm đến giá trị nhỏ nhất mà bạn đã tìm nạp trong câu lệnh đó.

Bằng cách này, bạn sẽ tăng dần chỉ số theo cách có thứ tự. Bạn sẽ đọc nhiều nhất (500 - 1) hàng so với số tiền tối ưu sẽ có.

Điều này sẽ nhanh hơn rất nhiều so với việc luôn tổng hợp 100000 đơn hàng hoặc hơn cho một cửa hàng cụ thể. Có lẽ, chỉ cần một vài lần lặp 500 hàng mỗi lần.

Về cơ bản, đây là một toán tử dòng riêng biệt được mã hóa.

Hoặc, sử dụng một con trỏ để tìm nạp càng ít hàng càng tốt. Điều này sẽ chậm hơn rất nhiều vì thực hiện 500 truy vấn một hàng thường xuyên nhất là chậm hơn so với thực hiện một lô 500 hàng.

Ngoài ra, chỉ cần truy vấn tất cả các hàng mà không DISTINCTtheo cách có thứ tự và làm cho ứng dụng khách chấm dứt truy vấn một khi đủ hàng được trả về (sử dụng SqlCommand.Cancel).


1
Điều này thiếu một chi tiết quan trọng - làm thế nào bạn đảm bảo #fetchedOrderskhông chứa khách hàng mà chúng tôi đã thấy? Có lẽ điều này liên quan đến việc tìm kiếm chỉ mục trên bảng tạm thời, điều này không hoàn toàn giống với "dòng chảy khác biệt" và sẽ đắt hơn khi có nhiều hàng hơn chúng ta đã thấy (mặc dù nó vẫn sẽ đánh bại giải pháp B trong tất cả nhưng trường hợp xấu nhất về việc phải quét tất cả các hàng vì chỉ có một khách hàng, trong đó A và B sẽ thực hiện giống hệt nhau).

2
@JeroenMostert - IGNORE_DUP_KEYcó thể làm điều đó.
Martin Smith

@usr: Cảm ơn vì điều này. Tôi đã mã hóa nó bằng IGNORE_DUP_KEY và chạy các số & got cpu time = 31ms, thời gian trôi qua = 27ms. Mặc dù cách nhanh hơn Giải pháp B, nhưng nó không ở đâu gần Giải pháp A (cpu = 0, ms = 1), mà với mục đích của tôi, nó cần phải có. Khi bạn nói "Bạn đã loại trừ tất cả các vấn đề có thể xảy ra mà tôi có thể nghĩ ra", tôi tự hỏi liệu tôi đã loại trừ tất cả các vấn đề mà bất cứ ai cũng có thể nghĩ đến. Điều khó chịu là, tôi có thể hình dung SQL cần phải làm gì để đạt được sự hoàn hảo của A, tôi chỉ không biết làm thế nào để nói với nó bằng cách sử dụng ĐẶT HÀNG B BYNG.
JohnnyM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.