Cách chuẩn bị / xây dựng các tính năng để phát hiện bất thường (dữ liệu bảo mật mạng)


9

Mục tiêu của tôi là phân tích nhật ký mạng (ví dụ: Apache, syslog, kiểm toán bảo mật Active Directory, v.v.) bằng cách sử dụng phát hiện phân cụm / dị thường cho mục đích phát hiện xâm nhập.

Từ nhật ký, tôi có rất nhiều trường văn bản như địa chỉ IP, tên người dùng, tên máy chủ, cổng đích, cổng nguồn, v.v. (trong tổng số 15-20 trường). Tôi không biết nếu có một số cuộc tấn công trong nhật ký và muốn làm nổi bật các sự kiện đáng ngờ nhất (ngoại lệ).

Thông thường, phát hiện dị thường đánh dấu các điểm có xác suất / tần số thấp là dị thường. Tuy nhiên, một nửa các bản ghi nhật ký chứa kết hợp các trường duy nhất. Vì vậy, một nửa số bản ghi trong bộ dữ liệu sẽ có tần suất thấp nhất có thể.

Nếu tôi sử dụng phát hiện bất thường dựa trên phân cụm (ví dụ: tìm cụm và sau đó chọn các điểm cách xa tất cả các trung tâm cụm), tôi cần tìm khoảng cách giữa các điểm khác nhau. Vì tôi có 15-20 trường, nó sẽ là một không gian đa chiều, trong đó các phần tử là tên người dùng, cổng, địa chỉ IP, v.v. Tuy nhiên, khoảng cách Mahalanobis chỉ có thể được áp dụng cho các tính năng phân phối thông thường. Điều này có nghĩa là không có cách nào để tìm khoảng cách giữa các điểm dữ liệu và xây dựng các cụm ...

Ví dụ: hãy tưởng tượng rằng tôi có người dùng Alice, Bob, Carol, Dave, Eve và Frank trong bộ dữ liệu của 20 hồ sơ. Họ có thể có số lần xuất hiện sau trong cơ sở dữ liệu: 2,5,2,5,1,5. Nếu tôi chỉ đơn giản ánh xạ tên người dùng thành số, vd

Alice --> 1
Bob --> 2
Carol --> 3
Dave --> 4
Eve --> 5
Frank --> 6

Sau đó, phân phối xác suất của tôi cho tên người dùng sẽ như sau:

p (1) = 0,1, p (2) = 0,25, p (3) = 0,1, p (4) = 0,25, p (5) = 0,05, p (6) = 0,25

Tất nhiên, đây không phải là một bản phân phối bình thường và điều này cũng không có nhiều ý nghĩa, vì tôi có thể ánh xạ tên người dùng theo bất kỳ cách nào khác ...

Do đó, ánh xạ đơn giản của các trường như tên người dùng, hành động, số cổng, địa chỉ IP, v.v. đến số không mang lại điều gì.

Do đó, tôi muốn hỏi, làm thế nào các trường văn bản được xử lý / các tính năng thường được xây dựng để có thể phát hiện sự bất thường / ngoại lệ không giám sát?

EDIT: cấu trúc dữ liệu.

Tôi có khoảng 100 cột trong bảng cơ sở dữ liệu, chứa thông tin từ Sự kiện Active Directory. Từ 100 cột này, tôi chọn mục quan trọng nhất (theo quan điểm của tôi): SubjectUser, TargetUser, SourceIPaddress, SourcehostName, SourcePort, Computer, DestinationIPaddress, DestinationhostName, DestinationPort, Action, Status, FilePath, EventID, WeekDay, DayTime.

Sự kiện là các sự kiện Active Directory, trong đó EventID xác định nội dung đã được ghi (ví dụ: tạo vé Kerberos, đăng nhập người dùng, đăng xuất người dùng, v.v.).

Mẫu dữ liệu trông như sau:

+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| ID | Chủ đề Người dùng | Mục tiêu Người dùng | NguồnIP
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 171390673 |? | | | | | domaincontroll1.domain.com | 1.1.1.1 | domaincontroll1.domain.com |? | / Xác thực / Xác minh | / Thành công |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 173348232 |? | | | | | domaincontroll2.domain.com | 2.2.2.2 | domaincontroll2.domain.com |? | / Xác thực / Xác minh | / Thành công |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 180176916 |? | | | | | domaincontroll2.domain.com | 2.2.2.2 | domaincontroll2.domain.com |? | / Xác thực / Xác minh | / Thành công |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 144144725 |? | John.Doe | 3.3.3.3 | domaincontroll3.domain.com | 2407 | domaincontroll3.domain.com | 3.3.3.4 | domaincontroll3.domain.com |? | / Xác thực / Xác minh | / Thành công |? | 4624 | 3 | 12345 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +

Tất cả cùng nhau, tôi có khoảng 150 triệu sự kiện. Các sự kiện khác nhau có các trường khác nhau được điền vào và không phải tất cả các sự kiện đều liên quan đến đăng nhập / đăng xuất của người dùng.


"Tuy nhiên, khoảng cách Mahalanobis chỉ có thể được áp dụng cho các tính năng phân phối thông thường." Trên thực tế, hình elip. Bạn có thể đăng một vài dòng đầu tiên của tập dữ liệu của bạn (hoặc một số số giả nhưng có các tính năng giống như thật) không?
dùng603

Tôi giả định rằng hình elip có nghĩa là sản phẩm của hai tính năng phân phối bình thường, với độ lệch trung bình và độ lệch chuẩn khác nhau, nhưng vẫn được phân phối bình thường.
Andrey Sapegin

Không, hình elip có nghĩa là hình dạng của bóng đá trong 2D, bóng đá 3D và nói chung là bóng đá chiều D trong không gian D chiều.
dùng603

Vì tò mò. Bạn có thể chia sẻ một số dữ liệu / tập dữ liệu nào bạn đang làm việc không? Đây có phải là một bộ nghiên cứu công cộng / học thuật?
sabalaba 14/03/2015

Thật không may, đây không phải là một bộ dữ liệu công khai và tôi không thể chia sẻ nó. Tuy nhiên, cần có một bộ dữ liệu nổi tiếng của KDDCup 1999, hoặc bộ dữ liệu Scan34 từ Honeynet ( old.honeynet.org/scans/scan34 ). Cả hai bộ dữ liệu đều có nhật ký (không phải lưu lượng truy cập mạng) để phân tích (Apache, Snort, syslog, v.v.). Trong tập dữ liệu mà tôi có, hầu hết các bản ghi là nhật ký Active Directory. Tôi không chắc có bất kỳ Sự kiện AD / Windows công khai nào có sẵn để phân tích hay không (trước đó tôi đã sử dụng bộ dữ liệu tự tạo vì sự vắng mặt của sự kiện thực). Ngoài ra, bộ dữ liệu tôi có là rất lớn (150 bản ghi Mio).
Andrey Sapegin

Câu trả lời:


2

Tôi chắc chắn không phải là một chuyên gia về phát hiện bất thường . Tuy nhiên, đó là một khu vực thú vị và đây là hai xu của tôi. Đầu tiên, xem xét lưu ý của bạn rằng "khoảng cách Mahalanobis chỉ có thể được áp dụng cho các tính năng phân phối thông thường". Tôi đã chạy qua một số nghiên cứu lập luận rằng vẫn có thể sử dụng số liệu đó trong các trường hợp dữ liệu không bình thường . Hãy xem bản thân bạn trong bài báo nàybáo cáo kỹ thuật này .

Tôi cũng hy vọng rằng bạn sẽ tìm thấy các tài nguyên hữu ích sau đây về phát hiện bất thường không được giám sát (AD) trong bối cảnh bảo mật mạng CNTT , sử dụng các phương pháp và phương pháp khác nhau: bài viết này , trình bày khung hình học cho AD không được giám sát; bài viết này , sử dụng phương pháp phân cụm dựa trên mật độ và dựa trên lưới ; bản trình bày này , trong đó đề cập đến việc sử dụng bản đồ tự tổ chức cho AD.

Cuối cùng, tôi khuyên bạn nên xem các câu trả lời sau đây của tôi, mà tôi tin là có liên quan đến chủ đề và, do đó, có thể hữu ích: trả lời về cách tiếp cận phân cụm , trả lời về phân cụm không dựa trên khoảng cách và trả lời về các tùy chọn phần mềm cho QUẢNG CÁO .


1
Cảm ơn bạn đã liên kết, chúng rất hữu ích. (1) Bài báo đầu tiên bạn đề cập rất thú vị. Có vẻ như có thể chuyển đổi phân phối thành bình thường để áp dụng khoảng cách Mahalanobis sau này. Tôi sẽ cố gắng để có được vào nó. (2) Bạn có biết nếu có một số cách tiếp cận khác, ví dụ như một số biện pháp tương tự như khoảng cách anh em họ, không hoạt động trên khoảng cách? (3) Tuy nhiên, các slide thuyết trình mà bạn đề cập là tập trung vào các gói lưu lượng mạng chứ không phải trên các bản ghi.
Andrey Sapegin

1
Liên quan đến các phương pháp khác, tôi đã nghĩ về 2: (1) SVM một lớp có thể tìm ra mối tương quan giữa các tính năng, nếu sử dụng mô hình đa thức cao; (2) các dòng nhật ký đe dọa dưới dạng câu và sử dụng tính tương tự của anh em họ với nhóm / cụm chúng. Lần đầu tiên tôi đã cố gắng thực hiện, nhưng nó đã chạy được hơn một tuần trên 1 CPU (lần đầu tiên tôi huấn luyện một mô hình trên nửa dữ liệu đầu tiên và áp dụng cho lần thứ hai. Sau đó, ngược lại). Cách tiếp cận thứ hai ngụ ý một không gian nhiều chiều (ví dụ: mọi giá trị khác nhau của tên người dùng sẽ là một tính năng).
Andrey Sapegin

1
@AndreySapegin: Nếu kết quả của những nỗ lực hiện tại của bạn không đủ tốt, bạn có thể thử một số phương pháp khác, được đề cập trong các tài liệu tôi đã tham khảo. Đó là ý tưởng. Một điều nữa - hãy thử phần mềm ML mã nguồn mở GraphLab (một số phần mềm hiện có thương hiệu là Dato): dato.com/products/create/open_source.html . Phần mềm GraphLab có hiệu năng cao và rất có thể mở rộng trên không chỉ các lõi xử lý, mà cả các bộ xử lý và thậm chí cả máy móc.
Aleksandr Blekh

1
@AndreySapegin: Một bài báo từ đồng nghiệp đại học của tôi vừa xuất hiện trong luồng ResearchGate của tôi. Tôi nghĩ rằng nó có thể rất hữu ích cho bạn (sử dụng phương pháp ANN để phát hiện sự xâm nhập - thông qua thư viện Encog ML thú vị, trong đó anh ấy là người tạo và đóng góp chính - Encog cũng có thể mở rộng thông qua đa lõi & GPU). Đây là bài báo: Researchgate.net/profile/Jeff_Heaton/publication/ ,. Đây là thông tin về Encog: Heatonresearch.com/encog .
Alexanderr Blekh

1
Cho bất cứ ai trao tiền thưởng cho câu trả lời của tôi: Tôi đánh giá cao sự hào phóng của bạn cũng như công nhận những nỗ lực của tôi đối với câu trả lời chất lượng.
Alexanderr Blekh 18/03/2015

3

Trước hết, tôi nghĩ có một số điều mà bạn có thể phải từ chức.

Một hạn chế lớn mà tôi thấy về vấn đề này là có lẽ bạn nên chuẩn bị để có tỷ lệ dương tính giả khá cao. Theo tôi biết, tỷ lệ cơ sở của các bản ghi là một phần của sự bất thường mạng là khá thấp (cần dẫn nguồn). Hãy gọi nó là tỷ lệ cược 1000: 1, để tranh luận. Sau đó, ngay cả khi bạn quan sát một mô hình có khả năng xảy ra gấp 100 lần nếu hồ sơ là sự xâm nhập thì nếu đó là hợp pháp, Quy tắc của Bayes nói rằng tỷ lệ cược sau là 10: 1 rằng lưu lượng truy cập vẫn hợp pháp.

Vấn đề khác là một số xâm nhập khó phát hiện ngay cả về nguyên tắc . Chẳng hạn, nếu có ai đó thúc đẩy tôi đưa máy tính cho họ, rồi họ đăng nhập vào dịch vụ này và tải xuống một tập tin tuyệt mật mà tôi đang làm việc, điều này sẽ khá khó tìm. Về cơ bản, một kẻ tấn công đủ quyết tâm có thể làm cho hành vi xâm nhập của chúng gần như tùy tiện gần với hành vi bình thường của hệ thống.

Hơn nữa, đối thủ của bạn là thông minh, không phải là quy trình thống kê, vì vậy nếu bạn bắt đầu phát hiện một số mẫu và tắt nó, họ có thể chỉ cần phản hồi bằng cách không tuân theo mẫu đó nữa. Đây là lý do tại sao, ví dụ, bạn sẽ thấy rất nhiều tin nhắn rác có khoảng trắng ở giữa tất cả các chữ cái (cung cấp cho bạn " V I A G R A" hoặc bất cứ điều gì). Các bộ lọc thư rác đã phát hiện ra rằng chuỗi "viagra" là spam, vì vậy những kẻ tấn công mới bắt đầu làm việc khác.

Vì điều này, tôi nghĩ rằng đáng để suy nghĩ khá nhiều về những loại xâm nhập mà bạn nghĩ rằng nó đáng để nỗ lực để có thể phát hiện ra. Chắc chắn có những quả treo thấp ở đây, vì vậy đừng để người hoàn hảo trở thành kẻ thù của hàng hóa và cố gắng đưa ra một thuật toán có thể phát hiện ra mọi sự xâm nhập.


Bỏ qua chuyện đó, hãy nói về trái cây treo thấp. Ở đây, tôi nghĩ rằng có thể hữu ích cho bạn khi chuyển đơn vị phân tích của bạn từ các bản ghi riêng lẻ sang một nhóm các bản ghi.

Chẳng hạn, bạn đã nói rằng một nửa trong số tất cả các bản ghi có các trường kết hợp duy nhất. Nhưng có lẽ, chẳng hạn, hầu hết các IP nguồn xuất hiện trong nhiều bản ghi - đó là các trường khác trong yêu cầu đang thay đổi và làm cho sự kết hợp trở nên độc đáo. Nếu bạn nhóm các yêu cầu theo IP, thì bạn có thể đặt câu hỏi như:

  • Do một số IP dường như xác thực là nhiều người dùng bất thường (hoặc số ít bất thường)?
  • Do một số IP có số lượng thất bại xác thực lớn bất thường?
  • Do một số IP có kiểu thời gian truy cập bất thường (ví dụ: rất nhiều hoạt động vào khoảng 3 giờ sáng trong múi giờ của họ hoặc yêu cầu cứ sau 1 giây trong suốt cả ngày)?

Bạn có thể làm những điều tương tự cho các nhóm khác, như tên người dùng:

  • Có phải người dùng này đang xác thực từ một máy tính khác khi trước đó họ đã sử dụng cùng một máy tính cho tất cả các yêu cầu?
  • Có phải người dùng này đột nhiên chạm vào một phần của hệ thống tệp mà họ chưa từng chạm vào trước đây?

Tôi không biết bất kỳ phân loại ngoài luồng nào có vẻ đặc biệt phù hợp với điều này, bởi vì hành vi tiềm năng của người dùng của bạn rất đa dạng và có lẽ bạn hầu như quan tâm đến những thay đổi trong hành vi theo thời gian. Điều đó có nghĩa là bạn có thể muốn xây dựng một số loại mô hình về mỗi người dùng / IP / bất cứ điều gì có thể làm trong tương lai và gắn cờ mọi sai lệch so với mô hình này. Nhưng đó là một quá trình chuyên sâu nếu người dùng của bạn có các mẫu hành vi khác nhau!

Vì khó khăn này, tôi nghĩ bây giờ có thể sẽ hiệu quả hơn khi thực hiện loại phân tích chế độ khám phá mà tôi đã nêu ở trên. Điều đó có khả năng thông báo cho bạn về loại mẫu nào là mẫu thú vị nhất, và sau đó bạn có thể bắt đầu sử dụng thuật toán thống kê ưa thích để phát hiện các mẫu đó.


2
Cảm ơn bạn đã trả lời của bạn, nó là một điểm tốt. Theo tôi hiểu, bạn đề nghị tập trung vào phân tích đơn giản hơn phát hiện bất thường. Từ quan điểm kỹ thuật (công nghiệp), bạn đã đúng. Tuy nhiên, tôi đang thực hiện một nghiên cứu và muốn tập trung vào phân tích học máy. Phân tích dựa trên truy vấn như bạn đã cung cấp, chúng tôi đã thực hiện (có thể không hoàn toàn giống với các truy vấn bạn đã cung cấp, nhưng tương tự) ... Một lập luận khác cho việc đó là nhiều doanh nghiệp hiện đang TRY để phát hiện bất thường ngoài 'bình thường' ( đơn giản hơn, nhưng vẫn tuân thủ) các truy vấn và quy tắc ...
Andrey Sapegin 14/03/2015

2

Tôi nghĩ rằng ở nơi đầu tiên bạn cần phải có một bộ dữ liệu ghi lại dữ liệu trong một khoảng thời gian không có cuộc tấn công. Bộ dữ liệu này sẽ nắm bắt các biến thể vốn có của một hệ thống hoạt động bình thường. Tôi muốn nhấn mạnh rằng đây không phải là về việc có một bộ dữ liệu chú thích.

Tiếp theo, tôi sẽ cố gắng kết hợp tất cả (hoặc tập hợp con) các số liệu thành một. Số liệu mới này sẽ phản ánh số lượng "bất ngờ". Ví dụ, giá trị thấp có nghĩa là hệ thống chạy bình thường, đỉnh / cao nguyên có giá trị cao có nghĩa là có một số thay đổi nhanh chóng. Ở đây tôi đang nghĩ về biểu đồ phong cách biểu đồ CUSUM hoặc Shewhart.

Bạn có thể cung cấp một số ví dụ về dữ liệu có sẵn? Có phải chủ yếu là chuỗi, số, chỉ số 1/0?


1

Một khả năng là tìm hiểu một mạng bayes giữa các tính năng được cung cấp một số dữ liệu nền không có các cuộc tấn công. Học một mạng bayesian rất hữu ích vì nó mang lại sự độc lập có điều kiện giữa các tính năng. Do đó, bạn không phải đối phó với mọi tính năng kết hợp có thể. Ví dụ: nếu tính năng A ảnh hưởng đến B và C và các tính năng B và C cùng ảnh hưởng đến D, thì bạn chỉ tìm hiểu một mô hình về cách A ảnh hưởng đến B, ảnh hưởng đến C và cách B và C cùng ảnh hưởng đến D. Mô hình này sẽ yêu cầu ít hơn nhiều tham số hơn toàn bộ phân phối xác suất và là lý do chính tại sao các mạng bayes được sử dụng thay vì chỉ lưu trữ toàn bộ phân phối xác suất chung. Để kiểm tra sự bất thường được cung cấp cho mạng Bayes, hãy tính xác suất của điểm dữ liệu đến bằng mô hình mạng Bayes đã học. Nếu xác suất rất thấp,


Vấn đề là cực kỳ phức tạp để lấy một mẫu dữ liệu mà không bị tấn công. Thường không ai biết nếu có một số cuộc tấn công trong bộ dữ liệu.
Andrey Sapegin

0

Tôi nghĩ rằng phản hồi từ Ben Kuhn là thực dụng và sâu sắc.

Bây giờ nền tảng của riêng tôi bao gồm phân loại văn bản, hệ thống chuyên gia, phân cụm và bảo mật. Với nền tảng này, tôi sẽ thích khi nghĩ rằng tôi có thể có một cái gì đó để thêm vào cuộc trò chuyện. Nhưng những tuyên bố trước đây của Ben Kuhn nhấn mạnh rằng các cách tiếp cận đơn giản có thể tạo ra nhiều điểm tích cực sai. Nhân viên CNTT, khi phải đối mặt với nhiều mặt tích cực giả, thường là "điều chỉnh" vì đơn giản là họ không có thời gian để theo đuổi các mặt tích cực giả mọi lúc.

Vậy lam gi?

Chắc chắn các bản ghi với các cuộc tấn công trong đó có thể hữu ích nhưng sau đó chúng tôi có một cái bẫy 22 trừ khi các công ty bằng cách nào đó chia sẻ dữ liệu tấn công. Trong khi một số công ty khởi nghiệp ở Thung lũng Silicon có thể đang theo đuổi việc chia sẻ mối đe dọa như vậy, chúng ta có thể làm gì khác?

Một cách tiếp cận có thể là tạo ra một mô phỏng của mạng và sau đó tìm cách tạo ra các cuộc tấn công chống lại mô phỏng. Đó là, giả sử chúng ta tạo ra một mô phỏng trong đó mũ đen (cũng được mô phỏng) không được biết trước với mũ trắng. Với các cuộc tấn công này, sau đó chúng ta có thể cố gắng tạo ra các thuật toán sẽ khám phá các cuộc tấn công này. Nếu những chiếc mũ đen hoạt động độc lập với những chiếc mũ trắng, thì chúng ta có một trận chiến thực sự sẽ diễn ra. Nếu những kẻ tấn công đột nhập vào hệ thống, hoặc không bị phát hiện, thì ở một mức độ nào đó, những chiếc mũ trắng đã thất bại.

Người ta thậm chí có thể có một cấu trúc khuyến khích khi các nhà phân tích bảo mật trong đội mũ đen được khen thưởng vì những thành công của họ (tấn công hoặc các cuộc tấn công chưa được khám phá). Tương tự như vậy, nhóm bao gồm những chiếc mũ trắng được khen thưởng vì đã ngăn chặn các lỗ hổng và / hoặc phát hiện các cuộc tấn công.

Không có gì hoàn hảo về sự sắp xếp này. Rõ ràng mũ đen thực sự có thể vượt quá tài năng của đội mũ đen "thân thiện". Tuy nhiên, với tư cách là người có số lượng phân tích dữ liệu khá lớn, đối với tôi, rất khó để định lượng sự thành công của mũ trắng mà không hiểu rõ hơn về mũ đen. Điểm mấu chốt là đây. Nếu chúng ta không thể biết những chiếc mũ đen thực sự đang làm gì, điều tốt nhất tiếp theo là những chiếc mũ đen thân thiện.

Tôi cũng có một ý tưởng khá bất thường. Giả sử ngoài những chiếc mũ đen thân thiện và những chiếc mũ trắng, còn có một đội mũ xám. Một chiếc mũ màu xám có nghĩa là gì? Ý tưởng rất đơn giản. Mũ xám được phép nhìn vào những gì mũ đen thân thiện đang làm và mũ trắng. Nhưng tại sao?

Giả sử rằng những chiếc mũ đen thân thiện khởi động các cuộc tấn công bằng cách sử dụng các phương pháp A, B và C, và những chiếc mũ trắng không bao giờ khám phá bất kỳ phương pháp nào trong ba phương pháp này. Chà, những chiếc mũ màu xám được trao quyền để xem xét những gì cả những chiếc mũ đen thân thiện đang làm cũng như những chiếc mũ trắng đang làm, và họ cố gắng xem xét những nguyên tắc nào có thể được sử dụng để khám phá những cuộc tấn công không bị phát hiện này. Nếu chiếc mũ màu xám tìm thấy những nguyên tắc như vậy, đội mũ xám sau đó có thể chia sẻ những nguyên tắc này với đội mũ trắng mà không mô tả chi tiết các cuộc tấn công chính xác.

Hy vọng là những "gợi ý" được cung cấp bởi đội mũ xám giúp đội mũ trắng đẩy đúng hướng mà không tiết lộ quá nhiều.

Nhìn lại, tôi xin lỗi nếu phản hồi của tôi thực sự không phải là về các kỹ thuật cụ thể. Rõ ràng phản ứng của tôi không phải là về kỹ thuật cụ thể. Nhưng theo kinh nghiệm của tôi, rất nhiều vấn đề trong học máy - bao gồm cả những vấn đề trong bảo mật - thường thất bại vì dữ liệu không đầy đủ. Cách tiếp cận này, sử dụng mũ trắng, mũ xám và mũ đen, có thể giúp tạo ra dữ liệu cho phép một công ty bảo mật (hoặc nhân viên IT) không chỉ định lượng hiệu quả phòng thủ của họ, mà còn cung cấp một cấu trúc tổ chức đẩy đội mũ trắng để dần dần cải thiện phòng thủ và giám sát của họ.

Tôi thực sự không có ý tưởng nào nếu cách tiếp cận mà tôi đề xuất là nguyên bản. Tôi chưa bao giờ nghe nói về mũ xám, nhưng tôi thực sự nghĩ rằng vai trò của mũ xám có thể rất quan trọng để đẩy đội trắng về phía trước, mà không tiết lộ quá nhiều.


Lưu ý: việc tôi sử dụng thuật ngữ "mũ xám" ở đây không chuẩn. Xem http://www.howtogeek.com/157460/hacker-hat-colors-explained-black-hats-white-hats-and-gray-hats/ . Vì vậy, một số thuật ngữ khác, có lẽ nên sử dụng "mũ sọc".

Nhưng ý tưởng vẫn giống nhau: một chiếc mũ sọc có thể giúp làm trung gian giữa công việc của những người bảo vệ và đội mũ đen thân thiện (mũ trắng), để những ý tưởng và gợi ý nhất định có thể được chia sẻ một cách thận trọng với những chiếc mũ trắng.


1
Có vẻ như bạn có thể đã vô tình tạo một tài khoản thứ hai - xem tại đây để biết cách hợp nhất chúng. Điều này sẽ cho phép bạn chỉnh sửa bài viết của riêng bạn.
Cá bạc

0

Vì tôi đã đăng câu hỏi ban đầu, tôi đã thực hiện rất nhiều nghiên cứu về chủ đề này và bây giờ có thể cung cấp kết quả của tôi dưới dạng câu trả lời.

Trước hết, trong phòng thí nghiệm của chúng tôi, chúng tôi phát triển một hệ thống SIEM sử dụng các thuật toán phát hiện bất thường. Mô tả về hệ thống và thuật toán có sẵn trong bài viết của tôi Hướng tới một hệ thống để phân tích phức tạp các sự kiện bảo mật trong các mạng quy mô lớn

Ngoài ra, tôi đã viết một bản tóm tắt ngắn về cách xử lý dữ liệu đó trong câu trả lời của tôi cho một câu hỏi tương tự trên Xác thực chéo

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.