Có những công cụ nào để che giấu dữ liệu? (MySQL, Linux) [đã đóng]


14

Tôi đang tìm kiếm các công cụ che giấu dữ liệu (miễn phí, nguồn mở) lý tưởng. Có tồn tại như vậy?

Lưu ý: câu hỏi liên quan này liên quan đến các công cụ tạo dữ liệu thử nghiệm, nhưng trong câu hỏi này tôi quan tâm hơn đến việc bắt đầu với dữ liệu thực và che giấu nó để sử dụng trong thử nghiệm mà không mất bất kỳ mối quan hệ đặc biệt nào khiến nó thú vị cho mục đích thử nghiệm. Dữ liệu được tạo ra là tốt cho một số mục đích thử nghiệm, nhưng dữ liệu trong thế giới thực sẽ đưa ra các vấn đề bạn không bao giờ nghĩ tới. Công cụ tạo bộ dữ liệu lớn của dữ liệu thử nghiệm

Câu trả lời:


9

Tôi sẽ rất ngạc nhiên nếu có một công cụ chung cho việc này - làm thế nào nó "biết" dữ liệu nhạy cảm là gì và không phải là gì? Ví dụ: sẽ cần kiểm tra tất cả dữ liệu của bạn và nhận ra tất cả các định dạng có thể có của số thẻ tín dụng, số điện thoại, mã bưu điện, địa chỉ email và bất kỳ dữ liệu nào khác được coi là nhạy cảm. Bạn cũng cần phải thông minh về lược đồ của mình - ví dụ: nó nên viết lại tất cả các địa chỉ email của khách hàng thành "none@company.com" - hoặc bất kỳ phần nào trong cơ sở dữ liệu, ứng dụng, các công cụ khác của bạn cho rằng địa chỉ email của khách hàng (hoặc SSN hoặc bất cứ điều gì) là duy nhất? Hoặc bạn có một phần của ứng dụng kiểm tra số thẻ tín dụng, sẽ bị hỏng nếu bạn đặt lại tất cả thành 0000 0000 0000 0000? Hoặc hệ thống điện thoại của bạn cho rằng khách hàng '

Về cơ bản, việc cấu hình bất kỳ công cụ nào để thực hiện nó sẽ là công việc nhiều hoặc nhiều hơn là chỉ viết kịch bản của riêng bạn, sử dụng kiến ​​thức của bạn về ứng dụng. Tại trang web của tôi, chúng tôi chỉ đơn giản đưa ra chính sách rằng bất kỳ ai thêm một cột có dữ liệu đó vào cập nhật tập lệnh để ẩn danh nó cùng một lúc, sau lần kiểm tra ban đầu để tìm tất cả các cột đó và viết phiên bản 1.


1
Tôi biết có những công cụ thương mại, vì ở nơi làm việc trước đây đã có một sáng kiến ​​(thất bại) để sử dụng một công cụ cho các dbs Oracle của chúng tôi. (Tôi không tham gia vào dự án đó, vì vậy tôi không biết lý do thất bại. Tôi nghi ngờ rằng việc thiết lập một công cụ che giấu dữ liệu cho db kế thừa sẽ là một nhiệm vụ rất tẻ nhạt, như bạn đề xuất).
thử nghiệm

3
Ồ tôi hy vọng ai đó sẽ bán cho bạn thứ gì đó tự xưng là cái này, nhưng như tôi nói, việc cấu hình nó sẽ hiệu quả hơn là tự viết bằng SQL vì trước tiên bạn phải học DSL của họ!
Gaius

5

Nếu cơ sở dữ liệu của bạn nhỏ, có một mô hình dữ liệu đơn giản và được hiểu rõ bởi các DBA hiện tại - kịch bản có thể có thể là câu trả lời. Tuy nhiên, nỗ lực (và chi phí) để phân tích thủ công và che giấu cơ sở dữ liệu điển hình có thể nhanh chóng vượt qua khi yêu cầu thay đổi, chức năng được thêm vào và nhà phát triển / DBA đến và đi.

Mặc dù tôi không biết về bất kỳ sản phẩm che giấu dữ liệu nguồn mở nào, có những sản phẩm thương mại có sẵn toàn diện hợp lý, tương đối dễ sử dụng và có thể là chi phí hợp lý đáng ngạc nhiên. Nhiều trong số chúng bao gồm khả năng khám phá bên ngoài để xác định và phân loại dữ liệu nhạy cảm (SSN, thẻ tín dụng, số điện thoại) cũng như chức năng để duy trì tổng kiểm tra, định dạng địa chỉ email, nhóm dữ liệu, v.v. ngoại hình và cảm giác thật.

Nhưng bạn không cần phải dùng từ (thiên vị thừa nhận) của tôi cho nó. Hãy hỏi các nhà phân tích trong ngành như Gartner hoặc Forrester, người có một số báo cáo không thiên vị có sẵn về mặt nạ có thể giúp ích.

Hy vọng những bình luận này sẽ khuyến khích bạn xem xét việc khám phá các sản phẩm thương mại cũng như phát triển kịch bản nội bộ. Vào cuối ngày, điều quan trọng nhất là bảo vệ dữ liệu nhạy cảm mà nhiều người trong chúng ta thấy ngày này qua ngày khác mà chúng ta thực sự không cần phải làm để thực hiện công việc của mình - đặt chúng ta và những người có cá nhân dữ liệu chúng tôi có nguy cơ.

Kevin Hillier, Chuyên gia tích hợp cao cấp, Ngụy trang phần mềm Inc.


1
Tôi nhận ra rằng bạn không muốn bắt gặp việc bán sản phẩm của riêng mình, nhưng sẽ hữu ích nếu bạn có thể đặt tên cho một vài sản phẩm thương mại hoặc chỉ ra một số lời khuyên cụ thể?
thử nghiệm

1
Tôi hiểu rằng bạn làm việc cho công ty này và bạn có thể muốn giới thiệu sản phẩm của riêng mình và không phản đối điều đó, nhưng vì sig trông giống như một quảng cáo nội tuyến phù phiếm, thay vì "Tôi biết tôi đang nói về điều gì , bởi vì đó là những gì tôi làm "... Tôi tin vào sự thuyết phục của" sử dụng blah blah blah (Tiết lộ đầy đủ: Tôi làm việc trên sản phẩm này) bởi vì blah blah blah "và không đặt tên của bạn ở cuối. Nếu chúng tôi muốn thông tin cá nhân của bạn, chúng tôi có thể nhấp vào hồ sơ của bạn và đọc sig đó và nhấp vào liên kết ở đó.
jcolebrand

5

Chưa bao giờ nhìn thấy một mục như vậy, nhưng đã làm việc với một vài bộ dữ liệu nhạy cảm trong thời gian của tôi, điều chính cần phải tranh giành là danh tính của mọi người hoặc thông tin nhận dạng cá nhân. Đây nên chỉ làm cho xuất hiện ở một vài nơi trong cơ sở dữ liệu.

Hoạt động mặt nạ của bạn phải giữ lại các thuộc tính và mối quan hệ thống kê của dữ liệu và có thể cần giữ lại mã tham chiếu thực tế (hoặc ít nhất là một số loại cơ chế dịch được kiểm soát) để bạn có thể điều chỉnh dữ liệu đó với dữ liệu thực tế.

Loại điều này có thể đạt được bằng cách lấy một danh sách riêng biệt các tên trong các trường và thay thế nó bằng một cái gì đó như FirstNameXXXX (trong đó XXXX là một số thứ tự, một cho mỗi giá trị riêng biệt). Số thẻ tín dụng và thông tin tương tự có thể được sử dụng để đánh cắp danh tính rất có thể là không có trong môi trường phát triển, nhưng bạn chỉ cần số thật nếu bạn đang thử nghiệm hệ thống xử lý thanh toán - thông thường nhà cung cấp sẽ cung cấp cho bạn các mã đặc biệt cho các tài khoản giả.

Không khó để viết các thủ tục ẩn danh thuộc loại này, nhưng bạn sẽ cần phải đồng ý chính xác những gì cần được ẩn danh với doanh nghiệp. Nếu cần thiết, đi qua trường cơ sở dữ liệu theo trường. Hỏi có / không sẽ cung cấp cho bạn những thông tin sai lệch mà bạn không muốn. Yêu cầu đại diện doanh nghiệp giải thích lý do tại sao, hoặc hậu quả hoặc ý nghĩa quy định của việc không ẩn danh dữ liệu cụ thể.


3

Tôi đã có nhiệm vụ tương tự vài tuần trước. chúng tôi đã đánh giá một số hệ thống phần mềm, nhưng hầu hết chúng chỉ dành cho chính xác một loại cơ sở dữ liệu, ví dụ như oracle và chúng thường rất phức tạp để sử dụng ... vì vậy uhm không phải là thứ đẹp nhất để đánh giá điều này. Chúng tôi mất nhiều tuần.

Chúng tôi quyết định mua phiên bản chuyên nghiệp của bộ mặt nạ dữ liệu vì đây là phiên bản dễ sử dụng nhất. Nó cũng có khả năng tuyệt vời để che giấu dữ liệu, ví dụ: bạn có thể thay đổi địa chỉ email thành địa chỉ thực, ví dụ ... @ siemens.com thành mike.miller@seimsen.com.

Bạn có thể dùng thử miễn phí cho khoảng 500 (?) Bản ghi theo như tôi nhớ.

Đây là liên kết http://www.data-masking-tool.com/


1
Chỉ là một điểm dữ liệu: kể từ khi viết bài này, công cụ mặt nạ dữ liệu chỉ chạy khoảng 1.000 đô la.
Michael Teper

2

Cách của tôi để làm điều này:

  1. Tạo cơ sở dữ liệu mới chỉ với chế độ xem và chọn quyền cho người dùng
  2. Đặt chế độ xem cho các bảng có thể xem được trong các cơ sở dữ liệu khác
  3. Các cột mặt nạ cần che bởi: repeat ('*', char_length ( column to be masked))

2

Lần đầu tiên tôi đã nêu ra con đường này vài năm trước và từ đó đã xây dựng một tư vấn dựa trên thực tiễn này.

Tôi giả định rằng mục đích là để xây dựng dữ liệu thử nghiệm để sử dụng trong môi trường thử nghiệm nơi những người đó truy cập dữ liệu không có quyền xem thông tin sản xuất.

Điều đầu tiên cần thiết lập là chính xác những yếu tố dữ liệu bạn cần che giấu và để làm điều đó tốt nhất là bắt đầu với một công cụ khám phá dữ liệu như Schema Spy (Nguồn mở) và bạn sẽ cần trình điều khiển jdbc có liên quan cho nhiệm vụ này nhưng nó là một bước rất hữu ích trong quá trình.

Talend Open Studio là một trong những công cụ tốt nhất tôi đã sử dụng trong những năm gần đây để thực hiện một số chức năng ETL và bạn cũng sẽ có thể thực hiện một số thực hành che giấu cơ bản bằng cách thay thế các giá trị bằng ngẫu nhiên hoặc. Tra cứu / thay thế - để duy trì tính nhất quán - sử dụng thành phần bản đồ.

Nhưng nếu bạn đang tìm kiếm một công cụ che giấu dữ liệu thực sự thì tôi đã không tìm thấy một công cụ nguồn mở phù hợp. Nếu bạn có ngân sách rất vừa phải cho các công cụ, tôi sẽ đề xuất Data Masker nhưng bạn sẽ cần thực hiện một số thao tác nhập và xuất thông qua MS SQL hoặc Oracle vì nó chỉ kết nối qua các giao thức đó.

Kiểm tra http: //www.datak Kitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset để biết thông tin về mặt nạ dữ liệu, phương pháp che giấu dữ liệu, phát hiện dữ liệu và dữ liệu thử nghiệm sự quản lý. Ngoài ra còn có một blog hữu ích tại http://www.dataobfuscation.com.au


1

Có một công cụ có sẵn trên Thị trường từ Informatica được gọi là Informatica ILM (TDM). Điều này sử dụng PowerCenter làm dự phòng cho ETL và che giấu dữ liệu với các tùy chọn mặt nạ khác nhau có sẵn. Rõ ràng bạn cần một nhà phân tích dữ liệu hoặc doanh nghiệp vừa và nhỏ, người có thể hiểu cách dữ liệu nên được che dấu. Bản thân công cụ không cung cấp thông tin những trường nào cần được che dấu, tuy nhiên, có một thuật toán hoặc quy trình nội bộ hoặc quy trình để xác định các trường dữ liệu senstive như Tên, cột ID có số, Thẻ tín dụng, Số SSN, Số tài khoản, v.v.


Ngoài ra, Informatica ILM TDM cho phép tạo tập hợp dữ liệu. Vì vậy, bạn có thể tập hợp dữ liệu và che giấu nó hoặc Mặt nạ tất cả dữ liệu sau đó tập hợp con theo nhu cầu kinh doanh.
Awadhesh Yona

1

Năm nay tôi có cơ hội làm việc với IBM Optim, tuyên bố sẽ làm những gì được yêu cầu. Không miễn phí, nhưng nó hoạt động tốt.


1

Thứ tôi thích nhất là IRI FieldShield ( https://www.iri.com/products/fieldshield ) về tính linh hoạt (hầu hết các chức năng che giấu dữ liệu), tốc độ (công cụ CoSort để di chuyển dữ liệu bên trong) và công thái học (công việc 4GL đơn giản được hỗ trợ trong GUI Eclipse với hàng tấn kết nối tệp và DB). Về giá cả, đó là khoảng một nửa IBM và Informatica, mặc dù cũng có sẵn trong một bộ tích hợp dữ liệu lớn hơn để chuyển đổi dữ liệu 'lớn', di chuyển và BI. Vì vậy, nó cũng không miễn phí, nhưng sử dụng một số nguồn mở (IDE và có thể sử dụng OpenSSL và GPG) và các tập lệnh chạy trên Windows, Linux và các hương vị Unix khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.