Tin tức và phân tích của tất cả các thiết bị di động

Làm thế nào riêng tư khác biệt để giữ cho dữ liệu cả hữu ích và bí mật

Mặc dù nó thường sử dụng các thuật toán khá phức tạp, mục tiêu của tính toàn vẹn vi sai khá đơn giản: đảm bảo rằng những người có dữ liệu được thu thập có tính toàn vẹn như họ có thể nếu dữ liệu chưa bao giờ được ghi lại. Bạn sẽ không bao giờ có thể nhận dạng bất cứ ai chỉ bằng cách nhìn vào một tập hợp các thông tin được lưu trữ về họ.

Làm thế nào để toàn vẹn vi sai làm việc?

Vì dữ liệu về chúng tôi được thu thập với tốc độ chưa từng thấy và mọi người trở nên không thoải mái với nó, ý tưởng rằng tính toàn vẹn của bạn có thể được chứng minh về mặt toán học có thể khá tốt. Các công ty như Microsoft, Google, Apple, Facebookvà Uber đã triển khai nó dưới một hình thức nào đó hoặc đang tìm hiểu các lựa chọn thay thế của họ, nhưng ngay cả trước khi công nghệ lớn bắt đầu quan tâm, nó đã được sử dụng cho những thứ như dữ liệu nghiên cứu nhạy cảm, hồ sơ y tế và thậm chí là một phần của điều tra dân số Hoa Kỳ.

Nó thực hiện điều này bằng cách thêm nhiễu, vào chính thông tin được lưu trữ hoặc kết quả được trả về khi ai đó hỏi liệu nó có khuấy dữ liệu riêng lẻ không nhưng vẫn giữ dạng tổng thể. Tiếng ồn về cơ bản là không đều hoặc biến đổi dữ liệu không giải thích được và mục tiêu ở đây là chèn nhiễu vào các điểm dữ liệu riêng lẻ trong khi giữ các biện pháp tổng thể như trung bình, trung vị, vị trí và độ lệch chuẩn gần với vị trí trước đó.

Tính toàn vẹn đơn giản

Hãy tưởng tượng rằng bạn đã được chọn tham gia vào một nghiên cứu khoa học xã hội đột phá. Mặc dù đây là một nhược điểm: một số câu hỏi sẽ có khả năng gây lúng túng, hình sự hoặc gây rắc rối cho bạn. Giả sử bạn không muốn thấy tên mình bên cạnh dấu kiểm trong cột được đánh dấu. Thực sự thích mùa Game of Thrones gần đây.

Dữ liệu cho điều tra toàn vẹn vi sai

May mắn thay, các nhà nghiên cứu đã ẩn danh nghiên cứu. Thay vì một tên bạn nhận được một số ngẫu nhiên, nhưng thậm chí sau đó mọi người có thể sử dụng câu trả lời của bạn và giới hạn nó cho bạn.

Đó là một vấn đề thực sự xuất hiện khá nhiều trong thế giới thực, có lẽ được biết đến nhiều nhất khi các nhà nghiên cứu không chỉ xác định người dùng Netflix nhưng thậm chí tìm ra một số sở thích chính trị của họ. Nhưng điều gì sẽ xảy ra nếu chúng ta có thể thiết lập dữ liệu này cũng như khảo sát của mình để không ai đọc kết quả có thể biết chắc chắn mỗi người nói gì?

Thêm tiếng ồn với nắp đồng xu

Đây là một kỹ thuật mà chúng tôi có thể sử dụng để duy trì tính toàn vẹn của bạn và nhận được kết quả nhìn tổng thể như thể họ đang nói sự thật:

Biểu đồ dòng chảy lật đồng xu toàn vẹn
  1. Tự hỏi bản thân có / không có câu hỏi (Bạn có thích mùa Game of Thrones mới nhất không?). Bạn biến một đồng xu.
  2. Nếu đồng xu là người đứng đầu, sau đó lật đồng xu một lần nữa. (Không quan trọng bạn nhận được gì lần thứ hai.) Trả lời câu hỏi một cách trung thực. (Yes).
  3. Nếu có đuôi, sau đó lật đồng xu một lần nữa. Nếu đầu của nó, nói có. Nếu đó là đuôi, hãy nói không

Chúng tôi sẽ không nhìn vào đồng tiền, vì vậy chúng tôi không biết liệu nó có nói dối bạn không. Tất cả những gì chúng tôi biết là bạn có 50% cơ hội để nói sự thật và 50% cơ hội để nói có hoặc không.

Đồng xu toàn vẹn khác nhau tung

Câu trả lời của bạn sau đó được lưu bên cạnh tên hoặc số ID của bạn, nhưng bây giờ bạn có khả năng bị từ chối. Nếu ai đó buộc tội bạn thưởng thức mùa Game of Thrones cuối cùng, bạn có một sự bảo vệ được hỗ trợ bởi luật xác suất: việc lật đồng xu khiến bạn phải nói ra.

Các thuật toán thực tế mà hầu hết các công ty công nghệ sử dụng cho tính toàn vẹn khác biệt phức tạp hơn nhiều so với điều này (hai ví dụ dưới đây), nhưng nguyên tắc là như nhau. Bằng cách làm cho nó không rõ ràng nếu mỗi câu trả lời thực sự hợp lệ hoặc thậm chí thay đổi câu trả lời ngẫu nhiên, các thuật toán này có thể đảm bảo rằng cho dù có bao nhiêu câu hỏi mà ai đó gửi đến cơ sở dữ liệu, họ sẽ không thể nhận dạng bất kỳ ai.

Tuy nhiên, không phải tất cả các cơ sở dữ liệu đều xử lý việc này theo cùng một cách. Một số chỉ áp dụng các thuật toán khi thông tin được yêu cầu, có nghĩa là thông tin đó vẫn được lưu trữ ở dạng ban đầu của nó ở đâu đó. Rõ ràng, đây không phải là kịch bản bảo mật hoàn hảo, nhưng áp dụng quyền riêng tư khác nhau bất cứ lúc nào tốt hơn là đẩy dữ liệu thô ra thế giới.

Nó được sử dụng như thế nào?

Apple

Tính toàn vẹn khác biệt Apple Hademard Nghĩa đếm phác thảoThuật toán phác họa trung bình Sử dụng Apple cho toàn vẹn vi sai

Apple sử dụng quyền riêng tư khác biệt để che giấu dữ liệu người dùng cá nhân trước khi chúng được gửi cho họ, với logic rằng nếu nhiều người gửi dữ liệu của họ, tiếng ồn sẽ không có tác động đáng kể đến dữ liệu tổng hợp. Họ sử dụng một kỹ thuật có tên là Count Mean Sketch, về cơ bản có nghĩa là thông tin được mã hóa, các bit ngẫu nhiên được thay đổi và sau đó phiên bản không chính xác được giải mã và gửi đến Apple để phân tích. Nó thông báo những thứ như gợi ý đánh máy của họ, mẹo tra cứu và thậm chí là biểu tượng cảm xúc bật lên khi bạn gõ một từ.

Google

Bước đột phá lớn đầu tiên của Google vào tính toàn vẹn khác biệt là RAPPOR (Phản hồi thích hợp bảo vệ quyền riêng tư có thể tổng hợp ngẫu nhiên), chạy dữ liệu thông qua bộ lọc và thay đổi ngẫu nhiên các bit của nó bằng một phiên bản của phương pháp lật đồng xu được mô tả ở trên. Ban đầu, họ đã sử dụng nó để thu thập dữ liệu lỗ hổng trong trình duyệt Chrome và từ đó đã áp dụng tính toàn vẹn khác biệt ở nơi khác, chẳng hạn như tìm hiểu mức độ bận rộn của một công ty tại một thời điểm nhất định mà không tiết lộ hoạt động của từng người dùng. Họ đã thực sự mở dự án, vì vậy có thể có nhiều ứng dụng hiển thị dựa trên công việc của họ.

Tại sao không phải tất cả thông tin được xử lý theo cách này?

Tính toàn vẹn khác biệt hiện tại hơi phức tạp để thực hiện và nó có một trao đổi chính xác có thể tác động tiêu cực đến dữ liệu quan trọng trong một số trường hợp. Một thuật toán học máy sử dụng dữ liệu được tư nhân hóa cho nghiên cứu y tế nhạy cảm có thể phạm sai lầm đủ lớn để giết người, chẳng hạn. Tuy nhiên, nó đã được sử dụng thực sự trong thế giới công nghệ và được nâng cao nhận thức của công chúng về quyền riêng tư dữ liệu, có một cơ hội tốt để xem sự riêng tư có thể chứng minh về mặt toán học là một điểm bán hàng trong tương lai.

Ảnh tín dụng: luồng dữ liệu repor, Thuật toán phía máy chủ cho Hademard Mean Count Sketch, Gói dữ liệu khảo sát R-MASS, Cây có xác suất – lật một đồng xu

Đọc tiếp:

Bài viết này có hữu ích không?

Mục lục