Tin tức và phân tích của tất cả các thiết bị di động

Dữ liệu được cho là ẩn danh không nhất thiết phải như vậy

Việc kiểm tra chéo dữ liệu ẩn danh tiên nghiệm có thể dẫn đến việc tìm ra danh tính của một người, ít nhiều đơn giản hơn. Một nhà nghiên cứu người Mỹ đến từ Princeton đã đánh dấu con bù nhìn này trong khi cùng lúc đó, tại Pháp, Bộ trưởng Bộ Y tế đang đẩy nhanh việc mở dữ liệu công khai.

0104000007507619-photo-nặc danh.jpg

Mỗi buổi sáng, bạn có thể đến cùng một quán cà phê và gọi một món giống nhau. Sau một thời gian, người pha chế sẽ biết thói quen của bạn nhưng không biết danh tính của bạn – nếu bạn không bao giờ nói chuyện với anh ta. Nhưng bằng cách quan sát một chút, anh ấy sẽ có thể hiểu thêm về bạn. Nó ít nhiều giống với logic trong thế giới thu thập dữ liệu trên Internet. Ví dụ, ngành công nghiệp quảng cáo trực tuyến rất thích dữ liệu duyệt web và hồ sơ.

Trong điều lệ của mình, công ty nhắm mục tiêu lại quảng cáo của Pháp Criteo giải thích: “Chúng tôi không biết bạn là ai. Chúng tôi không biết địa chỉ, nơi làm việc, ngày sinh, địa chỉ email, số điện thoại hoặc bất kỳ dữ liệu cá nhân nào khác của bạn. Chúng tôi không sử dụng hoặc lưu trữ địa chỉ IP của bạn cho các mục đích nhắm mục tiêu. » Criteo chỉ sưu tầm “Dữ liệu ẩn danh”, thông qua cookie. Chúng liên quan đến hành vi trực tuyến, độ tuổi hoặc giới tính và loại máy tính.

Nghệ thuật kiểm tra chéo dữ liệu

Tuy nhiên, thông tin này sẽ không đủ để tìm ra danh tính của một người dùng Internet? Đây là luận án được bảo vệ bởi một nhà nghiên cứu khoa học máy tính người Mỹ, Arvind Narayanan, trích dẫn bởi Qwartz. Anh ấy giải thích điều này trong một bài báo có tiêu đề “Không có giải pháp kỳ diệu: ẩn danh vẫn không tồn tại”một phản hồi cho sách trắng của Quỹ Sáng tạo và Công nghệ Thông tin (.pdf), lập luận rằng tính năng ẩn danh hoạt động.

Lấy dữ liệu vị trí, dữ liệu ngày càng được các nhà quảng cáo xem xét kỹ lưỡng khi doanh nghiệp của họ chuyển sang thiết bị di động. Theo Arvind Narayanan, nhớ lại một nghiên cứu năm 2013 về chủ đề này, 95% chủ sở hữu của smartphones có thể được xác định lại bằng cách vượt qua ít nhất bốn vị trí địa lý của chúng, chẳng hạn như những vị trí có trong siêu dữ liệu của ảnh chụp trên thiết bị di động. Dựa trên hai địa điểm, chẳng hạn như hành trình làm việc tại nhà định kỳ, 50% mọi người sẽ có thể nhận dạng được.

Hai lỗ hổng ẩn danh

Bruno Rasle, đại biểu chung của Hiệp hội phóng viên bảo vệ dữ liệu cá nhân của Pháp (AFCDP), được thành lập sau khi sửa đổi Đạo luật bảo vệ dữ liệu vào năm 2004, giải thích với chúng tôi rằng hai trường hợp có thể khiến các cá nhân phải làm việc để bên thứ ba nhận dạng lại.

Đầu tiên là nội bộ công ty. “Khi các nhóm CNTT thử nghiệm một phiên bản phần mềm mới, họ muốn dựa trên dữ liệu thực, vì vậy đôi khi họ sử dụng dữ liệu cơ sở trong sản xuất. Không phải lúc nào các công ty cũng đo lường được rủi ro, đặc biệt là khi các phát triển được thực hiện bởi một nhà cung cấp dịch vụ nước ngoài và do đó phải tuân theo một luật khác … ”cảnh báo của bác sĩ chuyên khoa.

Vi phạm tiềm năng thứ hai là trọng tâm của phong trào dữ liệu mở, tức là việc mở miễn phí dữ liệu của một tổ chức tư nhân hoặc công cộng. Bruno Rasle tiếp tục: “Những dữ liệu này đã được làm sạch các định danh, nhưng điều đó có thể là chưa đủ. Trong một hội nghị AFCDP, một bác sĩ đã chứng minh rằng Bộ Y tế công bố dữ liệu mà ông cho là ẩn danh, nhưng bằng cách gạch chéo chúng với thông tin khác, cuối cùng chúng tôi có thể tìm ra tên của một số người nhất định cũng như bệnh lý của họ. »

Chuyên gia bảo mật dữ liệu cho biết thêm rằng dữ liệu được chia sẻ trong bối cảnh dữ liệu mở không bao giờ có thể bị loại bỏ hoàn toàn nội dung của chúng, có nguy cơ trở nên không thú vị và do đó không được khai thác. Để minh họa cho các giới hạn của nó, ông trích dẫn một thử nghiệm được thực hiện bằng cách kết hợp dữ liệu từ Insee và Google Maps để tìm ra danh tính của chủ sở hữu một khu đất … Một kết quả thu được, một lần nữa, từ dữ liệu ẩn danh khi bị cô lập, nhưng tạo ra nhiều ý nghĩa khi được liên kết.

0140000007507621-photo-data-sant.jpg

Sức khỏe trung tâm của các cuộc tranh luận

Tại Pháp, nơi luật tương lai về quyền truy cập dữ liệu y tế đang được chuẩn bị, Bộ trưởng Bộ Xã hội Marisol Touraine nói với chính mình “thuyết phục mạnh mẽ và kiên quyết quyết tâm để đảm bảo rằng quyền truy cập vào dữ liệu này được cải thiện”. Nhưng cô ấy nói thêm rằng cô ấy không muốn “mở mà không có giới hạn bởi vì có, trái với những gì một số tuyên bố, rủi ro của việc xác định lại gián tiếp”. Bộ trưởng mong muốn “phân biệt càng rõ ràng càng tốt dữ liệu ẩn danh với những dữ liệu được đề cử gián tiếp”.

Về chủ đề nhạy cảm này, Arvind Narayanan cảnh báo. Ông lấy ví dụ về Latanya Sweeney, hiện là người đứng đầu bộ phận công nghệ của Ủy ban Thương mại Liên bang Hoa Kỳ nhưng người, vào năm 1997, đã tìm cách lấy được hồ sơ y tế của Thống đốc William Weld từ dữ liệu công khai. Để đạt được điều này, cô đã sử dụng dữ liệu từ cơ sở dữ liệu y tế bao gồm giới tính, ngày sinh và mã bưu điện của bệnh nhân, trước khi kiểm tra chéo với thông tin mà thống đốc biết … Đối với những người khác, dữ liệu này có thể được lấy khi bỏ phiếu. danh sách hoặc trên mạng xã hội.

Vẫn ở Hoa Kỳ, mạng Heritage Health đang làm việc trên một thuật toán sử dụng dữ liệu công khai và lịch sử y tế của công dân để dự đoán số lần nhập viện trong tương lai, nhưng cả những trường hợp được cho là không cần thiết. Điều này là để tiết kiệm 30 tỷ đô la hàng năm mà tổ chức ước tính bị lãng phí. Một cuộc thi với sự ủng hộ của 3 triệu đô la thậm chí còn được tạo ra để thưởng cho các nhà phát triển có thể xác định lại bệnh nhân và dự đoán họ sẽ nằm viện bao nhiêu ngày. Theo Arvind Narayanan, 12% số người có thể chịu chung số phận, dựa trên dữ liệu của họ.

Nhưng cảnh sát đang làm gì?

Kể từ lần sửa đổi năm 2005 của Ủy ban tiếp cận tài liệu hành chính, có quyền hạn mới về việc tái sử dụng dữ liệu công cộng, “Bất kỳ công ty nước ngoài nào cũng có thể trích xuất và kiểm tra chéo dữ liệu hành chính mà không có đài quan sát nào ở Pháp phát hiện ra”Bruno Rasle nói. “Công ty này phần lớn có thể kiếm tiền từ dữ liệu này”ông nói thêm, chỉ rõ rằng bản sửa đổi sắp tới của Chỉ thị Châu Âu 95 46 CE có thể buộc các công ty này phải tuân theo luật pháp Châu Âu.

Bruno Rasle giải thích với chúng tôi rằng khái niệm khó khăn được công lý Mỹ và Đức tính đến. “Nếu tôi gửi đơn khiếu nại ở Hoa Kỳ vì dữ liệu của tôi không được bảo vệ đầy đủ, công lý sẽ xem xét những nỗ lực được thực hiện để phá vỡ sự ẩn danh này. Ở Pháp, nó nghiêm ngặt hơn. Việc ai đó đã tìm cách xác định lại một người để công ty bị phát hiện có lỗi là đủ rồi ”, nhấn mạnh chuyên gia. Nhưng đối với anh ấy, việc ẩn danh hoàn toàn gần như là không thể. Vì vậy, ông đề xuất thành lập một đài quan sát độc lập.

Đối với quyền truy cập vào dữ liệu y tế ở Pháp, Marisol Touranie tưởng tượng rằng Cnil quản lý việc cấp phép cho tất cả các nhà nghiên cứu, dù là nhà nước hay tư nhân. Đối với Bộ trưởng, không có câu hỏi về việc cung cấp dữ liệu này “Chiến lược tiếp thị của các công ty tư nhân” .