Bagaimana privasi membedakan untuk menjaga data tetap berguna dan rahasia

Catatan: Dalam topik berikutnya yang akan Anda baca, Anda akan mempelajari tentang: Bagaimana privasi membedakan untuk menjaga data tetap berguna dan rahasia

Meskipun sering menggunakan algoritme yang cukup rumit, tujuan dari integritas diferensial cukup sederhana: untuk memastikan bahwa orang yang datanya dikumpulkan memiliki integritas semampu mereka jika data tersebut tidak pernah direkam. Anda tidak akan pernah dapat mengidentifikasi siapa pun hanya dengan melihat sekumpulan informasi yang tersimpan tentang mereka.

Bagaimana cara kerja integritas diferensial?

Karena data tentang kami dikumpulkan dengan kecepatan yang belum pernah terjadi sebelumnya dan orang-orang menjadi tidak nyaman dengannya, gagasan bahwa integritas Anda dapat dibuktikan secara matematis cukup bagus. Perusahaan seperti Microsoft, Google, AppleFacebook, dan Uber telah mengimplementasikannya dalam beberapa bentuk atau sedang menjajaki alternatif mereka, tetapi bahkan sebelum teknologi besar tertarik, itu digunakan untuk hal-hal seperti data penelitian, penelitian sensitif, catatan medis, dan bahkan bagian dari sensus AS.

Ini dilakukan dengan menambahkan noise, baik ke informasi yang disimpan itu sendiri, atau ke hasil yang dikembalikan ketika seseorang bertanya apakah itu mengaduk data individual tetapi mempertahankan bentuk keseluruhannya. Kebisingan pada dasarnya adalah variasi data yang tidak teratur atau tidak dapat dijelaskan, dan tujuannya di sini adalah untuk memasukkan kebisingan ke dalam titik data individual sambil menjaga ukuran keseluruhan seperti rata-rata, median, lokasi, dan standar deviasi mendekati posisi sebelumnya.

Integritas sederhana

Bayangkan Anda telah dipilih untuk berpartisipasi dalam studi ilmu sosial yang inovatif. Namun, inilah tangkapannya: beberapa pertanyaan berpotensi mempermalukan, kriminal, atau membuat Anda dalam masalah. Katakanlah Anda tidak ingin melihat nama Anda di samping tanda centang di kolom yang disorot. Sangat menikmati musim Game of Thrones baru-baru ini.

Untungnya, para peneliti menganonimkan studi tersebut. Alih-alih nama, Anda mendapatkan nomor acak, tetapi meskipun demikian orang dapat menggunakan jawaban Anda dan membatasinya untuk Anda.

Ini adalah masalah yang sebenarnya muncul cukup banyak di dunia nyata, mungkin paling dikenal sebagai peneliti yang tidak hanya mengidentifikasi pengguna Netflix tetapi bahkan mencari tahu beberapa preferensi politik mereka. Tetapi bagaimana jika kita dapat menyiapkan data ini dan juga survei kita sehingga tidak ada yang membaca hasilnya dapat mengetahui dengan pasti apa yang dikatakan setiap orang?

Tambahkan kebisingan dengan tutup koin

Inilah teknik yang dapat kami gunakan untuk mempertahankan integritas Anda dan mendapatkan hasil yang seolah-olah mengatakan kebenaran:

Bagan alur balik koin integritas
  1. Ajukan pertanyaan ya/tidak pada diri sendiri (Apakah Anda menyukai season terbaru Game of Thrones?). Anda memutar koin.
  2. Jika koin berada di atas, maka lempar koin lagi. (Tidak masalah apa yang Anda dapatkan untuk kedua kalinya.) Jawab pertanyaannya dengan jujur. (Ya).
  3. Jika ada ekor, lempar koin lagi. Jika itu atas, katakan ya. Jika itu ekornya, katakan tidak

Kami tidak akan melihat koin itu, jadi kami tidak tahu apakah itu berbohong kepada Anda. Yang kami tahu adalah Anda memiliki 50% peluang untuk mengatakan yang sebenarnya dan 50% peluang untuk mengatakan ya atau tidak.

Lemparan koin integritas yang berbeda

Jawaban Anda kemudian disimpan di sebelah nama atau nomor ID Anda, tetapi sekarang Anda berpotensi ditolak. Jika seseorang menuduh Anda menikmati musim terakhir Game of Thrones, Anda memiliki pembelaan yang didukung oleh hukum probabilitas: lemparan koin membuat Anda angkat bicara.

Algoritme sebenarnya yang digunakan sebagian besar perusahaan teknologi untuk integritas diferensial jauh lebih rumit daripada ini (dua contoh di bawah), tetapi prinsipnya sama. Dengan membuat tidak jelas apakah setiap jawaban benar-benar valid atau bahkan mengubah jawaban secara acak, algoritme ini dapat memastikan bahwa tidak peduli berapa banyak pertanyaan yang dikirim seseorang ke database, database, mereka tidak akan dapat mengidentifikasi siapa pun.

Namun, tidak semua database menangani hal ini dengan cara yang sama. Beberapa menerapkan algoritma hanya ketika informasi diminta, yang berarti bahwa informasi tersebut masih tersimpan dalam bentuk aslinya di suatu tempat. Jelas, ini bukan skenario keamanan yang sempurna, tetapi menerapkan privasi secara berbeda setiap saat lebih baik daripada menyebarkan data mentah ke dunia luar.

Bagaimana ini digunakan?

Apple

Integritas yang berbeda Apple Hademard Arti menghitung sketsaPenggunaan Algoritma Sketsa Rata-Rata Apple untuk integritas diferensial

Apple menggunakan privasi diferensial untuk menutupi data pengguna individual sebelum dikirimkan kepada mereka, dengan logika bahwa jika beberapa orang mengirimkan datanya, gangguan tersebut tidak akan berdampak signifikan pada data gabungan . Mereka menggunakan teknik yang disebut Count Mean Sketch, yang pada dasarnya berarti informasi dienkripsi, bit acak diubah dan kemudian versi yang salah diterjemahkan dan dikirim ke Apple untuk analisis. Itu mengumumkan hal-hal seperti saran pengetikan, kiat pencarian, dan bahkan emoji yang muncul saat Anda mengetik kata.

Google

Perampokan besar pertama Google ke dalam integritas diferensial adalah RAPPOR (Respons Relevansi Perlindungan Privasi yang Disintesis Secara Acak), yang menjalankan data melalui filter dan mengubah bitnya secara acak dengan versi metode lempar koin yang dijelaskan di atas. Mereka awalnya menggunakannya untuk mengumpulkan data kerentanan di browser Chrome, dan sejak itu menerapkan integritas diferensial di tempat lain, seperti memahami seberapa sibuk suatu perusahaan pada waktu tertentu tanpa mengungkapkan aktivitas pengguna individu. Mereka benar-benar membuka proyeknya, jadi mungkin ada beberapa aplikasi yang muncul berdasarkan pekerjaan mereka.

Mengapa tidak semua informasi diproses dengan cara ini?

Integritas diferensial saat ini agak rumit untuk diterapkan, dan memiliki pertukaran yang tepat yang dapat berdampak negatif pada data penting dalam beberapa kasus. Algoritme pembelajaran mesin yang menggunakan data yang diprivatisasi untuk penelitian medis yang sensitif dapat membuat kesalahan yang cukup besar untuk dibunuh, misalnya. Namun, mengingat penggunaannya yang nyata di dunia teknologi dan meningkatkan kesadaran publik tentang privasi data, ada peluang bagus untuk melihat apa yang dapat dibuktikan secara matematis sebagai nilai jual di masa depan.

Kredit gambar: aliran data repo, Algoritma sisi-server untuk Sketsa Perhitungan Rata-Rata Hademard, Paket Data Survei R-MASS, Pohon Probabilitas – lempar koin

Lanjut membaca:

Apakah artikel ini berguna?

Pos terkait

Back to top button