Bagaimana privasi membedakan untuk menjaga data tetap berguna dan rahasia

0 3 minutes read

Catatan: Dalam topik berikutnya yang akan Anda baca, Anda akan mempelajari tentang: Bagaimana privasi membedakan untuk menjaga data tetap berguna dan rahasia

Meskipun sering menggunakan algoritme yang cukup rumit, tujuan dari integritas diferensial cukup sederhana: untuk memastikan bahwa orang yang datanya dikumpulkan memiliki integritas semampu mereka jika data tersebut tidak pernah direkam. Anda tidak akan pernah dapat mengidentifikasi siapa pun hanya dengan melihat sekumpulan informasi yang tersimpan tentang mereka.

Bagaimana cara kerja integritas diferensial?

Karena data tentang kami dikumpulkan dengan kecepatan yang belum pernah terjadi sebelumnya dan orang-orang menjadi tidak nyaman dengannya, gagasan bahwa integritas Anda dapat dibuktikan secara matematis cukup bagus. Perusahaan seperti Microsoft, Google, AppleFacebook, dan Uber telah mengimplementasikannya dalam beberapa bentuk atau sedang menjajaki alternatif mereka, tetapi bahkan sebelum teknologi besar tertarik, itu digunakan untuk hal-hal seperti data penelitian, penelitian sensitif, catatan medis, dan bahkan bagian dari sensus AS.

Ini dilakukan dengan menambahkan noise, baik ke informasi yang disimpan itu sendiri, atau ke hasil yang dikembalikan ketika seseorang bertanya apakah itu mengaduk data individual tetapi mempertahankan bentuk keseluruhannya. Kebisingan pada dasarnya adalah variasi data yang tidak teratur atau tidak dapat dijelaskan, dan tujuannya di sini adalah untuk memasukkan kebisingan ke dalam titik data individual sambil menjaga ukuran keseluruhan seperti rata-rata, median, lokasi, dan standar deviasi mendekati posisi sebelumnya.

Integritas sederhana

Bayangkan Anda telah dipilih untuk berpartisipasi dalam studi ilmu sosial yang inovatif. Namun, inilah tangkapannya: beberapa pertanyaan berpotensi mempermalukan, kriminal, atau membuat Anda dalam masalah. Katakanlah Anda tidak ingin melihat nama Anda di samping tanda centang di kolom yang disorot. Sangat menikmati musim Game of Thrones baru-baru ini.

Untungnya, para peneliti menganonimkan studi tersebut. Alih-alih nama, Anda mendapatkan nomor acak, tetapi meskipun demikian orang dapat menggunakan jawaban Anda dan membatasinya untuk Anda.

Ini adalah masalah yang sebenarnya muncul cukup banyak di dunia nyata, mungkin paling dikenal sebagai peneliti yang tidak hanya mengidentifikasi pengguna Netflix tetapi bahkan mencari tahu beberapa preferensi politik mereka. Tetapi bagaimana jika kita dapat menyiapkan data ini dan juga survei kita sehingga tidak ada yang membaca hasilnya dapat mengetahui dengan pasti apa yang dikatakan setiap orang?

Tambahkan kebisingan dengan tutup koin

Inilah teknik yang dapat kami gunakan untuk mempertahankan integritas Anda dan mendapatkan hasil yang seolah-olah mengatakan kebenaran:

Ajukan pertanyaan ya/tidak pada diri sendiri (Apakah Anda menyukai season terbaru Game of Thrones?). Anda memutar koin.
Jika koin berada di atas, maka lempar koin lagi. (Tidak masalah apa yang Anda dapatkan untuk kedua kalinya.) Jawab pertanyaannya dengan jujur. (Ya).
Jika ada ekor, lempar koin lagi. Jika itu atas, katakan ya. Jika itu ekornya, katakan tidak

Kami tidak akan melihat koin itu, jadi kami tidak tahu apakah itu berbohong kepada Anda. Yang kami tahu adalah Anda memiliki 50% peluang untuk mengatakan yang sebenarnya dan 50% peluang untuk mengatakan ya atau tidak.

Jawaban Anda kemudian disimpan di sebelah nama atau nomor ID Anda, tetapi sekarang Anda berpotensi ditolak. Jika seseorang menuduh Anda menikmati musim terakhir Game of Thrones, Anda memiliki pembelaan yang didukung oleh hukum probabilitas: lemparan koin membuat Anda angkat bicara.

Algoritme sebenarnya yang digunakan sebagian besar perusahaan teknologi untuk integritas diferensial jauh lebih rumit daripada ini (dua contoh di bawah), tetapi prinsipnya sama. Dengan membuat tidak jelas apakah setiap jawaban benar-benar valid atau bahkan mengubah jawaban secara acak, algoritme ini dapat memastikan bahwa tidak peduli berapa banyak pertanyaan yang dikirim seseorang ke database, database, mereka tidak akan dapat mengidentifikasi siapa pun.

Namun, tidak semua database menangani hal ini dengan cara yang sama. Beberapa menerapkan algoritma hanya ketika informasi diminta, yang berarti bahwa informasi tersebut masih tersimpan dalam bentuk aslinya di suatu tempat. Jelas, ini bukan skenario keamanan yang sempurna, tetapi menerapkan privasi secara berbeda setiap saat lebih baik daripada menyebarkan data mentah ke dunia luar.

Bagaimana ini digunakan?

Apple

Apple menggunakan privasi diferensial untuk menutupi data pengguna individual sebelum dikirimkan kepada mereka, dengan logika bahwa jika beberapa orang mengirimkan datanya, gangguan tersebut tidak akan berdampak signifikan pada data gabungan . Mereka menggunakan teknik yang disebut Count Mean Sketch, yang pada dasarnya berarti informasi dienkripsi, bit acak diubah dan kemudian versi yang salah diterjemahkan dan dikirim ke Apple untuk analisis. Itu mengumumkan hal-hal seperti saran pengetikan, kiat pencarian, dan bahkan emoji yang muncul saat Anda mengetik kata.

Google

Perampokan besar pertama Google ke dalam integritas diferensial adalah RAPPOR (Respons Relevansi Perlindungan Privasi yang Disintesis Secara Acak), yang menjalankan data melalui filter dan mengubah bitnya secara acak dengan versi metode lempar koin yang dijelaskan di atas. Mereka awalnya menggunakannya untuk mengumpulkan data kerentanan di browser Chrome, dan sejak itu menerapkan integritas diferensial di tempat lain, seperti memahami seberapa sibuk suatu perusahaan pada waktu tertentu tanpa mengungkapkan aktivitas pengguna individu. Mereka benar-benar membuka proyeknya, jadi mungkin ada beberapa aplikasi yang muncul berdasarkan pekerjaan mereka.

Mengapa tidak semua informasi diproses dengan cara ini?

Integritas diferensial saat ini agak rumit untuk diterapkan, dan memiliki pertukaran yang tepat yang dapat berdampak negatif pada data penting dalam beberapa kasus. Algoritme pembelajaran mesin yang menggunakan data yang diprivatisasi untuk penelitian medis yang sensitif dapat membuat kesalahan yang cukup besar untuk dibunuh, misalnya. Namun, mengingat penggunaannya yang nyata di dunia teknologi dan meningkatkan kesadaran publik tentang privasi data, ada peluang bagus untuk melihat apa yang dapat dibuktikan secara matematis sebagai nilai jual di masa depan.

Kredit gambar: aliran data repo, Algoritma sisi-server untuk Sketsa Perhitungan Rata-Rata Hademard, Paket Data Survei R-MASS, Pohon Probabilitas – lempar koin

Lanjut membaca:

Apakah artikel ini berguna?

Name	Domain	Purpose	Expiry	Type
wpl_user_preference	apsachieveonline.org	WP GDPR Cookie Consent Preferences	1 year	HTTP
YSC	youtube.com	YouTube session cookie.	Session	HTTP
AWSALB	api.intentiq.com	Amazon Web Services Load Balancer cookie.	7 days	HTTP

Name	Domain	Purpose	Expiry	Type
VISITOR_INFO1_LIVE	youtube.com	YouTube cookie.	Session	HTTP
GPS	youtube.com	Google advertising domain	Session	HTTP

Name	Domain	Purpose	Expiry	Type
uid	tynt.com	Generic AddThis tracking cookie.	1 year	HTTP
bkdc	bluekai.com	BlueKai tracking cookie.	Session	HTTP
bku	bluekai.com	BlueKai tracking cookie.	Session	HTTP
IDE	doubleclick.net	Google advertising cookie used for user tracking and ad targeting purposes.	1 day	HTTP
_cc_dc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_id	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_cc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_aud	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
vuid	vimeo.com	Vimeo tracking cookie	2 years	HTTP

Name	Domain	Purpose	Expiry	Type
CountUid	histats.com	---	1 year	---
HstCfa4342789	apsachieveonline.org	---	1 year	---
HstCmu4342789	apsachieveonline.org	---	1 year	---
HstCnv4342789	apsachieveonline.org	---	1 year	---
HstCns4342789	apsachieveonline.org	---	1 year	---
m	dtscout.com	---	Session	---
df	dtscout.com	---	3 months	---
l	dtscout.com	---	3 months	---
__stid	sharethis.com	---	1 year	---
__dtsu	apsachieveonline.org	---	3 months	---
33x_ps	33across.com	---	1 year	---
__cfduid	apsachieveonline.org	Generic CloudFlare functional cookie.	1 year	HTTP
HstCla4342789	apsachieveonline.org	---	1 year	---
HstPn4342789	apsachieveonline.org	---	1 year	---
HstPt4342789	apsachieveonline.org	---	1 year	---
b	dtscout.com	---	Session	---
st	dtscout.com	---	Session	---
pxcelPage_c010_C	t.sharethis.com	---	14 days	---
pids	tynt.com	---	3 months	---
pxcelBcnLcy	t.sharethis.com	---	51 years	---
ab	agkn.com	---	1 year	---
IQver	intentiq.com	---	2 years	---
intentIQ	intentiq.com	---	2 years	---
intentIQCDate	intentiq.com	---	2 years	---
AWSALBCORS	api.intentiq.com	---	7 days	---
bkpa	bluekai.com	---	6 months	---

Bagaimana cara kerja integritas diferensial?

Integritas sederhana

Tambahkan kebisingan dengan tutup koin

Bagaimana ini digunakan?

Apple

Google

Mengapa tidak semua informasi diproses dengan cara ini?

Pos terkait

5 cara kreatif untuk menggunakan milik Anda Twitter teman

Samsung Galaxy A10 resmi: taruhan bagus atau gagal?

10 Film Paling Bajakan Terbaik dalam Seminggu ini di BitTorrent – 02/10/20

Chip Intel M1 Pro dan M1 Max Baru Apple Membuat Intel Terlihat Seperti Terpotong