proses lebih banyak data dari Anda yang mengetahui lebih sedikit tentang Anda

Masyarakat, ekonomi dan layanan dari segala jenis bergantung, lebih dan lebih, pada pemrosesan data besar-besaran untuk pengambilan keputusan atau hanya untuk meningkatkan produk mereka. Ini menyiratkan bahwa setiap kali kita melakukan tindakan di dunia digital – dan secara progresif juga dalam dunia fisik – itu terdaftar di suatu tempat, sedang diproses dan dilintasi dengan basis data lain dari asal yang beragam.

Sepanjang jalan, privasi pengguna dipertaruhkan dan alat yang paling menonjol untuk melestarikannya adalah apa yang disebut "privasi diferensial". Definisi ini menerapkan konsep statistik dan matematika yang diperlukan sehingga, dengan cara yang kuat, kita dapat mengandalkan non-identifikasi data ini, yang dalam banyak kasus dapat sensitif atau kritis, tetapi memungkinkan penggunaan tren besar yang berasal dari dari mereka.

Pendekatan pemrosesan data ini diusulkan oleh privasi diferensial – yang asalnya sebagian di antara publikasi Cynthia Dwork, seorang peneliti di Microsoft – sedang diimplementasikan oleh raksasa teknologi dari orang-orang seperti Google – yang telah berkomitmen untuk itu sejak ketika itu bahkan tidak mereka menyebutnya, sudah lima tahun yang lalu di Chrome–, Apple atau Uber. Tujuan utama: untuk mengakumulasi dan memproses lebih banyak data dari semua jenis Anda, tanpa dapat menilai data spesifik apa yang sebenarnya membuatnya. milikmu.

Baru-baru ini, Google merilis sebagian perpustakaan yang mereka gunakan secara internal untuk tujuan ini, sehingga setiap perusahaan atau organisasi yang menangani sejumlah besar data dapat terus melakukannya, tetapi dengan beberapa jaminan tertentu di tingkat privasi dan tanpa harus memprogram semuanya dari awal. Kami berbicara dengan Miguel Guevara, manajer produk di divisi privasi dan perlindungan data di Google, yang memberikan Hiperteks Beberapa kunci untuk inisiatif perangkat lunak gratis baru ini.

Perawatan lapis baja dengan statistik

Untuk melindungi pembacaan database terhadap detail sensitif, tidak cukup untuk mengganti bagian dari data dengan string yang dikodekan – melalui hashing yang paling sensitif, seperti nama – dan contoh yang jelas untuk ini adalah kasus Netflix. Pada tahun 2007, ketika platform mulai menyiarkan video berdasarkan permintaan, untuk meningkatkan sistem rekomendasinya, ia menawarkan hadiah satu juta dolar kepada mereka yang berhasil meningkatkan kinerja algoritme mereka setidaknya 10%.

Untuk ini mereka menerbitkan database dengan 100 juta penilaian dari 500.000 pengguna, dengan beberapa elemen hasheado, sehingga mereka tidak dapat diidentifikasi secara langsung. Yang mengejutkan, data ini sebagian dan mudah didanonimisasi ketika dilintasi dengan penilaian IMDb. Beberapa peneliti, dari University of Texas, segera mendapatkan rincian dari pengguna yang menggunakan kedua platform "menemukan preferensi politik mereka yang jelas dan informasi sensitif lainnya," ketika kita membaca abstrak publikasi.

Tentu saja, risiko ini tumbuh karena basis data di mana kita menjadi bagian memiliki lebih banyak entri di berbagai tingkat yang memungkinkan bongkar anonimisasi itu berdasarkan informasi kontekstual yang dalam banyak kasus dapat diperoleh dengan relatif mudah dan bahkan melalui ketersediaan publik.

Privasi, didefinisikan dengan kuat – dan secara matematis –

Privasi diferensial mencakup lubang ini dan "memungkinkan untuk mengetahui statistik agregat tentang suatu populasi," Guevara menjelaskan, "dan pada saat yang sama mencegah dengan cara yang sangat sistematis sehingga pengamat dapat memperoleh informasi tentang pengguna tertentu." Itu pada dasarnya menambahkan lebih banyak suara statistik ke jawaban, semakin spesifik pertanyaannya Apa yang kami lakukan pada basis data. Sebagai adaptasi dari prinsip ketidakpastian Heisenberg dalam fisika, diterapkan oleh imperatif sosial dalam ilmu data.

Jika kita ingin mendapatkan data yang sangat spesifik pada subset subjek yang sangat kecil dalam sampel, noise akan semakin besar semakin kecil ukuran sampel, dan oleh karena itu hasilnya akan cenderung semakin menjadi tidak berguna pada tingkat praktis. "Pada waktu itu, kebisingan yang Anda perkenalkan sangat banyak, sehingga hasilnya menjadi sampah," kata Miguel Guevara. Dengan cara ini, mengelola basis data besar di bawah skema privasi diferensial menjadi, secara apriori, cukup meyakinkan.

Jika Anda mencari terlalu banyak detail di bawah standar privasi diferensial "kebisingan yang Anda perkenalkan sangat banyak, sehingga hasilnya menjadi sampah," kata Guevara

Bagaimanapun, penggunaan privasi diferensial dalam proyek yang diberikan tidak melindungi informasi spesifik dari individu yang muncul di dalamnya. Setidaknya tidak per se. Ada beberapa metode untuk menerapkannya, dan itu adalah model global yang disebut di mana "apa yang dapat dilakukan pengontrol adalah menempatkan lapisan antara database dan mereka yang mengakses informasi itu, dan lapisan itu menggunakan privasi diferensial dan itulah yang kami lakukan open source", menurut manajer produk Google, yang berpendapat bahwa teknik ini" sangat fleksibel. "

Pendekatan ini memungkinkan perusahaan untuk bekerja pada model privasi diferensial, selalu menjaga kendali atas data di mana mereka bekerja, berdasarkan pada sosok pengawas ini. Miguel Guevara berkomentar bahwa "itu memberi pengontrol data kemungkinan membuat keputusan yang sangat rasional tentang risiko yang ingin dia keluarkan dalam berbagi data itu."

Privasi atau keadilan

Guevara memberi tahu bagaimana, menurut penelitian terbaru, "Anda tidak dapat memiliki, dalam konteks pembelajaran mesin, keadilan, dan privasi": "Bayangkan sebuah kelompok Quechua di dataran tinggi Peru yang juga ingin menggunakan keyboard prediktif Google. Jika kita ingin melatih sebuah model untuk mereka, kami memerlukan beberapa jenis informasi tentang database ini. Tetapi jika kami melatih mereka dengan privasi diferensial, kami akhirnya akan menghasilkan model yang tidak berfungsi untuk populasi yang sangat kecil. "

Dan, katanya, "debat ini sangat baru" tetapi meskipun teknik sudah memungkinkan sesuaikan dengan kebutuhan masing-masing lingkungan: "parameter privasi diferensial memungkinkan, jika Anda ingin, melindungi ada atau tidak adanya grup". Sebagai contoh, bahwa dari "semacam minoritas yang dapat Anda bayangkan". Di antara mereka, kelompok etnis sangat rentan, seperti "Muslim di negara di mana tidak banyak."

Inisiatif terbuka dan kolaboratif

proses lebih banyak data dari Anda yang mengetahui lebih sedikit tentang Anda 2

Google

Dengan TensorFlow, raksasa Mountain View telah menyediakan satu set perpustakaan yang paling banyak digunakan dalam ilmu data. Juga di bidang privasi dan enkripsi. Dengan kontribusi baru ini, Google mengharapkan adopsi lagi: "ada sangat sedikit perpustakaan di bidang ini, dan terutama perpustakaan yang beroperasi pada skala" seperti yang mereka terbitkan sekarang dan bahwa "kami juga menggunakan secara internal dalam layanan kami," kata Guevara . "Kami membutuhkan waktu lama untuk mengembangkan perpustakaan ini, seperti dua tahun untuk menjadi cukup kuat. Harapan saya adalah bahwa organisasi yang tidak memiliki sumber daya seperti itu, atau tidak punya waktu, dapat menggunakannya untuk mendapatkan nilai lebih dari data yang mereka miliki tanpa mengorbankan privasi penggunanya. "

"Organisasi yang tidak memiliki sumber daya seperti itu, atau tidak punya waktu, dapat menggunakannya untuk mendapatkan nilai lebih dari data yang mereka miliki tanpa mengorbankan privasi penggunanya"

Dan ini bukan proses searah, tetapi juga timbal balik dengan masyarakat, dari mana mereka berharap untuk menerima umpan balik pada beberapa tingkatan dan itu bahkan memungkinkan untuk memperkuat privasi dalam produk mereka. "Kami sangat terinspirasi oleh bidang kriptografi. Dalam 'crypto', untuk membuktikan bahwa suatu algoritma enkripsi aman, apa yang telah dilakukan orang adalah melepaskannya ke komunitas, sehingga komunitas mulai menyerangnya dan mencari tahu apakah ada kegagalan atau tidak. " "Kami berharap itu berasal dari organisasi, masyarakat sipil, pemerintah, dan peneliti. Tahap pertama perpustakaan ini sangat terfokus bagi orang-orang yang memiliki keterampilan perangkat lunak, atau ilmuwan data. Semua umpan balik diterima."

Berkat teknik ini, hanya dengan beberapa tahun proyek kehidupan dapat dikembangkan yang menjaga privasi mereka yang muncul di dalamnya tanpa harus menemukan kembali roda dalam setiap implementasi. Ini adalah sesuatu yang disukai raksasa Apple atau Uber mampu, meskipun mungkin bukan perusahaan kecil lainnya.

Di Google, mereka mengharapkan jenis toko buku ini dipertimbangkan semua jenis proyek yang menangani volume data yang signifikan. Mengenai ukurannya, Miguel mengatakan bahwa "perusahaan atau organisasi apa pun yang mengelola data dari lebih dari seratus orang dapat memperoleh manfaat dari perpustakaan ini": "ilmuwan sosial, ekonom" atau mungkin juga untuk mendeteksi "pola konsumsi yang bersifat sensitif." ".

Debat yang mungkin muncul untuk sebuah perusahaan adalah untuk melakukan upaya ekstra untuk mengakses sejumlah kecil data, atau dengan cara yang kurang terperinci. Mengingat pertanyaan apakah insentif – yang bisa etis, tetapi juga preventif – sudah cukup, Guevara berpendapat bahwa "keraguan yang sama yang Anda miliki sekarang kita miliki secara internal." "Kami telah menemukan bahwa orang-orang terbiasa menggunakan data yang tidak begitu akurat, hasil dari perbedaan privasi. Ini bisa menjadi proses yang lambat karena perubahan dalam perspektif tentang bagaimana kita memahami data hari ini. Ini berarti menerima bahwa data yang akan kita gunakan dapatkan akan memiliki beberapa kebisingan, yang beberapa akan benar-benar ditekan, tetapi penting untuk diingat bahwa tren populasi besar pada database tetap sepenuhnya ada dan kekakuan statistik masih ada di sana. "

"Ketika orang mulai memiliki intuisi tentang cara kerjanya, intuisi ini dapat memberi mereka kepastian yang lebih besar tentang bagaimana data mereka digunakan."

Mengingat semakin banyaknya koleksi data oleh perusahaan, dan setelah ditanya tentang kemungkinan perubahan persepsi di mata pengguna, kepala Google sejajar dengan situasi yang dialami dalam enkripsi data. "30 tahun yang lalu, gagasan enkripsi sangat aneh bagi kebanyakan orang. Saya pikir masih demikian, tetapi kita telah mencapai tingkat pemahaman intuitif yang memungkinkan orang lebih atau kurang memiliki perasaan aman ketika komunitas mereka tahu bahwa informasi Anda dienkripsi. Saya harap sesuatu yang serupa terjadi dengan privasi diferensial dan bahwa ketika orang mulai memiliki intuisi tentang cara kerjanya, intuisi ini dapat memberi mereka keamanan yang lebih besar tentang bagaimana data mereka digunakan. "

Pos terkait

Back to top button