▷ Ngăn chặn sự thiên vị trong phân tích dự đoán

Thoạt đầu, các công cụ phân tích dự đoán có vẻ như là một cách lý tưởng để loại bỏ sự thiên vị của con người khỏi việc ra quyết định. Suy cho cùng, những mô hình này rút ra kết luận từ dữ liệu chứ không phải từ khuôn mẫu, vì vậy về mặt lý thuyết, chúng phải khách quan. Mặc dù điều này ban đầu có vẻ hợp lý, nhưng các nhà nghiên cứu đã phát hiện ra rằng phân tích dự đoán thực sự có thể mang theo những thành kiến của con người và khuếch đại chúng.

Có lẽ ví dụ nổi tiếng nhất về sự thiên vị của AI là Amazonthuật toán tuyển dụng thất bại. Các nhà phát triển nhận thấy rằng mô hình tự dạy mình thích ứng viên nam hơn vì họ đào tạo nó chủ yếu dựa trên sơ yếu lý lịch của nam giới. Những thành kiến ngầm mà con người có thể không nhận ra trong bản thân họ có thể chuyển sang các thuật toán mà họ lập trình.

Khi các công ty bắt đầu sử dụng phân tích dự đoán trong các lĩnh vực như uy tín tín dụng và chăm sóc sức khỏe, sự thiên vị về AI trở thành vấn đề cấp bách hơn. Các nhà phát triển và nhà khoa học dữ liệu phải học cách loại bỏ sự phân biệt đối xử trong các mô hình này.

Xác định nguồn gốc của sự thiên vị

Bước đầu tiên để ngăn chặn sự thiên vị trong phân tích dự đoán là nhận ra nó có thể đến từ đâu. Nguồn rõ ràng nhất là dữ liệu sai lệch, như trong Amazontrường hợp của, điều này khiến có vẻ như các ứng cử viên hàng đầu thường là nam giới. Dữ liệu từ các mẫu hoặc số liệu thống kê xuyên tạc không tính đến các sắc thái lịch sử sẽ tạo ra sự phân biệt đối xử trong thuật toán giống như ở con người.

Các nhà phát triển có thể vô tình tạo ra sự thiên vị trong thuật toán của họ bằng cách đặt câu hỏi sai cách. Ví dụ, một thuật toán chăm sóc sức khỏe thể hiện sự phân biệt đối xử với bệnh nhân da đen trong việc xác định việc chăm sóc là vấn đề chi phí. Việc tập trung vào xu hướng chi phí khiến người ta tin rằng người da đen ít có nhu cầu hơn vì trước đây họ chi ít hơn cho các dịch vụ y tế.

Việc đóng khung vấn đề theo cách này không tính đến số năm hạn chế tiếp cận dịch vụ chăm sóc sức khỏe đã gây ra những xu hướng liên quan đến chi phí này. Trong trường hợp này, bản thân dữ liệu không bị sai lệch, nhưng cách thuật toán phân tích nó không tính đến dữ liệu đó.

Khi các nhà phát triển hiểu được sự thiên vị đến từ đâu, họ có thể lập kế hoạch để tránh nó. Họ có thể tìm kiếm nhiều dữ liệu mang tính đại diện hơn và đặt những câu hỏi toàn diện hơn để tạo ra kết quả công bằng hơn.

Áp dụng phương pháp tiếp cận chống thiên vị để phát triển

Khi các nhóm bắt đầu đào tạo mô hình phân tích dự đoán, họ cần áp dụng phương pháp chống thiên vị. Nó không đủ để khách quan. Thay vào đó, các nhà phát triển nên tìm kiếm và giải quyết sự phân biệt đối xử một cách có ý thức. Các biện pháp chủ động sẽ ngăn chặn những định kiến tiềm ẩn không được chú ý.

Một trong những bước quan trọng nhất trong quá trình này là duy trì sự đa dạng trong nhóm. Cộng tác với nhiều người khác nhau có thể bù đắp điểm mù mà các nhóm đồng đều hơn có thể có. Tuyển dụng những nhân viên có nền tảng và kinh nghiệm đa dạng có thể giúp làm nổi bật các tập dữ liệu hoặc kết quả có thể có vấn đề.

Trong một số trường hợp, các nhóm có thể xóa tất cả các biến được bảo vệ như chủng tộc và giới tính khỏi dữ liệu trước khi huấn luyện thuật toán. Việc loại bỏ sự thiên vị trước khi đào tạo thay vì giải quyết các mối lo ngại sau này có thể đảm bảo kết quả công bằng hơn ngay từ đầu. Khi thông tin nhân khẩu học thậm chí không phải là một yếu tố, các thuật toán sẽ không học cách đưa ra kết luận sai lệch từ nó.

Xem xét và thử nghiệm các mô hình phân tích

Sau khi tạo ra công cụ phân tích dự đoán, các nhóm nên tiếp tục thử nghiệm và xem xét công cụ đó trước khi triển khai. Các kỹ thuật viên và nhà phân tích nên hoài nghi, đặt câu hỏi bất cứ khi nào có điều gì đó bất thường phát sinh. Khi một thuật toán tạo ra kết quả, họ nên hỏi “tại sao” và xem xét làm thế nào nó đi đến kết luận đó.

Các nhóm phải luôn kiểm tra các thuật toán với dữ liệu giả đại diện cho các tình huống thực tế. Những điều này càng giống với thế giới thực thì càng dễ dàng phát hiện ra bất kỳ thành kiến tiềm ẩn nào. Việc sử dụng các bộ dữ liệu đa dạng trong quá trình này sẽ giúp phát hiện nhiều vấn đề tiềm ẩn hơn.

Như đã đề cập trước đó, việc loại bỏ các biến được bảo vệ có thể hữu ích trong một số trường hợp. Tuy nhiên, trong một số trường hợp, tốt hơn hết bạn nên sử dụng thông tin này để phát hiện và điều chỉnh những thành kiến. Các đội có thể sử dụng thuật toán của họ để đo độ lệch trong chính họ và sau đó bù đắp nó.