Tin tức và phân tích của tất cả các thiết bị di động

Mạng lưới thần kinh hoạt động tốt hơn khi chúng lớn hơn

Ngón cái đối diện đã đóng một vai trò thiết yếu trong quá trình tiến hóa của loài người chúng ta. Tuy nhiên, nếu quá trình tiến hóa cho chúng ta thêm hai ngón tay cái thì mọi chuyện sẽ không khác nhiều. Một ngón tay cái trên mỗi bàn tay là đủ.

Nhưng không phải đối với mạng lưới thần kinh, những công nghệ AI phức tạp nhất để thực hiện các hoạt động giống con người, khi chúng phát triển lớn hơn, chúng có thể nắm bắt được nhiều thông tin hơn. Điều này đã gây bất ngờ cho người xem. Các phát hiện toán học cơ bản đã dự đoán rằng các mạng chỉ cần rất nhiều không gian, nhưng các mạng thần kinh hiện đại thường được mở rộng vượt xa giới hạn lý thuyết này – được gọi là quá mức tham số hóa. Bạn có biết, việc phân loại kích thích thị giác dựa trên mạng lưới thần kinh mở đường cho việc chẩn đoán sớm bệnh Alzheimer? Vì vậy, những loại nghiên cứu này thực sự quan trọng để hệ thống mạng lưới thần kinh được cải thiện.

Nghiên cứu mới nhất đã chứng minh rằng mạng lưới thần kinh phải lớn hơn

Vào tháng 12, Sébastien Bubeck của Microsoft Research và Mark Sellke từ Đại học Stanford đã đưa ra một lý thuyết mới cho vấn đề mở rộng quy mô trong một giấy được trình bày tại NeurIPS, một hội nghị lớn. Họ cho rằng mạng lưới thần kinh phải lớn hơn đáng kể so với suy nghĩ trước đây để tránh một số vấn đề cơ bản. Khám phá này cung cấp sự hiểu biết rộng hơn về một vấn đề khiến các chuyên gia bối rối trong nhiều thập kỷ.

“Đó là một kết quả lý thuyết và toán học thực sự thú vị. Họ chứng minh điều đó theo cách rất chung chung này. Vì vậy, theo nghĩa đó, nó sẽ trở thành cốt lõi của khoa học máy tính,” Viện Công nghệ Liên bang Thụy Sĩ Lausanne cho biết, Lenka Zdeborová.

Các tiêu chuẩn điển hình về kích thước của mạng lưới thần kinh dựa trên các nghiên cứu về cách chúng ghi nhớ dữ liệu.

Các tiêu chuẩn điển hình về kích thước của mạng lưới thần kinh dựa trên các nghiên cứu về cách chúng ghi nhớ dữ liệu. Tuy nhiên, để hiểu được trí nhớ, trước tiên chúng ta phải nắm được mục đích của mạng.

Việc xác định các đối tượng trong ảnh là một hoạt động điển hình của mạng nơ-ron. Để tạo ra một mạng có thể làm được điều này, trước tiên các nhà nghiên cứu cung cấp cho nó nhiều bức ảnh và nhãn đối tượng, hướng dẫn nó khám phá mối quan hệ giữa chúng. Mạng sẽ xác định chính xác mục trong ảnh đã thấy trước đó sau khi được đào tạo. Mạng sẽ học dữ liệu khi nó được huấn luyện. Ngoài ra, khi mạng đã ghi nhớ đủ dữ liệu huấn luyện, nó cũng đạt được khả năng dự báo nhãn của các đối tượng mà nó chưa từng thấy – ở một mức độ nào đó – khả năng tổng quát hóa của mạng.

Lượng thông tin mà mạng lưới thần kinh có thể lưu giữ được xác định bởi kích thước của nó. Điều này có thể được hình dung như sau. Giả sử bạn có hai điểm dữ liệu để chọn. Bạn có thể liên kết các điểm này bằng một đường có hai tham số: độ dốc và độ cao khi nó đi qua trục tung. Giả sử người khác được cung cấp đường thẳng cũng như tọa độ x của một trong các điểm dữ liệu ban đầu. Trong trường hợp đó, họ có thể suy ra tọa độ y tương ứng chỉ bằng cách nhìn vào nó (hoặc sử dụng các tham số). Dòng đã ghi nhớ hai điểm dữ liệu.

Lượng thông tin mà mạng nơ-ron có thể lưu giữ được xác định bởi kích thước của nó

Những điều tương tự có thể được nói về mạng lưới thần kinh. Ví dụ: hình ảnh được mô tả bằng hàng trăm hoặc hàng nghìn giá trị số – một giá trị cho mỗi pixel. Tập hợp nhiều tham số tự do này về mặt toán học tương đương với vị trí của một điểm trong không gian nhiều chiều. Thứ nguyên (số tọa độ) được gọi là thứ nguyên.

Một kết quả toán học cũ nói rằng để phù hợp N điểm dữ liệu có đường cong, bạn cần một hàm có N thông số. (Trong ví dụ trước, hai điểm được mô tả bằng một đường cong có hai tham số.) Khi mạng lưới thần kinh lần đầu tiên nổi lên như một lực lượng vào những năm 1980, việc suy nghĩ như vậy cũng hợp lý. Họ chỉ nên cần N thông số phù hợp N điểm dữ liệu – bất kể kích thước của dữ liệu.

Để chứa n điểm dữ liệu bằng một đường cong, cần phải sử dụng hàm có n tham số, theo một định lý toán học cũ. (Trong ví dụ trước, hai điểm được biểu thị bằng một đường cong có hai tham số.) Điều này hoàn toàn hợp lý khi mạng lưới thần kinh lần đầu tiên xuất hiện vào những năm 1980. Chỉ cần có n tham số để phù hợp với n điểm dữ liệu, bất kể kích thước dữ liệu.

“Chuyện này không còn xảy ra nữa. Hiện tại, chúng tôi đang thường xuyên tạo ra các mạng thần kinh có số lượng tham số nhiều hơn số lượng mẫu đào tạo. Điều này nói lên rằng những cuốn sách phải được viết lại,” giải thích Alex Dimakis của Đại học Texas, Austin.

Trong bằng chứng mới của họ, cặp đôi này chứng minh rằng sự mạnh mẽ đòi hỏi phải có sự tham số hóa quá mức.

Bubeck và Sellke không hề cố gắng viết lại bất cứ điều gì khi họ quyết định giải quyết vấn đề. Họ đang kiểm tra một tính năng khác mà mạng lưới thần kinh thường thiếu, tính mạnh mẽ, đó là khả năng mạng xử lý các biến thể nhỏ. Một mạng không mạnh có thể đã học được cách nhận dạng hươu cao cổ, nhưng nó sẽ nhầm một biến thể đã được sửa đổi cực kỳ nhiều với chuột nhảy. Khi Bubeck và cộng sự nhận ra vào năm 2019 rằng vấn đề có liên quan đến quy mô mạng, họ đã bắt đầu bác bỏ các định lý về nó.

“Chúng tôi đang nghiên cứu các ví dụ đối nghịch – và sau đó quy mô áp đặt lên chúng tôi. Chúng tôi nhận ra đây chính là cơ hội tuyệt vời vì cần phải hiểu rõ về quy mô,” Bubeck giải thích.

Trong bằng chứng mới của họ, cặp đôi này chứng minh rằng sự mạnh mẽ đòi hỏi phải có sự tham số hóa quá cao. Họ tính toán số lượng tham số cần thiết để khớp chính xác các điểm dữ liệu với một đường cong có chất lượng toán học tương đương với độ mịn.

Hãy xem xét một đường cong phẳng, với tọa độ x biểu thị màu của một pixel và tọa độ y biểu thị nhãn hình ảnh. Bởi vì đường cong trơn tru nên dự đoán sẽ chỉ thay đổi một chút nếu bạn di chuyển một khoảng dọc theo nó trong khi thay đổi màu của pixel một chút. Tuy nhiên, do một đường cong cực kỳ sắc nét đã được mô tả nên những thay đổi nhỏ đối với trục x (màu sắc) có thể tạo ra sự khác biệt lớn về tọa độ y (nhãn hình ảnh). Hươu cao cổ có thể biến thành chuột nhảy.

Việc quá tham số hóa đã được chứng minh là có lợi trong nhiều nghiên cứu khác nhau.

Theo Bubeck và Sellke, các tham số thứ 2 là cần thiết để khớp chính xác các điểm dữ liệu có chiều cao (ví dụ: 784 cho hình ảnh 784 pixel). Nói cách khác, việc quá tham số hóa không chỉ có lợi; điều này là cần thiết nếu bạn muốn mạng ghi nhớ dữ liệu huấn luyện của nó một cách mạnh mẽ. Lập luận này dựa trên một đặc điểm kỳ lạ của hình học nhiều chiều: các điểm phân bố ngẫu nhiên trên bề mặt của một hình cầu hầu như đều cách nhau một đường kính. Bởi vì có một khoảng cách lớn giữa các vị trí nên việc khớp tất cả chúng bằng một đường cong trơn sẽ đòi hỏi nhiều tham số bổ sung.

Phát hiện này đưa ra một góc nhìn mới về lý do tại sao việc mở rộng mạng lưới thần kinh lại thành công đến vậy.

Việc quá tham số hóa có lợi trong nhiều nghiên cứu khác nhau. Theo nghiên cứu khác, nó có thể nâng cao hiệu quả đào tạo và khả năng khái quát hóa của mạng. Mặc dù chúng tôi biết rằng việc tham số hóa quá mức là cần thiết để đảm bảo độ bền, nhưng độ bền quan trọng như thế nào so với những thứ khác vẫn chưa rõ ràng. Tuy nhiên, bằng chứng mới ngụ ý rằng độ tin cậy có thể quan trọng hơn suy nghĩ trước đây bằng cách kết nối nó với việc quá tham số hóa.

“Sự mạnh mẽ dường như là điều kiện tiên quyết để khái quát hóa. Nếu bạn có một hệ thống mà bạn chỉ cần làm xáo trộn nó một chút và sau đó nó hoạt động không ổn định, thì đó là loại hệ thống gì? Điều đó không hợp lý. Tôi thực sự nghĩ đó là một yêu cầu rất nền tảng và cơ bản,” Bubeck giải thích.

Nếu bạn quan tâm đến công nghệ học máy, hãy xem mô hình ML mới cải thiện dự báo cháy rừng như thế nào.