▷ Trí tuệ nhân tạo: Transformers, "một công nghệ rất hứa hẹn"

GPT-AI3 gần đây được phát triển bởi OpenAI (một công ty do Elon Musk tạo ra) cạnh tranh với BERT, một AI khác kém tinh vi hơn nhiều được Google thiết kế để thực hiện các tác vụ khác nhau trong xử lý ngôn ngữ tự động. Tuy nhiên, đằng sau GPT-3 và BERT, che giấu một công nghệ phổ biến: công nghệ của Máy biến áp.

AI dựa trên Transformers đầu tiên xuất hiện vào cuối năm 2017 trong lĩnh vực xử lý ngôn ngữ tự nhiên tự động. Michel Poujol, đồng quản lý các hoạt động trí tuệ nhân tạo trong bộ phận kỹ thuật của Sopra Steria, giải thích cho chúng ta cách thức hoạt động của các Transformer này, mục đích sử dụng hiện tại và tương lai của chúng, đặc biệt là trong ngành công nghiệp.

Transformers là gì và chúng hoạt động như thế nào?

Transformers ban đầu được phát triển để xử lý ngôn ngữ tự nhiên, mà chúng ta thường gọi là NLP (Xử lý ngôn ngữ tự nhiên). Chúng là kết quả của sự tập hợp hợp lý các khái niệm rất thông minh được phát triển và thử nghiệm bởi các phòng thí nghiệm nghiên cứu như của Google hoặc OpenAI. Chúng dựa trên cái gọi là cơ chế “chú ý” không mới, nhưng được sử dụng thành thạo ở đây. Họ cũng cung cấp các chế độ học tập bán giám sát cũng là nội dung chính.

Họ chỉ có thế mạnh?

Không, hiện tại các mô hình AI dựa trên Transformers rất lớn và thậm chí là khổng lồ đối với một số như GPT-3, có 175 tỷ thông số và là mô hình AI lớn nhất và tinh vi nhất từ trước đến nay. Để so sánh, các mô hình BERT chỉ xuất hiện theo thứ tự từ 100 đến 400 triệu tham số. Những con số này rất ấn tượng, nhưng điều này được giải thích bởi thực tế là những AI này hướng tới khả dụng ở mỗi ngôn ngữ trong một số lượng gần như vô hạn các mô hình hiệu suất cao, mỗi mô hình đáp ứng một trường hợp sử dụng cụ thể. Để làm được điều này, họ phải lưu trữ kiến thức “gần như phổ cập” trong mỗi ngôn ngữ. Nếu chúng ta lấy ví dụ về GPT-3nó đã được đào tạo trên hàng tỷ tài liệu bằng tiếng Anh bao gồm tất cả các trang Wikipedia bằng ngôn ngữ đó, nhưng, để cung cấp cho bạn một ý tưởng, những trang này chỉ đại diện cho 0,6 % trong tổng số văn bản mà anh ấy đã sử dụng cho việc học của mình.

Transformers đã mang lại điều gì cho quá trình xử lý ngôn ngữ tự động?

Ban đầu, Transformers được tạo ra để dịch, phân loại hoặc tạo văn bản. Rất nhanh chóng, chúng tôi nhận ra rằng họ cũng xuất sắc trong hầu hết các nhiệm vụ NLP khác.

Các giải pháp NLP trước đây sử dụng biểu diễn tĩnh của các từ dưới dạng vectơ và mặc dù các kỹ thuật (chẳng hạn như Word2vec) đã cho phép tiến bộ rất đáng kể trong mã hóa này, nhưng nó vẫn cố định và không phụ thuộc vào ngữ cảnh. Ví dụ, nếu tôi nói: “cụ thể là chiếc xe của tôi mà tôi đã bán” hoặc “chiếc xe của tôi mà tôi đã bán cho một cá nhân”, trong hai cách diễn đạt này, chúng ta thấy rằng thuật ngữ “cá nhân” không có nghĩa giống nhau. Với các cách tiếp cận cũ, cách biểu diễn của nó sẽ giống nhau.

Máy biến áp sử dụng cách biểu diễn từ tương tự này làm đầu vào, nhưng sau đó điều chỉnh nó cho phù hợp với ngữ cảnh bằng cách sử dụng mô hình động của ngôn ngữ đã học. Do đó, Transformers không chỉ học cách biểu diễn động các từ và biểu thức tùy theo ngữ cảnh sử dụng mà còn xác định các ngữ cảnh khác nhau này ở cấp độ một câu hoặc một đoạn văn, hoặc thậm chí hơn thế nữa.

Làm thế nào để có thể đào tạo những người mẫu này?

Một trong những phẩm chất đáng chú ý nhất của Transformers, ít nhất là trong NLP, là có thể thực hiện hầu hết, nếu không phải tất cả, việc học của họ theo cách không bị giám sát, nghĩa là trên các văn bản “thô” mà không có thêm thông tin hoặc chú thích trên Nội dung. Với các phương pháp cũ, các mô hình NLP phải học đồng thời và theo cách có giám sát, cả ngôn ngữ và nhiệm vụ mà chúng phải thực hiện bằng ngôn ngữ đó. Nó đòi hỏi rất nhiều ví dụ và rất nhiều nỗ lực để tập hợp các trò chơi học tập.

Với Transformers, quá trình đào tạo diễn ra trong hai giai đoạn:

Thứ nhất, ngôn ngữ chủ yếu được học mà không có sự giám sát thông qua các nhiệm vụ học tập cụ thể, chẳng hạn như che dấu và / hoặc đảo ngược từ. Điều này có nghĩa là các yếu tố cần thiết của một ngôn ngữ, tức là ngữ pháp, cách diễn đạt, sắc thái của nó, v.v., có thể được học trên các văn bản “thô” mà không cần nỗ lực nhiều ngoài thời gian tính toán. Sau đó, các Transformers thường được đào tạo lại về nhiệm vụ cuối cùng mà chúng tôi muốn họ thực hiện, chẳng hạn như phân loại, phân tích tình cảm, tìm câu trả lời cho các câu hỏi… Sau đó, chúng tôi nói về việc tinh chỉnh. Vì hầu hết ngôn ngữ đã được học, cách học thứ hai này có thể tập trung vào nhiệm vụ đang làm với ít ví dụ hơn để cung cấp.

Tôi tin rằng các nguyên tắc học bán giám sát này, mang lại cho công nghệ này một lợi thế đáng kể trong NLP, có thể được chuyển sang nhiều lĩnh vực khác, chẳng hạn như xử lý hình ảnh hoặc tín hiệu. Nghiên cứu trong những lĩnh vực này vẫn đang ở giai đoạn khám phá, nhưng những kết quả ban đầu là rất đáng khích lệ.

Hiệu suất thu được nhờ Transformers là gì?

Nếu chúng ta quay trở lại NLP, chúng ta có thể nói rằng ít hơn 2 Nhiều năm các Transformers đã cho phép tiến bộ đáng kể trong thực tế tất cả các nhiệm vụ của lĩnh vực này. Trong một số nhiệm vụ này, giờ đây chúng ta có AI ở cùng cấp độ với con người, hoặc thậm chí tốt hơn. Cũng cần phải xác định các phép thử so sánh mới, bởi vì những phép thử cũ đã quá nhiều để nghĩ rằng con người đã lỗi thời.

Điều chắc chắn là Transformers có thể tạo ra những ứng dụng tưởng chừng như viển vông chỉ vài tháng trước. Tuy nhiên, những AI này mạnh đến mức nào và kết quả của chúng cũng ngoạn mục như thế nào, đặc biệt là đối với GPT-3 đang khiến cho nhiều giấy mực phải đổ, họ vẫn chưa nhận thức được mình đang làm gì. Cá nhân tôi chia sẻ ý kiến của nhiều nhà nghiên cứu, những người thích sử dụng cụm từ “trí tuệ tăng cường” hơn là “trí tuệ nhân tạo” để chỉ loại công nghệ này.

Bạn thấy tương lai nào cho công nghệ này?

Như chúng ta vừa thấy, công nghệ này còn lâu mới được khai thác triệt để trong lĩnh vực NLP, đặc biệt là cho tất cả các vấn đề tìm kiếm thông tin trong kho tài liệu rất lớn và rất phức tạp. Có lẽ bạn đã từng trải nghiệm điều này với các công cụ tìm kiếm đã tích hợp công nghệ này, chẳng hạn như của Google: để tìm kiếm thông tin, bạn không còn quan tâm đến việc chỉ sử dụng các từ khóa nữa. Tốt hơn là tạo truy vấn của bạn một cách tự nhiên nhất có thể với ngữ cảnh xung quanh các từ khóa, bởi vì ngữ cảnh này sẽ giúp tìm thêm thông tin có liên quan. Có rất nhiều công việc đang được tiến hành về chủ đề này và về một chủ đề liên quan, đó là công cụ khuyến nghị. Sopra Steria được đầu tư hoàn toàn vào những 2 chủ đề nóng trong AI.

Nhưng chúng tôi tin rằng Transformers cũng có một tương lai tươi sáng trong các lĩnh vực khác bởi vì, như đã đề cập ở trên, tài sản của họ hoàn toàn có thể chuyển đổi bên ngoài NLP. Hơn nữa, chúng tôi thấy các trường hợp nổi lên của các ứng dụng của Máy biến áp trong thị giác máy tính hoặc xử lý tín hiệu. Một số ứng dụng trong số này đã tạo nên trạng thái mới của nghệ thuật, chẳng hạn như trong phân loại hình ảnh hoặc trong quá trình phiên âm văn bản của tín hiệu âm thanh (lời nói thành văn bản).

Máy biến áp có thể được sử dụng như thế nào trong công nghiệp?

Nhiều ứng dụng của Máy biến áp cho thấy những hứa hẹn đặc biệt trong ngành, chẳng hạn như lấy thông tin từ sách hướng dẫn kỹ thuật hoặc công cụ khuyến nghị để hỗ trợ việc ra quyết định. Nhưng trên thực tế, công nghệ này có thể giúp ứng phó với vô số các vấn đề khác đặc trưng của ngành: phát hiện lỗi, bảo trì dự đoán, tự động hóa, v.v.

Ngoài ra, trong công nghiệp, người ta thường có một lượng lớn dữ liệu, nhưng rất ít được chú thích và xác thực. Điều này tạo thành rất nhiều trường hợp ứng dụng thú vị của công nghệ này có thể cung cấp phương pháp học bán giám sát yêu cầu dữ liệu chú thích ít hơn nhiều.

Bạn mong đợi điều gì ở Transformers trong những tháng hoặc năm tới?

Các mô hình Máy biến áp nổi tiếng nhất hiện nay, chẳng hạn như BERT và GPT3, là các mô hình NLP. Chúng rất lớn vì chúng cho phép, từ cùng một mô hình được đào tạo trước, bị từ chối bằng cách tinh chỉnh trong một số lượng gần như vô hạn các mô hình hiệu suất cao, mỗi mô hình đáp ứng với một trường hợp sử dụng cụ thể. Vì vậy, họ có nghĩa vụ phải học một kiến thức “gần như phổ quát” mà không thể được giới hạn trong một mô hình đơn giản.

Tuy nhiên, tôi tin rằng Transformers không phải là mô hình lớn và chúng không có lý do gì để quan trọng hơn đáng kể so với các mô hình khác được tạo ra bằng các phương pháp khác nhau, nếu áp dụng cho cùng một trường hợp sử dụng với cùng mục tiêu hiệu suất và không có điều này Yêu cầu hoặc tham vọng “phổ quát”.

Vì vậy, tôi rất tin tưởng vào việc sử dụng Transformers để tạo ra các AI có kích thước hợp lý hơn nhiều, ngay cả kích thước nhỏ:

cả trong NLP, sử dụng các mô hình ít “phổ quát” hơn và tập trung nhiều hơn vào các bối cảnh sử dụng cụ thể, cũng như trong các lĩnh vực khác (xử lý hình ảnh, công cụ đề xuất, cho điểm, v.v.), bao gồm cả để giải quyết các vấn đề về “dữ liệu nhỏ”, vốn rất phổ biến trong các lĩnh vực như bảo trì dự đoán, phân tích nguyên nhân gốc rễ.

Cũng cần lưu ý, trong bối cảnh mà lòng tin và đạo đức đang trở thành mối quan tâm lớn trong AI, rằng Người biến hình chỉ là mạng chuyển tiếp và dựa trên cơ chế chú ý, tạo thành những phẩm chất không thể phủ nhận từ quan điểm về tính dễ giải thích của chúng, như được thể hiện qua một số công trình nghiên cứu gần đây.

Làm thế nào để bạn tích hợp những công nghệ này tại Sopra Steria?

Chúng tôi hỗ trợ khách hàng của mình để họ có thể tận dụng và chiếm đoạt chúng một cách tốt nhất. Hiện tại, chúng tôi chủ yếu sử dụng chúng cho các vấn đề xử lý ngôn ngữ tự nhiên tự động, nhưng chúng tôi thực hiện theo dõi công nghệ liên tục đối với các trường hợp ứng dụng trong các lĩnh vực khác và chúng tôi thường xuyên thực hiện đánh giá các giải pháp mà chúng tôi có vẻ thú vị. Nhóm của chúng tôi không ngừng phát triển với các hồ sơ kỹ thuật mới, những người tham gia cùng chúng tôi thường xuyên. Transformers đại diện cho một công nghệ rất hứa hẹn trong trí tuệ nhân tạo.

Mục lục

Trí tuệ nhân tạo: Transformers, “một công nghệ rất hứa hẹn”