Tin tức và phân tích của tất cả các thiết bị di động

Học nhóm được giải thích theo cách đơn giản nhất có thể

Học tập hợp tác có thể giúp bạn đưa ra quyết định tốt hơn và giải quyết nhiều vấn đề trong thế giới thực bằng cách kết hợp các quyết định từ một số mô hình.

Học máy (ML) lan rộng trong nhiều lĩnh vực và ngành công nghiệp, cho dù đó là tài chính, y học, phát triển ứng dụng hay bảo mật.

Việc đào tạo mô hình ML đúng cách sẽ giúp bạn đạt được thành công lớn hơn trong công ty hoặc vai trò nghề nghiệp của mình và có nhiều phương pháp khác nhau để đạt được điều này.

Trong bài viết này, tôi sẽ thảo luận về việc học tập theo nhóm, tầm quan trọng của nó, các trường hợp sử dụng và kỹ thuật.

Chờ thêm thông tin!

Học tập nhóm là gì?

Trong học máy và thống kê, “nhóm” đề cập đến các phương pháp tạo ra các giả thuyết khác nhau bằng cách sử dụng một người học cơ bản chung.

Và học tập cộng tác là một cách tiếp cận học máy trong đó nhiều mô hình (chẳng hạn như chuyên gia hoặc bộ phân loại) được tạo và kết hợp một cách chiến lược để giải quyết vấn đề tính toán hoặc đưa ra dự đoán tốt hơn.

Cách tiếp cận này được thiết kế để cải thiện hiệu suất dự đoán, xấp xỉ hàm, phân loại, v.v. của một mô hình nhất định. Nó cũng được sử dụng để loại trừ khả năng bạn chọn một mô hình kém hoặc ít giá trị hơn trong số nhiều mô hình. Một số thuật toán học được sử dụng để đạt được hiệu suất dự đoán tốt hơn.

Tầm quan trọng của việc học nhóm trong ML

Trong các mô hình học máy, có một số nguồn như sai lệch, phương sai và nhiễu có thể gây ra lỗi. Học tập theo nhóm có thể giúp giảm các nguồn lỗi này và đảm bảo tính ổn định và chính xác của các thuật toán học máy.

Đây là lý do tại sao việc học nhóm được sử dụng trong các tình huống khác nhau:

Lựa chọn bộ phân loại phù hợp

Học tập cộng tác giúp bạn chọn mô hình hoặc bộ phân loại tốt hơn đồng thời giảm rủi ro có thể xảy ra do lựa chọn mô hình không chính xác.

Có nhiều loại trình phân loại khác nhau được sử dụng cho các vấn đề khác nhau, chẳng hạn như Máy vectơ hỗ trợ (SVM), Perceptron đa lớp (MLP), Trình phân loại Naive Bayes, Cây quyết định, v.v. Ngoài ra, còn có các cách triển khai thuật toán phân loại khác nhau để bạn lựa chọn. Hiệu suất của dữ liệu đào tạo khác nhau cũng có thể khác nhau.

Nhưng thay vì chỉ chọn một mô hình, nếu bạn sử dụng tập hợp tất cả các mô hình này và kết hợp các kết quả riêng lẻ của chúng, bạn có thể tránh chọn các mô hình kém hơn.

Khối lượng dữ liệu

Nhiều phương pháp và mô hình ML không hiệu quả về kết quả nếu bạn cung cấp cho chúng dữ liệu không phù hợp hoặc lượng lớn dữ liệu.

Mặt khác, học tập hợp tác có thể hoạt động trong cả hai trường hợp, ngay cả khi lượng dữ liệu quá nhỏ hoặc quá lớn.

  • Nếu dữ liệu không đủ, bạn có thể sử dụng bootstrap để huấn luyện các bộ phân loại khác nhau bằng các mẫu dữ liệu bootstrap khác nhau.
  • Nếu bạn có một lượng lớn dữ liệu có thể gây khó khăn cho việc đào tạo một bộ phân loại duy nhất, bạn có thể chia dữ liệu thành các tập hợp con nhỏ hơn một cách chiến lược.

Độ phức tạp

Một bộ phân loại đơn lẻ có thể không giải quyết được một số vấn đề rất phức tạp. Ranh giới quyết định của họ để phân tách dữ liệu của các lớp khác nhau có thể rất phức tạp. Vì vậy, nếu bạn áp dụng một bộ phân loại tuyến tính cho một ranh giới phức tạp, phi tuyến tính, nó sẽ không thể học được nó.

Tuy nhiên, bằng cách kết hợp đúng cách một tập hợp các bộ phân loại tuyến tính thích hợp, có thể học được một giới hạn phi tuyến tính nhất định. Trình phân loại sẽ chia dữ liệu thành nhiều phân vùng dễ học và nhỏ hơn, mỗi phân loại sẽ chỉ học một phân vùng đơn giản hơn. Sau đó, các phân loại khác nhau sẽ được kết hợp để có được giới hạn quyết định xấp xỉ.

Ước tính độ tin cậy

Trong học tập nhóm, việc bỏ phiếu tín nhiệm được cho là do hệ thống đưa ra. Giả sử bạn có một nhóm gồm những người phân loại khác nhau được đào tạo về một vấn đề nhất định. Nếu phần lớn các bộ phân loại đồng ý với quyết định được đưa ra thì kết quả có thể được coi là một tập hợp quyết định có độ tin cậy cao.

Mặt khác, nếu một nửa số người phân loại không đồng ý với quyết định được đưa ra thì đó được cho là nhóm có độ chắc chắn thấp.

Tuy nhiên, độ tin cậy thấp hay cao không phải lúc nào cũng là quyết định đúng đắn. Tuy nhiên, có khả năng cao là quyết định được đưa ra với độ tin cậy cao sẽ là quyết định đúng đắn nếu đội được đào tạo bài bản.

Độ chính xác với Data Fusion

Dữ liệu được thu thập từ nhiều nguồn, được kết hợp một cách chiến lược, có thể cải thiện tính chính xác của các quyết định phân loại. Độ chính xác này cao hơn so với độ chính xác thu được từ một nguồn dữ liệu duy nhất.

Học tập nhóm hoạt động như thế nào?

Học cộng tác thực hiện nhiều chức năng ánh xạ được học bởi các bộ phân loại khác nhau và sau đó kết hợp chúng để tạo thành một chức năng ánh xạ duy nhất.

Đây là một ví dụ về cách hoạt động của việc học nhóm.

Ví dụ: Bạn đang phát triển một ứng dụng về thực phẩm cho người dùng cuối. Để mang đến cho người dùng trải nghiệm chất lượng cao, bạn muốn thu thập phản hồi của họ về các vấn đề họ đang gặp phải, những lỗ hổng có thể nhìn thấy, lỗi, lỗi, v.v.

Để đạt được mục tiêu này, bạn có thể tìm hiểu quan điểm của gia đình, bạn bè, đồng nghiệp và những người khác mà bạn thường xuyên trao đổi về lựa chọn thực phẩm cũng như trải nghiệm đặt món ăn trực tuyến của họ. Bạn cũng có thể đưa ứng dụng của mình vào phiên bản beta để thu thập phản hồi theo thời gian thực mà không bị sai lệch hoặc gây nhiễu.

Vì vậy, điều bạn thực sự đang làm ở đây là xem xét nhiều ý tưởng và quan điểm khác nhau của những người khác nhau để cải thiện trải nghiệm người dùng.

Học tập nhóm và các mô hình của nó hoạt động theo cách tương tự. Nó lấy một tập hợp các mô hình và kết hợp chúng để tạo ra kết quả cuối cùng nhằm cải thiện hiệu suất và độ chính xác của dự đoán.

Kỹ thuật học nhóm cơ bản

# 1. Cách thức

“Chế độ” là giá trị xuất hiện trong tập dữ liệu. Trong học nhóm, các chuyên gia ML sử dụng nhiều mô hình để đưa ra dự đoán về từng điểm dữ liệu. Những dự đoán này được coi là phiếu bầu riêng lẻ và những dự đoán do hầu hết các mô hình đưa ra được coi là dự đoán cuối cùng. Nó chủ yếu được sử dụng trong các vấn đề phân loại.

Ví dụ: Bốn người đã xếp hạng ứng dụng của bạn 4trong khi một trong số họ đánh giá nó là 3thì mode sẽ bằng 4bởi vì đa số đã bỏ phiếu cho 4.

#2. Trung bình/Trung bình

Sử dụng kỹ thuật này, các chuyên gia sẽ tính đến tất cả các dự đoán của mô hình và tính trung bình chúng để có được dự đoán cuối cùng. Nó chủ yếu được sử dụng để dự đoán các vấn đề hồi quy, tính toán xác suất trong các vấn đề phân loại, v.v.

Ví dụ: Trong ví dụ trên có bốn người xếp hạng ứng dụng của bạn 4và một trên 3trung bình sẽ là (4+4+4+4+3)/5=3,8

#3. bình quân gia quyền

Trong phương pháp học nhóm này, các chuyên gia chỉ định các trọng số khác nhau cho các mô hình khác nhau để đưa ra dự đoán. Trong trường hợp này, trọng số được chỉ định mô tả tầm quan trọng của từng mô hình.

Ví dụ: Giả sử rằng 5 mọi người đã đưa ra phản hồi về ứng dụng của bạn. của họ 3 là những nhà phát triển ứng dụng, một 2 anh ấy không có kinh nghiệm trong việc phát triển ứng dụng. Vì vậy những đánh giá về những điều này 3 sẽ quan trọng hơn những người khác 2 người.

Kỹ thuật học nhóm nâng cao

# 1. Bao bố

Đóng gói (Bootstrap AGGregatING) là một kỹ thuật học nhóm đơn giản và trực quan cao với kết quả tốt. Đúng như tên gọi, nó được hình thành bằng cách kết hợp hai thuật ngữ “Bootstrap” và “tổng hợp”.

Bootstrapping là một phương pháp lấy mẫu khác trong đó bạn sẽ phải tạo các tập hợp con của một số quan sát được lấy từ tập dữ liệu hoán đổi ban đầu. Ở đây kích thước của tập hợp con sẽ giống với kích thước của tập dữ liệu gốc.

Nguồn: nhà phát triển Buggy

Vì vậy, trong việc đóng bao, các tập hợp con hoặc các túi được sử dụng để hiểu sự phân bố của toàn bộ. Tuy nhiên, các tập hợp con có thể nhỏ hơn tập dữ liệu được đóng gói ban đầu. Phương pháp này liên quan đến một thuật toán ML duy nhất. Mục đích của việc kết hợp kết quả của các mô hình khác nhau là để thu được kết quả tổng quát.

Đây là cách đóng gói hoạt động:

  • Một số tập hợp con được tạo từ tập hợp ban đầu và các trường hợp được chọn thay thế. Các tập hợp con được sử dụng trong các mô hình đào tạo hoặc cây quyết định.
  • Một mô hình yếu hoặc cơ bản được tạo cho mỗi tập hợp con. Các mô hình sẽ độc lập với nhau và chạy song song.
  • Dự báo cuối cùng sẽ được thực hiện bằng cách kết hợp từng dự đoán từ mỗi mô hình bằng cách sử dụng các số liệu thống kê như tính trung bình, bỏ phiếu, v.v.

Các thuật toán phổ biến được sử dụng trong kỹ thuật tập hợp này bao gồm:

  • Rừng ngẫu nhiên
  • Cây quyết định đóng gói

Ưu điểm của phương pháp này là giúp giảm thiểu sai số phương sai trong cây quyết định.

#2. Sắp xếp

Tín dụng hình ảnh: OpenGenus IQ

Trong khái quát hóa xếp chồng hoặc tích lũy, các dự đoán từ các mô hình khác nhau, chẳng hạn như cây quyết định, được sử dụng để tạo mô hình mới nhằm dự đoán bộ thử nghiệm này.

Xếp chồng liên quan đến việc tạo các tập hợp con dữ liệu có thể tải cho các mô hình đào tạo, tương tự như việc đóng gói. Nhưng ở đây, đầu ra của các mô hình được coi là đầu vào cho một bộ phân loại khác, được gọi là bộ phân loại meta, để đưa ra dự đoán cuối cùng về các mẫu.

Lý do hai lớp của bộ phân loại được sử dụng là để xác định xem các tập dữ liệu huấn luyện có được huấn luyện đúng cách hay không. Mặc dù cách tiếp cận hai lớp là phổ biến nhưng cũng có thể sử dụng nhiều lớp hơn.

Ví dụ, bạn có thể sử dụng 3-5 mô hình ở lớp hoặc cấp độ đầu tiên 1 và một mô hình trên mỗi lớp 2 hoặc cấp độ 2. Sau này sẽ kết hợp các dự báo thu được ở cấp độ 1để tạo ra dự báo cuối cùng.

Ngoài ra, bạn có thể sử dụng bất kỳ mô hình học ML nào để tổng hợp các dự đoán; mô hình tuyến tính như hồi quy tuyến tính, hồi quy logistic, v.v… là phổ biến.

Các thuật toán ML phổ biến được sử dụng trong xếp chồng bao gồm:

  • Trộn
  • Một đội tuyệt vời
  • mô hình xếp chồng

Lưu ý: Hash sử dụng tập hợp xác thực hoặc loại trừ từ tập dữ liệu huấn luyện để tạo dự đoán. Không giống như xếp chồng, băm bao gồm các dự đoán cần được thực hiện chỉ dựa trên việc giữ.

#3. gia cố

Tăng cường là một phương pháp học tập hợp tác lặp đi lặp lại nhằm điều chỉnh trọng số của một quan sát cụ thể dựa trên phân loại gần đây nhất hoặc trước đó của nó. Điều này có nghĩa là mỗi mô hình tiếp theo được thiết kế để sửa các lỗi được tìm thấy trong mô hình trước đó.

Nếu một hộp đựng không được phân loại chính xác, mức tăng này sẽ làm tăng trọng lượng của hộp đựng.

Trong quá trình tăng cường, các chuyên gia sẽ đào tạo thuật toán tăng cường đầu tiên trên tập dữ liệu đầy đủ. Sau đó, họ xây dựng các thuật toán ML tiếp theo bằng cách sử dụng phần dư được trích xuất từ ​​thuật toán tăng cường trước đó. Do đó, những quan sát sai lầm được dự đoán bởi mô hình trước đó có trọng lượng hơn.

Đây là cách nó hoạt động từng bước:

  • Tập hợp con sẽ được tạo từ tập dữ liệu gốc. Mỗi điểm dữ liệu ban đầu sẽ có cùng trọng số.
  • Việc tạo mô hình cơ sở được thực hiện trên một tập hợp con.
  • Dự báo sẽ được thực hiện trên tập dữ liệu đầy đủ.
  • Dựa trên các giá trị thực tế và dự đoán, sai số sẽ được tính toán.
  • Những trường hợp dự đoán sai sẽ được cho trọng số cao hơn
  • Một mô hình mới sẽ được tạo và dự đoán cuối cùng sẽ được đưa ra trên tập dữ liệu này trong khi mô hình cố gắng sửa các lỗi đã mắc phải trước đó. Nhiều mô hình sẽ được tạo theo cách tương tự, mỗi mô hình sẽ sửa các lỗi trước đó
  • Dự báo cuối cùng sẽ được thực hiện dựa trên mô hình cuối cùng, là mức trung bình có trọng số của tất cả các mô hình.

Các thuật toán tăng cường phổ biến bao gồm:

  • CatBoost
  • GBM nhẹ
  • AdaBoost

Ưu điểm của việc tăng cường là tạo ra các dự đoán tốt hơn và giảm sai sót do sai lệch.

Các kỹ thuật nhóm khác

Expert Blend: Điều này được sử dụng để huấn luyện nhiều bộ phân loại và kết quả của chúng được nhóm theo quy tắc tuyến tính chung. Ở đây, trọng số cho các kết hợp được xác định bằng một mô hình có thể huấn luyện được.

Bỏ phiếu đa số: liên quan đến việc chọn một bộ phân loại lẻ và các dự đoán được tính toán cho từng mẫu. Lớp nhận được lớp tối đa từ nhóm phân loại sẽ là lớp nhóm được dự đoán. Nó được sử dụng để giải quyết các vấn đề như phân loại nhị phân.

Quy tắc Max: sử dụng phân bố xác suất của từng phân loại và sử dụng độ tin cậy để dự đoán. Nó được sử dụng cho các vấn đề phân loại nhiều lớp.

Các trường hợp sử dụng thực tế của học tập hợp tác

# 1. Nhận diện khuôn mặt và cảm xúc

Học nhóm sử dụng các kỹ thuật như phân tích thành phần độc lập (ICA) để phát hiện khuôn mặt.

Hơn nữa, học tập theo nhóm được sử dụng để phát hiện cảm xúc của một người thông qua phát hiện giọng nói. Ngoài ra, khả năng của nó còn giúp người dùng phát hiện cảm xúc trên khuôn mặt.

#2. Bảo vệ

Phát hiện gian lận: Học tập nhóm giúp tăng cường khả năng mô hình hóa hành vi bình thường. Do đó, nó được cho là có hiệu quả trong việc phát hiện các hoạt động lừa đảo, ví dụ như trong hệ thống thẻ tín dụng và ngân hàng, gian lận viễn thông, rửa tiền, v.v.

DDoS: Từ chối dịch vụ phân tán (DDoS) là một cuộc tấn công chết người vào ISP của bạn. Bộ phân loại tập hợp có thể hạn chế việc phát hiện lỗi cũng như phân biệt các cuộc tấn công với lưu lượng truy cập thực sự.

Phát hiện xâm nhập: Học nhóm có thể được sử dụng trong các hệ thống giám sát, chẳng hạn như các công cụ phát hiện xâm nhập để phát hiện mã kẻ xâm nhập bằng cách giám sát mạng hoặc hệ thống, phát hiện sự bất thường, v.v.

Phát hiện phần mềm độc hại: Team learning khá hiệu quả trong việc phát hiện và phân loại mã phần mềm độc hại như virus và sâu máy tính, ransomware, ngựa Trojan, phần mềm gián điệp, v.v. bằng kỹ thuật machine learning.

#3. Học tập tăng dần

Trong học tăng dần, thuật toán ML học từ một tập dữ liệu mới, giữ lại các dữ liệu đã học trước đó nhưng không truy cập vào dữ liệu trước đó mà nó đã thấy. Các hệ thống tập hợp được sử dụng trong quá trình học tăng dần, buộc chúng phải học bộ phân loại bổ sung cho từng tập dữ liệu khi có sẵn.

#4. Thuốc

Bộ phân loại tập hợp rất hữu ích trong lĩnh vực chẩn đoán y tế, chẳng hạn như phát hiện các rối loạn nhận thức thần kinh (chẳng hạn như bệnh Alzheimer). Nó thực hiện phát hiện bằng cách lấy bộ dữ liệu MRI làm đầu vào và phân loại tế bào cổ tử cung. Ngoài ra, nó còn có ứng dụng trong proteomics (nghiên cứu về protein), khoa học thần kinh và các lĩnh vực khác.

#5. Phát hiện từ xa

Phát hiện thay đổi: Bộ phân loại tập hợp được sử dụng để phát hiện các thay đổi bằng các phương pháp như bỏ phiếu trung bình Bayes và bỏ phiếu đa số.

Lập bản đồ che phủ đất: Các phương pháp học tập hợp tác như tăng cường, cây quyết định, phân tích thành phần cốt lõi (KPCA), v.v. được sử dụng để phát hiện và lập bản đồ che phủ đất một cách hiệu quả.

#6. tài chính

Độ chính xác là một khía cạnh quan trọng của tài chính, cho dù đó là tính toán hay dự báo. Nó có ảnh hưởng lớn đến kết quả của các quyết định được đưa ra. Họ cũng có thể phân tích những thay đổi trong dữ liệu thị trường chứng khoán, phát hiện hành vi thao túng giá cổ phiếu, v.v.

Tài nguyên đào tạo bổ sung

# 1. Phương pháp học máy hợp tác

Cuốn sách này sẽ giúp bạn tìm hiểu và thực hiện các phương pháp học tập nhóm quan trọng ngay từ đầu.

#2. Phương pháp nhóm: cơ bản và thuật toán

Cuốn sách này bao gồm những điều cơ bản về học tập hợp tác và các thuật toán của nó. Nó cũng cho thấy nó được sử dụng như thế nào trong thế giới thực.

#3. Học nhóm

Nó cung cấp phần giới thiệu về phương pháp nhóm thống nhất, các thách thức, ứng dụng, v.v.

#4. Ensemble Machine Learning: phương pháp và ứng dụng:

Nó cung cấp một loạt các kỹ thuật học tập nhóm tiên tiến.

Ứng dụng

Tôi hy vọng bây giờ bạn đã có một số ý tưởng về học tập nhóm, các phương pháp, trường hợp sử dụng và lý do tại sao việc sử dụng nó có thể mang lại lợi ích cho trường hợp sử dụng của bạn. Nó có khả năng giải quyết nhiều thách thức trong thế giới thực, từ bảo mật và phát triển ứng dụng đến tài chính, y tế, v.v. Các ứng dụng của nó ngày càng mở rộng, vì vậy có thể sẽ có nhiều cải tiến hơn cho khái niệm này trong tương lai gần.

Bạn cũng có thể khám phá một số công cụ tạo dữ liệu tổng hợp để huấn luyện các mô hình machine learning