▷ Cách đào tạo chatbot AI với nền tảng kiến thức tùy chỉnh bằng API ChatGPT

Trong bài viết trước, chúng tôi đã hướng dẫn bạn cách xây dựng một chatbot AI bằng API ChatGPT và chỉ định vai trò để cá nhân hóa nó. Nhưng nếu bạn muốn đào tạo AI trên dữ liệu của riêng mình thì sao? Ví dụ: bạn có thể có một cuốn sách, dữ liệu tài chính hoặc một bộ cơ sở dữ liệu lớn và bạn muốn tìm kiếm chúng một cách dễ dàng. Trong bài viết này, chúng tôi cung cấp hướng dẫn dễ thực hiện về cách đào tạo chatbot AI với nền tảng kiến thức tùy chỉnh với API LangChain và ChatGPT. Chúng tôi triển khai LangChain, GPT Index và các thư viện mạnh mẽ khác để đào tạo chatbot AI bằng Mô hình ngôn ngữ lớn (LLM) của OpenAI. Theo lưu ý này, hãy khám phá cách đào tạo và tạo Chatbot AI bằng cách sử dụng tập dữ liệu của riêng bạn.

Đào tạo chatbot AI với nền tảng kiến thức tùy chỉnh bằng ChatGPT API, LangChain và GPT Index (2023)

Trong bài viết này, chúng tôi đã giải thích chi tiết hơn cách dạy cho chatbot AI dữ liệu riêng của nó. Từ việc cấu hình các công cụ, phần mềm đến đào tạo mô hình AI, tất cả các hướng dẫn đều bằng ngôn ngữ dễ hiểu. Nên làm theo hướng dẫn từ trên xuống dưới, không bỏ sót phần nào.

Những điểm đáng chú ý trước khi bạn bắt đầu huấn luyện AI bằng dữ liệu của chính mình

1. Bạn có thể đào tạo một chatbot AI trên mọi nền tảng Windows, macOS, Linux hoặc ChromeOS. Trong bài viết này tôi sử dụng hệ thống Windows 11, nhưng các bước gần như giống hệt nhau đối với các nền tảng khác.

2. Hướng dẫn này dành cho người dùng phổ thông và các hướng dẫn được giải thích bằng ngôn ngữ dễ hiểu. Vì vậy, ngay cả khi bạn có kiến thức sơ lược về máy tính và không biết cách viết mã, bạn vẫn có thể dễ dàng đào tạo và tạo một chatbot Hỏi đáp AI trong vài phút. Nếu bạn theo dõi bài viết trước của chúng tôi về bot ChatGPT, bạn sẽ dễ hiểu quy trình hơn nữa.

3. Vì chúng tôi sẽ đào tạo AI của chatbot bằng dữ liệu của riêng mình nên chúng tôi khuyên bạn nên sử dụng máy tính đang hoạt động có bộ xử lý và card đồ họa tốt. Tuy nhiên, bạn có thể sử dụng bất kỳ máy tính cấp thấp nào cho mục đích thử nghiệm và nó sẽ hoạt động mà không gặp vấn đề gì. Tôi đã sử dụng Chromebook để huấn luyện mô hình AI với cuốn sách 100 trang (~100 MB). Tuy nhiên, nếu bạn muốn huấn luyện một tập dữ liệu lớn gồm hàng nghìn trang thì nên sử dụng máy tính mạnh.

4. Cuối cùng, tập dữ liệu phải bằng tiếng Anh để có kết quả tốt nhất, nhưng theo OpenAI, nó cũng sẽ hoạt động với các ngôn ngữ quốc tế phổ biến như tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, v.v. Vì vậy, hãy tiếp tục và thử nó bằng ngôn ngữ của riêng bạn.

Thiết lập môi trường phần mềm đào tạo chatbot AI

Giống như trong bài viết trước của chúng tôi, bạn nên biết rằng Python và Pip cần được cài đặt cùng với một số thư viện. Trong bài viết này, chúng tôi sẽ định cấu hình mọi thứ từ đầu để người dùng mới cũng có thể hiểu được quá trình cài đặt. Để giúp bạn hiểu nhanh, chúng tôi sẽ cài đặt Python và Pip. Tiếp theo, chúng tôi sẽ cài đặt các thư viện Python, bao gồm OpenAI, GPT Index, Gradio và PyPDF2. Trong quá trình này, bạn sẽ tìm hiểu chức năng của từng thư viện. Một lần nữa, đừng lo lắng về quá trình cài đặt, nó khá đơn giản. Trên lưu ý đó, hãy bắt đầu ngay.

Cài đặt Python

1. Đầu tiên bạn cần cài đặt Python (Pip) trên máy tính. mở liên kết này và tải xuống tệp cài đặt cho nền tảng của bạn.

2. Sau đó chạy tệp thiết lập và chọn hộp kiểm “Thêm Python.exe vào PATH”. Đây là một bước cực kỳ quan trọng. Sau đó nhấp vào “Cài đặt ngay” và làm theo các bước thông thường để cài đặt Python.

3. Để xác minh rằng Python đã được cài đặt chính xác, hãy mở Terminal trên máy tính của bạn. Tôi đang sử dụng thiết bị đầu cuối Windows trong hệ thống Windowsnhưng bạn cũng có thể sử dụng dòng lệnh. Khi ở đây, hãy chạy lệnh bên dưới và nó sẽ hiển thị phiên bản python. Trên Linux và macOS, bạn có thể cần sử dụng python3 –version thay vì python –version.

python --version

Nâng cấp Pip

Khi bạn cài đặt Python, Pip sẽ được cài đặt đồng thời trên hệ thống của bạn. Vì vậy hãy cập nhật nó lên phiên bản mới nhất. Đối với những người chưa biết, Pip là trình quản lý gói cho Python. Về cơ bản, nó cho phép bạn cài đặt hàng ngàn thư viện python từ thiết bị đầu cuối. Với Pip, chúng ta có thể cài đặt các thư viện OpenAI, gpt_index, gradio và PyPDF2. Dưới đây là các bước để làm theo.

1. Mở Terminal đã chọn trên máy tính của bạn. Tôi đang sử dụng thiết bị đầu cuối Windowsnhưng bạn cũng có thể sử dụng dòng lệnh. Bây giờ hãy chạy lệnh bên dưới để cập nhật Pip. Một lần nữa, bạn có thể cần sử dụng python3 và pip3 trên Linux và macOS.

python -m pip install -U pip

2. Để xác minh rằng Pip đã được cài đặt chính xác, hãy chạy lệnh bên dưới. Nó sẽ hiển thị số phiên bản. Nếu bạn gặp bất kỳ lỗi nào, hãy làm theo hướng dẫn riêng của chúng tôi về cách cài đặt Pip trên hệ thống của bạn Windowsđể khắc phục các sự cố liên quan đến PATH.

pip --version

Cài đặt thư viện OpenAI, GPT Index, PyPDF2 và Gradio

Bây giờ Python và Pip đã được thiết lập, đã đến lúc cài đặt các thư viện cần thiết để giúp chúng ta đào tạo chatbot AI của mình với nền tảng kiến thức tùy chỉnh. Dưới đây là các bước để làm theo.

1. Mở một thiết bị đầu cuối và chạy lệnh bên dưới để cài đặt thư viện OpenAI. Chúng tôi sẽ sử dụng nó làm LLM (Mô hình ngôn ngữ lớn) để đào tạo và tạo một chatbot AI. Chúng tôi cũng sẽ nhập khung LangChain từ OpenAI. Lưu ý rằng người dùng Linux và macOS có thể phải sử dụng pip3 thay vì pip.

pip install openai

2. Tiếp theo, hãy cài đặt chỉ mục GPT, còn được gọi là LlamaIndex. Nó cho phép LLM kết nối với dữ liệu bên ngoài là cơ sở kiến thức của chúng tôi.

pip install gpt_index

3. Sau đó cài đặt PyPDF2 để phân tích file PDF. Nếu bạn muốn tải dữ liệu của mình lên ở định dạng PDF, thư viện này sẽ giúp chương trình đọc dữ liệu một cách dễ dàng.

pip install PyPDF2

4. Cuối cùng cài đặt thư viện Gradio. Điều này nhằm tạo ra một giao diện người dùng đơn giản để tương tác với một chatbot AI đã được đào tạo. Chúng ta đã cài đặt xong tất cả các thư viện cần thiết để đào tạo chatbot AI.

pip install gradio

Tải xuống trình soạn thảo mã

Cuối cùng, chúng ta cần một trình soạn thảo mã để chỉnh sửa một số mã. Trong hệ thống Windows Tôi khuyên dùng Notepad++ (Tải xuống). Chỉ cần tải xuống và cài đặt chương trình bằng liên kết được cung cấp. Bạn cũng có thể sử dụng VS Code trên bất kỳ nền tảng nào nếu cảm thấy thoải mái với các IDE mạnh mẽ. Ngoài VS Code, bạn có thể cài đặt Sublime Text (Download) trên macOS và Linux.

Đối với ChromeOS, bạn có thể sử dụng ứng dụng Caret (Tải xuống) tuyệt vời để chỉnh sửa mã. Chúng ta gần như đã hoàn tất việc thiết lập môi trường phần mềm và đã đến lúc lấy khóa API OpenAI của bạn.

Nhận khóa API OpenAI miễn phí

Bây giờ, để đào tạo và tạo một chatbot AI dựa trên nền tảng kiến thức tùy chỉnh, chúng ta cần lấy khóa API từ OpenAI. Khóa API sẽ cho phép bạn sử dụng mô hình OpenAI làm LLM để khám phá dữ liệu tùy chỉnh và đưa ra kết luận. Hiện tại, OpenAI đang cung cấp cho người dùng mới các khóa API miễn phí với giá trị tín dụng miễn phí. 5 USD trong ba tháng đầu tiên. Nếu trước đây bạn đã tạo tài khoản OpenAI, bạn có thể có khoản tín dụng miễn phí $18 trong tài khoản của mình. Sau khi sử dụng hết tín dụng miễn phí, bạn sẽ phải trả tiền để truy cập vào API. Nhưng hiện tại, nó có sẵn miễn phí cho tất cả người dùng.

1. Hãy truy cập platform.openai.com/signup và đăng ký tài khoản miễn phí. Nếu bạn đã có tài khoản OpenAI, chỉ cần đăng nhập.

2. Sau đó nhấp vào hồ sơ của bạn ở góc trên bên phải và chọn “Xem khóa API” từ menu thả xuống.

3. Tại đây, nhấp vào “Tạo khóa bí mật mới” và sao chép khóa API. Lưu ý rằng sau này bạn không thể sao chép hoặc xem toàn bộ khóa API. Do đó, chúng tôi khuyên bạn nên sao chép và dán ngay khóa API vào tệp Notepad.

4. Không chia sẻ hoặc hiển thị khóa API của bạn một cách công khai. Đây là khóa riêng chỉ được sử dụng để truy cập vào tài khoản của bạn. Bạn cũng có thể xóa khóa API và tạo nhiều khóa riêng tư (tối đa năm khóa).

Đào tạo và xây dựng chatbot AI với nền tảng kiến thức tùy chỉnh

Bây giờ chúng ta đã thiết lập xong môi trường phần mềm và đã nhận được API key từ OpenAI, hãy huấn luyện chatbot AI nhé. Ở đây chúng tôi sẽ sử dụng mô hình “text-davinci-003” thay vì “gpt-3.5-turbo” vì Davinci hoạt động tốt hơn nhiều trong việc hoàn thành văn bản. Nếu muốn, bạn rất có thể đổi model sang Turbo để giảm chi phí. Bỏ chuyện đó đi, hãy chuyển sang phần hướng dẫn.

Thêm tài liệu của bạn để đào tạo chatbot AI của bạn

1. Đầu tiên, tạo một thư mục mới có tên docs ở một vị trí có thể truy cập được, chẳng hạn như Màn hình của bạn. Bạn cũng có thể chọn một địa điểm khác tùy theo sở thích của mình. Tuy nhiên, hãy giữ tên thư mục tài liệu.

2. Sau đó di chuyển các tài liệu bạn muốn sử dụng để đào tạo AI vào thư mục “docs”. Bạn có thể thêm nhiều tệp văn bản hoặc PDF (thậm chí cả những tệp được quét). Nếu có một bảng lớn trong Excel, bạn có thể nhập bảng đó dưới dạng tệp CSV hoặc PDF rồi thêm bảng đó vào thư mục “docs”. Bạn thậm chí có thể thêm các tệp cơ sở dữ liệu SQL như được giải thích trong Tweet AI Langchain này. Tôi chưa thử nhiều định dạng tệp khác ngoài những định dạng được liệt kê nhưng bạn có thể thêm và tự kiểm tra. Tôi đang thêm vào bài viết này một trong những bài viết của tôi về NFT ở định dạng PDF.

Lưu ý: Nếu bạn có tài liệu lớn, quá trình xử lý sẽ mất nhiều thời gian hơn tùy thuộc vào CPU và card đồ họa của bạn. Ngoài ra, nó sẽ nhanh chóng đổi mã thông báo OpenAI miễn phí của bạn. Vì vậy, hãy bắt đầu với một tài liệu nhỏ lúc đầu (30-50 trang hoặc <100 MB tập tin) để hiểu quá trình.

Chuẩn bị mã

1. Bây giờ hãy khởi chạy Notepad++ (hoặc trình soạn thảo mã bạn chọn) và dán mã bên dưới vào tệp mới. Một lần nữa, tôi lại nhờ đến sự trợ giúp tuyệt vời của armrrs trên Google Colab và điều chỉnh mã để tương thích với các tệp PDF và tạo giao diện Gradio ở trên cùng.

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
from langchain import OpenAI
import gradio as gr
import sys
import os

os.environ["OPENAI_API_KEY"] = 'Your API Key'

def construct_index(directory_path):
    max_input_size = 4096
    num_outputs = 512
    max_chunk_overlap = 20
    chunk_size_limit = 600

    prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)

    llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))

    documents = SimpleDirectoryReader(directory_path).load_data()

    index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

    index.save_to_disk('index.json')

    return index

def chatbot(input_text):
    index = GPTSimpleVectorIndex.load_from_disk('index.json')
    response = index.query(input_text, response_mode="compact")
    return response.response

iface = gr.Interface(fn=chatbot,
                     inputs=gr.inputs.Textbox(lines=7, label="Enter your text"),
                     outputs="text",
                     title="Custom-trained AI Chatbot")

index = construct_index("docs")
iface.launch(share=True)

2. Đây là giao diện của mã trong trình chỉnh sửa mã.

3. Sau đó nhấp vào “Tệp” trong menu trên cùng và chọn “Lưu dưới dạng…” từ menu thả xuống.

4. Sau đó đặt tên của tệp app.py và thay đổi “Lưu dưới dạng” thành “Tất cả các loại” từ menu thả xuống. Sau đó lưu tệp vào vị trí bạn đã tạo thư mục “docs” (trong trường hợp của tôi là Màn hình nền). Bạn có thể thay đổi tên theo ý thích của mình nhưng hãy đảm bảo thêm phần mở rộng .py.

5. Đảm bảo thư mục “docs” và “app.py” ở cùng vị trí như trong ảnh chụp màn hình bên dưới. Tệp “app.py” sẽ nằm ngoài thư mục “docs” chứ không phải bên trong.

6. Quay lại mã một lần nữa trong Notepad++. Tại đây, hãy thay thế khóa API của bạn bằng khóa được tạo trên trang web OpenAI ở trên.

7. Cuối cùng nhấn “Ctrl + S” để lưu mã. Bây giờ bạn đã sẵn sàng để chạy mã.

Tạo ChatGPT AI Bot với nền tảng kiến thức tùy chỉnh

1. Đầu tiên, mở một terminal và chạy lệnh bên dưới để vào màn hình nền. Đây là nơi tôi đã lưu thư mục “docs” và tệp “app.py”. Nếu bạn đã lưu cả hai mục ở một vị trí khác, hãy điều hướng đến vị trí đó bằng thiết bị đầu cuối.

cd Desktop

2. Bây giờ hãy chạy lệnh dưới đây. Người dùng Linux và macOS có thể cần sử dụng python3.

python app.py

3. Bây giờ nó sẽ bắt đầu phân tích tài liệu bằng mô hình OpenAI LLM và bắt đầu lập chỉ mục thông tin. Tùy thuộc vào kích thước tệp và khả năng của máy tính, sẽ mất một chút thời gian để xử lý tài liệu. Sau khi hoàn tất, tệp “index.json” sẽ được tạo trên màn hình của bạn. Nếu thiết bị đầu cuối không hiển thị bất kỳ đầu ra nào, đừng lo lắng, nó vẫn có thể xử lý dữ liệu. Để biết thông tin của bạn, việc xử lý tài liệu có kích thước 30 MB mất khoảng 10 giây.

4. Sau khi LLM xử lý dữ liệu của bạn, bạn sẽ nhận được một số cảnh báo mà bạn có thể bỏ qua một cách an toàn. Cuối cùng, ở phía dưới bạn sẽ tìm thấy URL cục bộ. sao chép nó.

5. Bây giờ dán URL đã sao chép vào trình duyệt web của bạn và bạn đã hoàn tất. Chatbot AI dựa trên ChatGPT được đào tạo tùy chỉnh của bạn đã sẵn sàng. Để bắt đầu, bạn có thể hỏi chatbot AI về nội dung tài liệu.

6. Bạn có thể đặt thêm câu hỏi và bot ChatGPT sẽ trả lời dựa trên dữ liệu bạn đã cung cấp cho AI. Bằng cách này, bạn có thể xây dựng một chatbot AI được đào tạo tùy chỉnh với bộ dữ liệu của riêng bạn. Bây giờ bạn có thể đào tạo và tạo một chatbot AI dựa trên bất kỳ thông tin nào. Khả năng là vô tận.

7. Bạn cũng có thể sao chép URL công khai và chia sẻ nó với bạn bè và gia đình của mình. Liên kết sẽ hoạt động trong 72 giờ, nhưng bạn cũng cần luôn bật máy tính vì phiên bản máy chủ đang chạy trên máy tính của bạn.

8. Để dừng chatbot AI được đào tạo đặc biệt, hãy nhấn “Ctrl + C” trong cửa sổ Terminal. Nếu điều đó không hiệu quả, hãy nhấn lại “Ctrl + C”.

9. Để khởi động lại máy chủ chatbot AI, bạn chỉ cần di chuyển trở lại vị trí Desktop và chạy lệnh bên dưới. Lưu ý rằng URL cục bộ sẽ giống nhau nhưng URL công khai sẽ thay đổi sau mỗi lần khởi động lại máy chủ.

python app.py

10. Nếu bạn muốn dạy dữ liệu mới cho chatbot AI, hãy xóa các tệp khỏi thư mục “docs” và thêm tệp mới. Bạn cũng có thể thêm nhiều tệp nhưng cung cấp thông tin về cùng một chủ đề, nếu không bạn có thể nhận được phản hồi không nhất quán.

11. Bây giờ hãy chạy lại mã trong terminal và nó sẽ tạo một tệp “index.json” mới. Ở đây tệp “index.json” cũ sẽ được thay thế tự động.

python app.py

12. Để theo dõi số token của bạn, hãy truy cập bảng điều khiển trực tuyến OpenAI và kiểm tra xem bạn còn lại bao nhiêu.

13. Cuối cùng, bạn không cần chạm vào mã trừ khi bạn muốn thay đổi khóa hoặc mô hình API OpenAI để tùy chỉnh thêm.

Xây dựng một chatbot AI tùy chỉnh bằng dữ liệu của riêng bạn

Bằng cách này, bạn có thể đào tạo một chatbot AI với nền tảng kiến thức tùy chỉnh. Tôi đã sử dụng mã này để đào tạo AI về sách, bài báo, bảng dữ liệu và báo cáo y tế từ các kho lưu trữ cũ và nó hoạt động hoàn hảo. Hãy tiếp tục và tạo chatbot AI của riêng bạn bằng mô hình ngôn ngữ lớn OpenAI và ChatGPY. Dù sao, đó là tất cả từ chúng tôi. Nếu bạn đang tìm kiếm các lựa chọn thay thế ChatGPT tốt nhất, hãy xem bài viết liên quan của chúng tôi. Để sử dụng ChatGPT trên đồng hồ của bạn Apple Watch, hãy làm theo hướng dẫn chi tiết của chúng tôi. Cuối cùng, nếu bạn gặp phải bất kỳ vấn đề nào, hãy cho chúng tôi biết trong phần bình luận bên dưới. Chúng tôi chắc chắn sẽ cố gắng giúp bạn.

Mục lục

Cách đào tạo chatbot AI với nền tảng kiến ​​thức tùy chỉnh bằng API ChatGPT

Đào tạo chatbot AI với nền tảng kiến ​​thức tùy chỉnh bằng ChatGPT API, LangChain và GPT Index (2023)