Tại Ngày hội trí tuệ nhân tạo – AI Day 2023 diễn ra ở TP.HCM, Công ty VinAI công bố dự án nghiên cứu mã nguồn mở về mô hình ngôn ngữ lớn (LLM) cho riêng tiếng Việt có tên là PhởGPT. Đây có thể coi là phiên bản ChatGPT của người Việt, được tạo ra và chuyên dụng cho tiếng Việt.
Mời bạn tham khảo Google Gemini AI chính thức ra mắt!
PhoGPT là gì?
PhoGPT là mô hình dựa trên bộ giải mã Transformer, kết hợp (Triton) flash attention và ALiBi để ngoại suy độ dài ngữ cảnh. Bằng cách sử dụng Mosaicml llm-foundry library, VinAI đào tạo trước PhoGPT từ đầu trên kho văn bản đào tạo trước 41GB gồm các văn bản tiếng Việt. Kho dữ liệu đào tạo trước này bao gồm 1GB văn bản Wikipedia và một biến thể 40GB được loại bỏ trùng lặp của tập dữ liệu tin tức “binhvq” (phiên bản 21/05/2021).
Mục tiêu của dự án là phát triển các mô hình tương tự như ChatGPT cho tiếng Việt và văn hoá của người Việt. Theo đó, PhởGPT có khả năng hiểu và viết văn phong tiếng Việt một cách vượt bậc so với các công nghệ về ngôn ngữ thế hệ trước. Bên cạnh đó, mô hình cũng được huấn luyện từ đầu với tập dữ liệu tiếng Việt, không phụ thuộc vào bất cứ một mô hình nào khác của thế giới, đảm bảo việc làm chủ công nghệ lõi tiên tiến cho Việt Nam.
So sánh phiên bản PhởGPT-7B5-Instruct và ChatGPT mã nguồn đóng (GPT-3.5-turbo) và các mô hình mã nguồn mở khác cho thấy, PhởGPT đứng thứ hai chỉ sau ChatGPT trong hầu hết các mục đánh giá.
“PhởGPT” là một dự án mã nguồn mở, song hành cùng trào lưu các mô hình ngôn ngữ lớn với mã nguồn mở của thế giới như Llama của Meta hay Mistral được phát triển để cạnh tranh với ChatGPT của OpenAI. Đội ngũ phát triển PhởGPT đang tiếp tục cải tiến mô hình và sẽ mở rộng dự án cho các ngôn ngữ khác, đặc biệt là các ngôn ngữ trong khu vực Đông Nam Á.
VinAI không giới hạn về tính thương mại, tất cả các bên đều có thể sử dụng PhởGPT để phát triển các ứng dụng cho riêng mình, kể cả phục vụ mục đích thương mại.
Cách chạy PhoGPT như thế nào?
Để chạy mô hình ngôn ngữ PhoGPT, bạn sẽ cần một cấu hình máy tính có khả năng xử lý mô hình 7.5 tỷ tham số. Một cấu hình tiêu biểu có thể bao gồm:
- Một GPU mạnh mẽ (ví dụ: NVIDIA A100 hoặc tương đương) với ít nhất 40GB VRAM để chạy mô hình đầy đủ
- Một CPU với số lượng lõi và tốc độ xử lý đủ cao để hỗ trợ xử lý song song và tải dữ liệu.
- RAM đủ lớn (ít nhất 64GB được khuyến nghị) để xử lý các tác vụ và dữ liệu.
- Không gian lưu trữ SSD đủ lớn để lưu trữ mô hình và bộ dữ liệu cần thiết cho việc huấn luyện hoặc tinh chỉnh.