Meta đã kết hợp với Microsoft giới thiệu Llama2, mô hình ngôn ngữ lớn mới với nhiều khả năng hơn so với mô hình LLama (Large Language Model Meta AI). Vậy Llama 2 là gì và có gì nổi bật so với các thế hệ trước đó.
Xem thêm Mô hình ngôn ngữ lớn VinaLLaMA của Việt Nam có gì hot?
LLaMa là gì?
LLama là từ viết tắt của Large Language Model Meta AI, có nghĩa là mô hình ngôn ngữ lớn do Meta AI thuộc Meta (công ty mẹ của Facebook, Instagram, WhatsApp, Threads…phát triển) phát triển. Llama 2 là phiên bản mới nhất của Llama.
Theo như Meta công bố, mô hình LLaMA có tối đa 65 tỷ tham số, bằng một phần ba so với ChatGPT nhưng bù lại nó được huấn luyện trên 1.400 tỷ từ, cao gấp 5 lần siêu AI của OpenAI.
Meta tuyên bố LLaMA có thể vượt trội các đối thủ trong một số tình huống cụ thể. Với 65 tỷ tham số, nó cho thấy sức mạnh không thua kém Chinchilla70B và PaLM-540B của Google. Tháng 5/2022, Meta cũng đã phát hành mô hình ngôn ngữ lớn OPT-175B, tạo cơ sở cho phiên bản chatbot BlenderBot 3. Sau đó, công ty giới thiệu mô hình Galactica có thể viết bài báo khoa học và giải các bài toán. Tuy nhiên, cả hai AI này đều nhanh chóng bị gỡ bỏ do liên quan đến vấn đề bản quyền và thông tin sai lệch.
LLaMa2 là gì?
Nói một cách ngắn gọn thì LLaMa-2 là phiên bản tiếp theo của LLaMa. Mô hình ngôn ngữ lớn này về mặt kiến trúc thì có vẻ tương tự như LLaMa nhưng được bổ sung thêm dữ liệu, cải thiện chất lượng cũng như đưa thêm các phương pháp tối ưu mới để đạt được hiệu suất cao hơn. Mô hình này cho benchmark vượt trội hơn hẳn so với các open source model khác và đặc biệt là nó open source cả model, dữ liệu và cho phép sử dụng trong mục đích thương mại.
Trái ngược với các mô hình AI khác hiện có, mô hình AI Llama 2 của Meta sẽ được cung cấp miễn phí cho hoạt động nghiên cứu và sử dụng cho mục đích thương mại, điều này có nghĩa là thay vì chỉ được sử dụng riêng cho Meta, các cá nhân và tổ chức khác đều có quyền truy cập vào Llama 2 để vừa sử dụng, nghiên cứu lẫn phát triển (mã nguồn mở).
Llama 2 được cung cấp dưới dạng mã nguồn mở và đặc biệt là cho phép sử dụng dưới mục đích thương mại. Ngoài ra, Meta cũng cung cấp cả dữ liệu với chất lượng cực cao cho mọi mục đích từ nghiên cứu đến tạo ra mô hình của mình.
Ngoài ra, nhờ vào mối quan hệ đối tác với Microsoft, Meta cho biết Llama 2 cũng được tối ưu hóa cho Windows, điện thoại thông minh và PC thông qua hệ thống chip Snapdragon của gã khổng lồ Qualcomm. (Qualcomm cho biết nền tảng sẽ đưa Llama 2 lên các thiết bị chạy bằng chip Snapdragon vào năm 2024.)
Theo sách trắng (whitepaper) được Meta công bố, Llama 2 có hai phiên bản là Llama 2 và Llama 2-Chat, trong đó Llama 2-Chat được tối ưu cho các cuộc trò chuyện hai chiều. Llama 2 và Llama 2-Chat cũng được chia nhỏ thành các phiên bản có độ phức tạp khác nhau gồm 7 tỷ tham số, 13 tỷ tham số và 70 tỷ tham số.
Llama 2 hiện đã được đào tạo trên 2 triệu mã thông báo (tokens), trong đó “mã thông báo” đại diện cho văn bản thô — ví dụ: “fan”, “tas” và “tic” cho từ văn bản “fantastic”, con số này cao gần gấp đôi so với thế hệ Llama cũ. Theo Meta, mô hình AI càng có nhiều mã thông báo, thì càng hoạt động hiệu quả.
So sánh với các mô hình khác trên thị trường, hiện mô hình ngôn ngữ lớn (LLM) hàng đầu của Google là PaLM 2, được báo cáo là đã được đào tạo trên 3.6 triệu mã thông báo hay GPT-4 (được sử dụng trong ChatGPT của OpenAI) cũng được đào tạo trên hàng triệu mã thông báo).