Alibaba công bố Infinite-LLM, mô hình ngôn ngữ lớn hiệu quả cho bối cảnh dài với sự chú ý và phân phối KVCache → https://huggingface.co/papers/2401.02669
Infinite-LLM là gì?
Sự phát triển nhanh chóng của các Mô hình Ngôn ngữ Lớn (LLM) là một lực lượng thúc đẩy trong sự phát triển của dịch vụ LLM dựa trên đám mây, hiện không thể thiếu cho việc nâng cao ứng dụng AI. Tuy nhiên, tính chất tự động tái hăng của dịch vụ LLM, cùng với nhu cầu hỗ trợ chiều dài ngữ cảnh đặc biệt, yêu cầu sự phân bổ linh hoạt và giải phóng các nguồn lực đáng kể.
Điều này đưa ra những thách thức đáng kể trong việc thiết kế hệ thống dịch vụ LLM dựa trên đám mây, nơi quản lý không hiệu quả có thể dẫn đến sự suy giảm hiệu suất hoặc lãng phí tài nguyên. Để đáp lại những thách thức này, tác phẩm này giới thiệu DistAttention, một thuật toán chú ý được phân phối mới, phân đoạn KV Cache thành các đơn vị nhỏ hơn, có thể quản lý, cho phép xử lý và lưu trữ mô-đun chú ý được phân phối. Dựa trên đó, Alibaba đề xuất DistKV-LLM, một hệ thống phục vụ LLM được phân phối, quản lý một cách linh động KV Cache và dàn xếp hiệu quả tất cả các bộ nhớ GPU và CPU có thể tiếp cận trải dài trên trung tâm dữ liệu. Điều này đảm bảo một dịch vụ LLM hiệu suất cao trên đám mây, có thể thích nghi với một phạm vi dài ngữ cảnh rộng. Được xác thực trong môi trường đám mây với 32 GPU NVIDIA A100 trong cấu hình từ 2 đến 32 phiên bản, hệ thống của chúng tôi đã trưng bày cải tiến đầu cuối 1.03-2.4 lần và hỗ trợ độ dài ngữ cảnh dài 2-19 lần so với hệ thống dịch vụ LLM hiện nay, như được chứng minh bằng việc thử nghiệm rộng rãi trên 18 tập dữ liệu với độ dài ngữ cảnh lên đến 1.900K.