Team Bloomberg dùng MetaGraph dựa trên knowledge graph tự động để phân tích xem GenAI đã thay đổi tài chính NLP thế nào. Họ dùng 681 bài báo khoa học từ 2022-2025. Bài viết lấy từ đây của Bước cùng AI để không tụt lại.

Ba giai đoạn: Từ hype đến thực tế
Giai đoạn 1: Hype LLM và thử nghiệm (Cuối 2022 – Đầu 2023)
Khi ChatGPT ra, cả ngành tài chính NLP như lên đồng. Trước đó, các task như sentiment analysis hay structured extraction chiếm 90% paper. Nhưng rồi LLMs xuất hiện, mọi người bắt đầu thử nghiệm đủ thứ mới. Financial Question Answering (QA) bỗng hot, từ 10% lên 33% task vào 2025.
Data cũng thay đổi. Dataset truyền thống bị lép vế trước QA benchmark. Nguồn data đa dạng hơn, từ bảng biểu, chart, audio, đến bình luận của analyst, không chỉ dừng ở tin tức hay báo cáo công ty. Synthetic data thì bùng nổ, từ 5% lên 15% vào tháng 11/2024.
Giai đoạn 2: Bớt ảo tưởng (Giữa 2023 – Đầu 2024)
Sau cơn sốt, dân nghiên cứu bắt đầu tỉnh táo hơn. Họ nhận ra LLMs không phải thần thánh, có nhiều vấn đề: reasoning yếu, khó giải thích, tốn tài nguyên, và rủi ro về an toàn. Bias, privacy, hay nguy cơ bị lạm dụng trong tài chính bắt đầu được nhắc đến nhiều. Vd dùng LLM để phân tích sentiment, kết quả bị bias vì data train toàn từ báo cáo của các công ty lớn, bỏ qua startup.
Trọng tâm nghiên cứu chuyển sang robustness, efficiency, reasoning, và Retrieval-Augmented Generation (RAG). Số paper nhắc đến các chủ đề này tăng gấp đôi, từ 9% lên 18% vào 2024. RAG thì giống như thêm external API để fetch data real-time, giúp model không bị lạc hậu thông tin.
Giai đoạn 3: Tích hợp, chơi hệ thống (Đầu 2024 – 2025)
Giai đoạn này, dân dev không chỉ chăm chăm vào model mà chuyển sang xây hệ thống xịn hơn. Prompt engineering lên level, từ zero-shot đơn giản sang Chain-of-Thought, retrieval-based prompt, hay self-criticism để giảm lỗi.
RAG thành công nghệ cốt lõi, tích hợp LLM với knowledge base để cung cấp thông tin mới. Data source cũng mở rộng, từ text đến bảng biểu, format đa dạng hơn. Ví dụ công ty bảo hiểm dùng RAG để kéo luật mới từ cơ quan quản lý, giúp model tư vấn chính xác hơn.
Về model, ban đầu GPT thống trị, nhưng giờ dân tình chuyển sang open-source như LLaMA, Qwen, DeepSeek vì dễ tùy chỉnh, minh bạch hơn.
Học thuật vs Doanh nghiệp: Hai thế giới
Nghiên cứu học thuật và doanh nghiệp đi hai đường khác nhau. Doanh nghiệp nhanh hơn, chiếm lĩnh mảng QA, dùng data độc quyền và closed-source model. Các ngân hàng lớn dùng model nội bộ, train trên data giao dịch riêng, kết quả ngon nhưng chả share gì. Trong khi đó, giới học thuật cẩn thận hơn, tập trung vào các task quen thuộc, dùng open-source model, chú trọng transparency.
Trend mới và tương lai
Multi-agent systems đang lên. Vd hệ thống agent kiểu expert-critic, một agent đưa kết quả, agent khác kiểm tra, giống như code review. Reinforcement learning cũng hot trở lại, không chỉ để tối ưu trading mà còn cải thiện reasoning của LLM.
Tài chính NLP cũng bắt đầu tập trung vào đặc thù của ngành, như temporal relationships hay regulatory constraints.
Phương pháp nghiên cứu: MetaGraph
Thay vì ngồi đọc từng paper như các ông khảo sát truyền thống, MetaGraph là một pipeline tự động, scale tốt, phân tích trend nghiên cứu kiểu định lượng.Kiểu như viết script để scrape data từ các repo, nhưng ở đây là scrape insight từ 681 paper tài chính NLP.
Cách họ làm thế này: Đầu tiên, team định nghĩa một ontology (kiểu như schema) dành riêng cho tài chính NLP, bao gồm các entity như paper, task, model, dataset, kỹ thuật, động lực, hạn chế, và mối quan hệ giữa chúng. Giống như thiết kế database trước khi query vậy, để mọi thứ có cấu trúc.
Họ lôi 681 paper từ ACL Anthology và arXiv, lọc bằng keyword kiểu “financial NLP”, “GenAI”. Rồi chia paper thành các giai đoạn thời gian, mỗi giai đoạn số lượng paper tương đương để phân tích trend cho công bằng.
Về phần trích xuất thông tin, họ dùng Gemini 2.5 Flash, có human-in-the-loop để đảm bảo chất lượng:
– Prompt riêng cho từng loại thông tin.
– Chain-of-Thought, bắt model giải thích tại sao nó chọn cái này cái kia, tránh bừa bãi.
– Cơ chế “abstention”, cho phép model nói “tui không chắc” thay vì bịa ra (hallucinate).
– Check tay 12 paper làm gold standard, kết quả gần như hoàn hảo.
– Entity resolution thì dùng text embedding, đặt ngưỡng cosine similarity ≥ 0.93 để gộp các tên gọi khác nhau nhưng ý nghĩa tương đương.
Họ còn dùng taxonomy induction, kiểu như tự động phân loại tag cho issue trên GitHub, và tính relevance score dựa trên độ “hot” của viện nghiên cứu, số lượng paper, citation. Nói chung, pipeline này mượt như CI/CD going green.
Team Bloomberg validate MetaGraph kỹ càng, so sánh kết quả LLM với gold standard, gần như hoàn hảo. Nhưng vẫn có hạn chế. Ontology định nghĩa thủ công có thể bias, LLM thì vẫn có nguy cơ hallucinate dù đã có abstention. Human-in-the-loop thì tăng accuracy nhưng cũng dễ bị subjective.
MetaGraph là công cụ mạnh, giúp dev và researcher nắm trend nhanh, đặc biệt trong lĩnh vực thay đổi chóng mặt như GenAI. Với practitioner, nó chỉ ra cách chọn model, thiết kế hệ thống, và xử lý hạn chế của LLM. RAG và open-source model đang là hot trend, đáng để cân nhắc.
Còn về AI governance, nghiên cứu này nhắc nhở rằng trong ngành tài chính, không chỉ cần model xịn mà còn phải hiểu rõ limit của nó.