InsightPilot là gì?

Các nhà nghiên cứu của Microsoft giới thiệu InsightPilot: Hệ thống khám phá dữ liệu tự động được hỗ trợ bởi LLM.

Khám phá dữ liệu là một bước quan trọng trong phân tích dữ liệu, giúp rút ra những hiểu biết chính bằng cách sử dụng nhiều bước như lọc, sắp xếp, nhóm, v.v. Nó giúp khám phá các mẫu trong tập dữ liệu và tiết lộ mối quan hệ tiềm năng giữa các biến. Tuy nhiên, quá trình này thường mang tính tương tác và yêu cầu người dùng khám phá dữ liệu theo cách thủ công, khiến quá trình này tốn thời gian và đòi hỏi phải có kiến ​​thức chuyên môn về miền. 

InsightPilot là gì?

Mặc dù có nhiều công cụ khác nhau để khám phá dữ liệu chung nhưng chúng thường không xem xét được mục đích của người dùng và đặc điểm của tập dữ liệu, dẫn đến những hiểu biết không liên quan. Ngoài ra, ảo giác LLM là một vấn đề khét tiếng khiến LLM tạo ra nội dung không đáng tin cậy. Để giải quyết những thiếu sót của các mô hình hiện có, các nhà nghiên cứu tại Microsoft đã phát hành InsightPilot, một hệ thống tự động hóa quá trình khám phá dữ liệu bằng LLM. Hệ thống cung cấp cho LLM thông tin chi tiết chính xác để tránh ảo giác và trình bày bản tóm tắt nhỏ gọn của tập dữ liệu để giảm chi phí tính toán, cho phép LLM trả lời câu hỏi của người dùng tốt hơn.

InsightPilot: Hệ thống khám phá dữ liệu tự động được hỗ trợ bởi LLM

InsightsPilot bao gồm ba thành phần sau:

  1. Giao diện người dùng cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và cũng hiển thị kết quả phân tích.
  2. LLM tạo điều kiện thuận lợi cho việc khám phá dữ liệu bằng cách chọn phân tích phù hợp trên cơ sở ngữ cảnh.
  3. Một công cụ hiểu biết chuyên sâu thực hiện phân tích và trình bày kết quả bằng ngôn ngữ tự nhiên.
InsightPilot: Hệ thống khám phá dữ liệu tự động được hỗ trợ bởi LLM

Ban đầu, người dùng đặt một truy vấn trong giao diện và công cụ hiểu biết sâu sắc sẽ tạo ra những hiểu biết sơ bộ. Tùy thuộc vào ngữ cảnh, LLM xác định những thông tin chi tiết phù hợp nhất và tiếp tục truy vấn công cụ để biết thêm thông tin chi tiết về chúng. Ví dụ: người dùng có thể hỏi về xu hướng điểm khoa học của sinh viên và sau đó, dựa trên những hiểu biết ban đầu, LLM có thể truy vấn công cụ để phân tích thêm, chẳng hạn như so sánh điểm số hoặc tìm bất kỳ điểm ngoại lệ nào. Miễn là việc khám phá chưa hoàn tất, thì sự tương tác giữa LLM và công cụ vẫn tiếp tục và khi kết thúc bước khám phá dữ liệu, công cụ sẽ trình bày những hiểu biết sâu sắc nhất về K dưới dạng một báo cáo mạch lạc, sau đó được hiển thị cho người dùng thông qua giao diện.

Để đánh giá hiệu suất của nó, các nhà nghiên cứu đã tiến hành nghiên cứu người dùng để mô phỏng các trường hợp sử dụng InsightPilot trong thế giới thực. Bốn người tham gia khoa học dữ liệu được yêu cầu đưa ra ba câu hỏi và hệ thống được đánh giá dựa trên các số liệu như mức độ liên quan, tính đầy đủ và tính dễ hiểu. Kết quả cho thấy InsightPilot luôn vượt trội so với cả Trình thông dịch mã OpenAI và Tác nhân Langchain Pandas. 

Một nghiên cứu điển hình dựa trên tập dữ liệu về doanh số bán ô tô cũng đã được tiến hành để đánh giá hiệu suất của InsightPilot. Khi tìm hiểu về xu hướng chung về doanh số bán ô tô của Toyota, hệ thống không chỉ xác định ‘Camry’ là động lực chính thúc đẩy doanh số bán hàng của Toyota mà còn so sánh doanh số bán hàng của Toyota với doanh số bán hàng của Honda và cũng cung cấp những hiểu biết thú vị khác.

Mặc dù InsightPilot hoạt động tốt hơn các hệ thống tiên tiến khác nhưng nó thường đưa ra những câu trả lời mơ hồ cần phải đánh giá thủ công. Do đó, điều quan trọng là phải kiểm tra tính hiệu quả của nó trên các bộ dữ liệu thực tế khác nhau. Tuy nhiên, đây là một phương pháp hiệu quả để rút ra những hiểu biết sâu sắc từ tập dữ liệu bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên và có khả năng hợp lý hóa quy trình phân tích dữ liệu thăm dò, đồng thời tiết kiệm thời gian và công sức. Cần nghiên cứu sâu hơn để đảm bảo phương pháp này có thể được triển khai trong các tình huống thực tế và nâng cao hiệu quả cũng như việc ra quyết định dựa trên dữ liệu.

Leave a Reply

Your email address will not be published. Required fields are marked *