Nhóm 8 học sinh Trường THPT chuyên Khoa học Tự nhiên (ĐH Khoa học Tự nhiên, ĐH Quốc gia Hà Nội) đã phát triển METRIXA, hệ thống AI đầu tiên ở Việt Nam có thể tự động thu thập, phân tích và trực quan hóa dữ liệu hàng chục nghìn bài báo khoa học, tạo nên bản đồ nghiên cứu 3D giúp đánh giá năng lực khoa học của các tổ chức một cách minh bạch và chính xác hơn.
8 học sinh gồm: Đoàn Gia Huy (12A1 CLC), Trần Bảo Khánh (12A3 Tin), Vũ Minh Duy (11A2 Tin), Nguyễn Minh Đức (11A3 Toán), Nguyễn Đình Bách (11A1 Tin), Đinh Nguyên Khôi (11A2 Tin), Nguyễn Hữu Tuấn (12A3 Tin), Lê Phạm Duy Khoa (12A1 Tin - Leader).
Bản đồ 3D “mở khóa” bức tranh toàn cảnh khoa học Việt Nam
Trò chuyện với Tri thức và Cuộc sống, em Trần Bảo Khánh cho biết, qua tìm hiểu, các em biết được, hầu hết các bảng xếp hạng trong nước hiện nay đều cập nhật thủ công, thiếu nhất quán và chưa phản ánh sức mạnh nghiên cứu chuyên sâu của từng đơn vị.
Với mong muốn hiện đại hóa hoạt động đánh giá khoa học, phù hợp định hướng của Đảng, Nhà nước và Bộ Công an về việc ứng dụng dữ liệu và trí tuệ nhân tạo vào quản lý nhà nước, an ninh số và phát triển khoa học – công nghệ, METRIXA sử dụng AI để tự động hóa toàn bộ quá trình này. Từ đó, giúp đánh giá dựa trên dữ liệu khách quan thay vì phương pháp truyền thống.
Hệ thống có khả năng thu thập, phân tích và trực quan hóa dữ liệu bài báo khoa học của Việt Nam, từ đó tạo ra bảng xếp hạng nghiên cứu chuyên sâu cho các trường đại học và viện nghiên cứu. Điểm nổi bật của METRIXA là hệ thống đi sâu vào nội dung nghiên cứu thay vì chỉ xét đến cơ sở vật chất hoặc các tiêu chí đào tạo như các bảng xếp hạng thông thường.
Hệ thống gồm hai thành phần chính. Trong đó, với Biểu đồ 3D trực quan hóa dữ liệu nghiên cứu, METRIXA phân tích trực tiếp các bài báo, xác định lĩnh vực nghiên cứu và thể hiện chúng qua một biểu đồ 3D trực quan.
Mỗi điểm trên biểu đồ là một bài báo, màu sắc tương ứng với từng ngành, khoảng cách phản ánh mức độ liên quan giữa các lĩnh vực. Biểu đồ này cho phép người dùng nhận thấy ngay những cụm ngành có sự tương tác mạnh, ví dụ như khoa học máy tính luôn gần toán học vì tính chất nền tảng của toán trong thuật toán và mô hình tính toán.
Ở phần Bảng xếp hạng tổ chức nghiên cứu tự động, AI phân tích đóng góp của từng trường, từng viện thông qua số lượng và chất lượng bài báo được công bố quốc tế. Dữ liệu được cập nhật và chuẩn hóa tự động từ các kho học thuật lớn như Semantic Scholar và S2ORC, hai nguồn được giới nghiên cứu quốc tế đánh giá cao về độ tin cậy.
METRIXA hướng tới ba nhóm đối tượng. Đối với nhà nước, hệ thống cung cấp dữ liệu để theo dõi tiến độ nghiên cứu khoa học một cách nhất quán và có cơ sở. Đối với nhà nghiên cứu, nền tảng cho phép tìm cộng sự, phát hiện các nhóm nghiên cứu liên ngành và nhận diện xu hướng khoa học mới. Với học sinh, sinh viên, biểu đồ 3D giúp họ quan sát sự phân bổ của các lĩnh vực tại Việt Nam, từ đó định hướng ngành nghề phù hợp hơn.
“Điểm khiến METRIXA nổi bật là hệ thống bảng xếp hạng đi rất sâu vào từng lĩnh vực và chuyên ngành nghiên cứu. Cùng với đó là biểu đồ trực quan giúp theo dõi sự phân bố của các bài báo theo lĩnh vực, tạo ra một bức tranh khoa học mà ai cũng có thể nhìn thấy và hiểu ngay”, Trần Bảo Khánh cho hay.
Lập trình từ con số 0 đến ứng dụng AI nâng cao
Khánh cho biết, để xây dựng METRIXA, nhóm Starfox phải tự học và kết hợp nhiều mô hình AI tiên tiến. Việc đảm bảo dữ liệu đầu vào chính xác và minh bạch là yêu cầu bắt buộc của cuộc thi Data for Life. Nhóm sử dụng hai nguồn dữ liệu uy tín toàn cầu gồm Semantic Scholar và S2ORC, vốn được cộng đồng khoa học đánh giá cao về tính minh bạch.
Phần khó nhất là thiết kế hệ thống tự động thu thập, phân tích, trực quan hóa dữ liệu sao cho ổn định và chính xác. Trong đó, một thách thức lớn là việc tách riêng bài báo của Việt Nam khỏi dữ liệu quốc tế. Tên tác giả thường được viết bằng tiếng Anh và không dấu, khiến việc phân biệt tác giả Việt Nam với tác giả từ các quốc gia châu Á khác trở nên cực kỳ phức tạp.
“Ban đầu chúng em gần như không hiểu rõ thế nào là dữ liệu minh bạch. Chúng em phải tham khảo cách các mô hình ngôn ngữ lớn xác minh thông tin rồi mới xây dựng quy trình riêng của mình. Đây là phần tốn nhiều thời gian và công sức nhất”, nhóm chia sẻ.
Trong module phân tích, nhóm sử dụng mô hình ngôn ngữ lớn (LLM) có khả năng tìm kiếm website, xác minh thông tin bài báo và tự động điền các thông tin còn thiếu. Một lớp AI khác được sử dụng để đọc, phân tích nội dung khoa học và trích xuất đặc trưng của bài báo dưới dạng vector 768 chiều.
Để chuyển những vector nhiều chiều này thành hình ảnh trực quan, nhóm áp dụng thuật toán t-SNE (T-distributed Stochastic Neighbor Embedding), một kỹ thuật giảm chiều dữ liệu trong khoa học máy tính. Thuật toán giúp đưa dữ liệu từ 768 chiều về 3 chiều mà vẫn giữ được “cấu trúc lân cận, tức các bài báo liên quan sẽ nằm gần nhau.
“t-SNE cho phép dựng biểu đồ 3D chính xác và dễ hiểu. Người xem có thể xoay, chạm, nhìn thấy cả hệ sinh thái nghiên cứu”, Khánh giải thích.
Dưới sự hỗ trợ, hướng dẫn của các thầy cô, nhóm chia nhỏ nhiệm vụ: người chịu trách nhiệm giao diện 3D, người xử lý dữ liệu lớn, người xây dựng pipeline AI, người làm bảng xếp hạng… Mỗi học sinh vừa lập trình, vừa tự nghiên cứu tài liệu khoa học quốc tế.
“Vì là học sinh THPT, chúng em phải tự học từ các khoá AI cơ bản đến nâng cao. Mất nhiều tuần để hiểu cách trích xuất vector và cách thuật toán giảm chiều hoạt động”, Khánh kể.
Tại vòng Triển lãm và Chung kết toàn quốc cuộc thi Data for Life 2025, sân chơi khoa học công nghệ do Bộ Công an chủ trì tổ chức, METRIXA đã lọt vào Top 30 toàn quốc trong hơn 2.600 sản phẩm dự thi. Nếu tiếp tục phát triển, METRIXA dự định sẽ bổ sung ba tính năng quan trọng:
Công thức Tính toán: Hiện tại, công thức tính toán của METRIXA còn đơn giản và có thể tồn tại nhiều sai sót, đặc biệt là chưa chú trọng đến độ quan trọng của các bài báo được công bố trong các hội nghị lớn. Việc cải thiện công thức sẽ giúp bảng xếp hạng trở nên chính xác và toàn diện hơn.
So sánh Nghiên cứu Việt Nam và Thế giới: Nhóm đặt mục tiêu đưa ra giải pháp so sánh nghiên cứu giữa Việt Nam và thế giới, sử dụng chính biểu đồ 3D hiện có. Với mỗi chuyên ngành, hệ thống sẽ cố gắng lấy ra những bài báo nổi tiếng nhất của thế giới để xem họ đang tập trung vào những lĩnh vực nào, sau đó đưa lên biểu đồ để nhà nước, nhà nghiên cứu, hoặc người dân xem được độ lệch giữa các chủ đề nghiên cứu của Việt Nam và thế giới.
Tối thiểu hóa Chi phí hoạt động: Với số lượng bài báo rất lớn, việc phân tích toàn bộ dữ liệu hiện tại bằng các mô hình ngôn ngữ lớn tối ưu vẫn đòi hỏi một nguồn tài chính nhất định và tiêu tốn nhiều thời gian. Khi mở rộng dữ liệu lớn hơn nữa, nhóm cần tính đến các phương pháp để giảm thiểu chi phí đi tối đa nhằm đảm bảo tính bền vững lâu dài của sản phẩm.