Sunday, March 9, 2025

DeepSeek-VL2 - Vision-Language Models for Advanced Multimodal Understanding

 Introducing DeepSeek-VL2, an advanced series of large Mixture-of-Experts (MoE) Vision-Language Models that significantly improves upon its predecessor, DeepSeek-VL. DeepSeek-VL2 demonstrates superior capabilities across various tasks, including but not limited to visual question answering, optical character recognition, document/table/chart understanding, and visual grounding. Our model series is composed of three variants: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small and DeepSeek-VL2, with 1.0B, 2.8B and 4.5B activated parameters respectively. DeepSeek-VL2 achieves competitive or state-of-the-art performance with similar or fewer activated parameters compared to existing open-source dense and MoE-based models.



DeepSeek-VL2 bao gồm một loạt các Mô hình Ngôn ngữ-Thị giác Hỗn hợp Chuyên gia (MoE) lớn tiên tiến cải thiện đáng kể so với phiên bản trước đó, DeepSeek-VL. DeepSeek-VL2 chứng minh khả năng vượt trội trong nhiều tác vụ khác nhau, bao gồm nhưng không giới hạn về việc trả lời câu hỏi trực quan, nhận dạng ký tự quang học, hiểu tài liệu/bảng/biểu đồ và nền tảng trực quan. Loạt mô hình của chúng tôi bao gồm ba biến thể: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small và DeepSeek-VL2, với các tham số kích hoạt lần lượt là 1.0B, 2.8B và 4.5B. DeepSeek-VL2 đạt được hiệu suất cạnh tranh hoặc tiên tiến với các tham số kích hoạt tương tự hoặc ít hơn so với các mô hình dày đặc nguồn mở và dựa trên MoE hiện có.


https://github.com/deepseek-ai/DeepSeek-VL2



Generative AI, Robot Operating System (ROS 2), Computer Vision, Natural Language Processing service, Generative AI Chatbot, Machine Learning, Mobile App, Web App? Yes, I do provide!


Call me: +84854147015

WhatsApp: +601151992689

https://amatasiam.web.app

Email: ThomasTrungVo@Gmail.Com

Facebook: 
https://www.facebook.com/voduytrung

X: 
https://x.com/ThomasTrung






No comments:

Post a Comment