Meta đã quyết định loại bỏ Llama đa phương thức 3.2, điều này làm cho nhiều người tỏ ra lo ngại và thắc mắc về lý do tại sao điều này lại làm nên một vấn đề lớn như vậy.
Meta vừa tung ra phiên bản mới của Họ Llama, với các mô hình ngôn ngữ lớn. Phiên bản Llama 3.2 đã được cập nhật với tính năng đa phương thức, cho phép hiểu hình ảnh ngoài văn bản. Được biết, Meta đã giới thiệu thêm hai mô hình ‘nhỏ’ mới trong gia đình này.
Llama không chỉ đơn giản là một công cụ mạnh mẽ từ Meta hoặc Google, mà nó còn là một mã nguồn mở với khả năng truy cập dễ dàng cho bất kỳ ai quan tâm. Bản cập nhật mới mang đến bốn kích thước mô hình khác nhau, từ mô hình tham số 1 tỷ thoải mái chạy trên máy tính xách tay M3 với 8GB RAM đến mô hình 3 tỷ hoạt động cũng tương đối tốt.
Nhưng bước đột phá thực sự đến từ các mô hình tham số 11b và 90b của Llama 3.2, là những mô hình đa phương thức đầu tiên thực sự được tối ưu hóa cho phần cứng và quyền riêng tư, hiệu quả hơn rất nhiều so với các mô hình trước đó. Điều này mở ra nhiều cơ hội mới cho việc áp dụng của Llama trong nhiều lĩnh vực khác nhau.
Tính khả dụng rộng rãi, khả năng tiên tiến và khả năng tùy biến của Llama là những yếu tố quan trọng giúp nó trở nên khác biệt. Nó có thể hỗ trợ chatbot AI của Meta trên nhiều nền tảng, từ Instagram, WhatsApp, Facebook cho đến kính thông minh Ray-Ban và tai nghe Quest. Đồng thời, nó cũng có thể tích hợp vào các dịch vụ đám mây công cộng để đáp ứng nhu cầu của người dùng.
Các trường hợp sử dụng của Llama 3.2 rất đa dạng, từ ứng dụng trong trò chơi đến thực tế ảo. Khả năng đa phương thức của nó giúp Llama “nhìn thấy” và “hiểu” các đầu vào trực quan, mở ra nhiều khả năng mới như NPC năng động trong trò chơi điện tử.
Việc meta tung ra phiên bản mới Họ Llama 3.2 được đánh giá là một bước tiến lớn trong lĩnh vực này. Điều quan trọng là Llama không chỉ là một công cụ mạnh mẽ, mà còn là một nguồn tài nguyên mở cho các nhà phát triển sáng tạo tạo ra các ứng dụng mới và tinh chỉnh theo nhu cầu cụ thể của họ.
Meta vừa mới tung ra phiên bản mới của nó Họ Llama của các mô hình ngôn ngữ lớn. Llama 3.2 được cập nhật giới thiệu tính đa phương thức, cho phép hiểu hình ảnh ngoài văn bản. Nó cũng đưa hai mô hình ‘nhỏ’ mới vào gia đình.
Llama có ý nghĩa quan trọng—không nhất thiết là vì nó mạnh hơn các mô hình từ MởAI hoặc Google, mặc dù điều này khiến họ phải chạy đua để kiếm tiền—nhưng vì nó là mã nguồn mở và hầu như bất kỳ ai cũng có thể truy cập dễ dàng.
Bản cập nhật giới thiệu bốn kích thước mô hình khác nhau. Mô hình tham số 1 tỷ chạy thoải mái trên Máy tính xách tay M3 với 8GB RAM, trong khi model 3 tỷ cũng hoạt động nhưng chỉ vừa đủ. Cả hai đều chỉ có văn bản nhưng có thể chạy trên nhiều thiết bị hơn và ngoại tuyến.
Tuy nhiên, bước đột phá thực sự là với các phiên bản tham số 11b và 90b của Lạc đà không bướu 3.2. Đây là những mẫu Llama đa phương thức thực sự đầu tiên, được tối ưu hóa cho phần cứng và quyền riêng tư và hiệu quả hơn nhiều so với những mẫu tiền nhiệm 3.1 của chúng. Mẫu 11b thậm chí có thể chạy trên một máy tính xách tay chơi game tốt.
Điều gì làm cho Llama trở nên quan trọng đến vậy?
Tính khả dụng rộng rãi, khả năng tiên tiến và khả năng thích ứng của Llama khiến nó trở nên khác biệt. Nó hỗ trợ chatbot AI của Meta trên Instagram, WhatsApp, Facebook, kính thông minh Ray-Ban và tai nghe Quest, nhưng cũng có thể truy cập trên các dịch vụ đám mây công cộng, do đó người dùng có thể tải xuống và chạy cục bộ hoặc thậm chí tích hợp vào các sản phẩm của bên thứ ba.
Groq, dịch vụ suy luận đám mây siêu nhanh, là một ví dụ về lý do tại sao việc có một mô hình nguồn mở là một lựa chọn mạnh mẽ. Tôi đã xây dựng một công cụ đơn giản để tóm tắt một bài báo nghiên cứu AI bằng Llama 3.1 70b chạy trên Groq – nó hoàn thành bản tóm tắt nhanh hơn cả tốc độ tôi có thể đọc tiêu đề.
Một số thư viện mã nguồn mở cho phép bạn tạo một Trò chuyệnGPT-giao diện giống như trên máy Mac của bạn được hỗ trợ bởi Llama 3.2 hoặc các mô hình khác, bao gồm khả năng phân tích hình ảnh nếu bạn có đủ RAM. Tuy nhiên, tôi đã tiến xa hơn một bước và xây dựng chatbot Python của riêng mình để truy vấn API Ollama, cho phép tôi chạy các mô hình này trực tiếp trong thiết bị đầu cuối.
Các trường hợp sử dụng Llama 3.2
Một trong những lý do quan trọng khiến Llama 3.2 trở thành một vấn đề lớn là tiềm năng của nó trong việc biến đổi cách AI tương tác với môi trường của nó, đặc biệt là trong các lĩnh vực như trò chơi và thực tế tăng cường. Khả năng đa phương thức có nghĩa là Llama 3.2 có thể “nhìn thấy” và “hiểu” các đầu vào trực quan cùng với văn bản, mở ra các khả năng như NPC năng động, được hỗ trợ bởi AI trong trò chơi điện tử.
Ngoài việc sử dụng các mô hình do Meta xây dựng, việc là mã nguồn mở có nghĩa là các công ty, tổ chức và thậm chí cả chính phủ có thể tạo ra các phiên bản tùy chỉnh và tinh chỉnh của riêng họ cho các mô hình. Điều này đã diễn ra ở Ấn Độ để cứu các ngôn ngữ gần như tuyệt chủng.
Hãy tưởng tượng một trò chơi mà NPC không chỉ tuân theo lời thoại được lập trình sẵn mà còn có thể nhận thức thế giới trò chơi theo thời gian thực, phản ứng thông minh với hành động của người chơi và môi trường. Ví dụ, một NPC bảo vệ có thể “nhìn thấy” người chơi cầm một vũ khí cụ thể và bình luận về nó, hoặc một người bạn đồng hành AI có thể phản ứng với sự thay đổi trong môi trường xung quanh của trò chơi, chẳng hạn như sự xuất hiện đột ngột của một mối đe dọa, theo cách tinh tế và mang tính đối thoại.
Ngoài chơi game, công nghệ này có thể được sử dụng trong các thiết bị thông minh như kính thông minh Ray-Ban và tai nghe Quest. Hãy tưởng tượng bạn hướng kính vào một tòa nhà và yêu cầu AI cung cấp lịch sử kiến trúc hoặc thông tin chi tiết về thực đơn của nhà hàng chỉ bằng cách nhìn vào nó.
Những trường hợp sử dụng này rất thú vị vì bản chất mã nguồn mở của Llama cho phép các nhà phát triển tùy chỉnh và mở rộng các mô hình này cho vô số ứng dụng sáng tạo, từ giáo dục đến chăm sóc sức khỏe, nơi AI có thể hỗ trợ người dùng khiếm thị bằng cách mô tả môi trường của họ.
Ngoài việc sử dụng các mô hình do Meta xây dựng, việc là mã nguồn mở có nghĩa là các công ty, tổ chức và thậm chí cả chính phủ có thể tạo ra các phiên bản tùy chỉnh và tinh chỉnh của riêng họ cho các mô hình. Điều này đã diễn ra ở Ấn Độ để cứu các ngôn ngữ gần như tuyệt chủng.
Phương thức | Điểm chuẩn | Lạc đà không bướu 3.2 11B | Lạc đà không bướu 3.2 90B | Claude 3 – Haiku | GPT-4o-mini |
---|---|---|---|---|---|
Hình ảnh | MMMU | 50,7 | 60,3 | 50,2 | 59,4 |
Hình ảnh | MMMU-Pro, Tiêu chuẩn | 33.0 | 45,2 | 27,3 | 42,3 |
Hình ảnh | MMMU-Pro, Tầm nhìn | 23,7 | 33,8 | 20,1 | 36,5 |
Hình ảnh | Toán học Vista | 51,5 | 57,3 | 46,4 | 56,7 |
Hình ảnh | Biểu đồQA | 83,4 | 85,5 | 81,7 | – |
Hình ảnh | Biểu đồ AI2 | 91,1 | 92,3 | 86,7 | – |
Hình ảnh | Tài liệu VQA | 88,4 | 90,1 | 88,8 | – |
Hình ảnh | VQAv2 | 75,2 | 78,1 | – | – |
Chữ | MMLU | 73.0 | 86.0 | 75,2 | 82.0 |
Chữ | TOÁN HỌC | 51,9 | 68.0 | 38,9 | 70,2 |
Chữ | GPQA | 32,8 | 46,7 | 33,3 | 40,2 |
Chữ | MGSM | 68,9 | 86,9 | 75,1 | 87.0 |
Llama 3.2 11b và 90b có khả năng cạnh tranh với các mô hình nhỏ hơn từ Anthropic, chẳng hạn như Claude 3 Haiku và OpenAI, bao gồm GPT-4o-mini, khi nhận dạng hình ảnh và các tác vụ trực quan tương tự. Phiên bản 3B có khả năng cạnh tranh với các mô hình có kích thước tương tự từ Microsoft và Google, bao gồm Gemini và Phi 3.5-mini trên 150 điểm chuẩn.
Mặc dù không phải là chuẩn mực trực tiếp, nhưng các bài kiểm tra của riêng tôi về việc sử dụng mô hình 1b để phân tích bài viết của tôi và đề xuất những cải tiến gần như ngang bằng với hiệu suất của các công cụ viết của Apple Intelligence, chỉ không có quyền truy cập vào menu ngữ cảnh tiện dụng.
Hai mô hình tầm nhìn, 11b và 90b, có thể thực hiện nhiều chức năng giống như tôi đã thấy từ ChatGPT và Gemini. Ví dụ, bạn có thể cung cấp cho nó một bức ảnh về khu vườn của bạn và nó có thể đưa ra các cải tiến được đề xuất hoặc thậm chí là lịch trình trồng trọt.
Như tôi đã nói trước đây, hiệu suất tuy tốt nhưng không phải là điểm bán hàng quan trọng nhất của Llama 3.2; mà nằm ở tính dễ tiếp cận và khả năng tùy chỉnh cho nhiều trường hợp sử dụng.
Thêm từ Tom’s Guide
Viễn Đông Mobile là cửa hàng chuyên kinh doanh các sản phẩm điện tử phục vụ nhu cầu chơi game, bao gồm:
- Gaming phone: Điện thoại cấu hình mạnh, tối ưu cho việc chơi game.
- Máy tính bảng chuyên gaming: Màn hình lớn, hiệu năng cao, trải nghiệm game tốt hơn.
- Phụ kiện cao cấp: Tai nghe, bàn phím, chuột,… hỗ trợ game thủ.
Thông tin liên hệ:
- Địa chỉ: 211 đường 3/2, phường 10, quận 10, TP.HCM
- Điện thoại: 0777600020
- Email: [email protected]

Bản đồ chỉ đường