DeepSeek R1 70B modeli, güçlü bir yapay zeka dil modeli olarak değerlendirilmektedir. Bu modelin bazı özellikleri: - Bağlam uzunluğu: 64.000 token. - Performans: MMLU benchmarkında %90,8 puan almıştır. - Çoklu görev yeteneği: Metin, yapılandırılmış veri ve karmaşık multimodal girişleri işleyebilir. - Eğitim verimliliği: 14,8 trilyon token üzerinde eğitilmiştir ve eğitim maliyeti sadece 2,788 milyon H800 GPU saatidir.