发现 Mellum-4b-base,JetBrains 的开源 LLM,用于 Python、Java 等语言的代码补全。具有 40 亿参数、8K 上下文窗口、本地部署和微调功能。
Mellum-4b-base 概述
Mellum-4b-base 是 JetBrains 的首个开源大型语言模型,专门为代码相关任务设计。这个拥有 40 亿参数的模型基于 LLaMA 风格的架构,擅长在多种编程语言中进行代码补全。通过包括 The Stack、StarCoder 和 CommitPack 在内的综合数据集上训练超过 4.2 万亿个令牌,Mellum 在 8,192 个令牌的上下文窗口中提供智能代码建议。该模型针对通过 vLLM 的云端推理和使用 llama.cpp 或 Ollama 的本地部署进行了优化,使其适用于各种开发环境。
Mellum 主要设计用于集成到专业开发者工具和 AI 驱动的编码助手中,服务于寻求通过智能代码生成提高生产力的开发者。该模型支持教育应用和微调实验,Python SFT 模型已可用,其他语言模型即将推出。作为一个开源解决方案,Mellum 为代码理解和生成的研究提供了基础,同时通过使用 bf16 精度的自动混合精度训练保持效率。在我们的 IDE 和 开发工具 部分探索更多。
如何使用 Mellum-4b-base
开始使用 Mellum-4b-base 涉及从 Hugging Face 下载模型并将其集成到您偏好的开发环境中。对于云端部署,配置 vLLM 以进行优化推理,而本地设置可以使用 llama.cpp 或 Ollama 进行高效处理。该模型接受标准语言建模输入,并支持通用代码生成和中间填充任务,附带额外文件作为上下文。开发者可以使用监督微调或强化学习技术对基础模型进行微调,以适应特定的编程语言或编码风格。
Mellum-4b-base 的核心特性
- 多语言代码补全 - 支持 Python、Java 和其他编程语言,提供智能建议
- 大上下文窗口 - 处理多达 8,192 个令牌,实现全面的代码理解
- 灵活的部署选项 - 兼容云端推理和本地部署框架
- 微调能力 - 支持监督微调和强化学习适应
- 优化性能 - 使用 bf16 精度的自动混合精度训练
Mellum-4b-base 的使用场景
- 在集成开发环境中提供智能代码建议和自动补全
- AI 驱动的编码助手,提升开发者生产力和工作流
- 教育应用,用于教授编程概念和代码生成
- 代码理解、生成和语言模型适应的研究实验
- 针对特定编程领域和编码风格的微调项目
- 需要离线代码补全能力的本地部署场景
- 与其他代码生成模型(如 CodeLlama)的性能基准测试
支持与联系
对于技术问题、合作机会和模型请求,请通过 mellum@jetbrains.com 联系开发团队。通过官方 Hugging Face 仓库和 JetBrains 开发者门户可获得额外资源和文档。
公司信息
Mellum-4b-base 由 JetBrains 开发,这是一家领先的软件开发公司,以创建智能开发工具而闻名。公司总部位于捷克共和国,并通过其流行的 IDE 和开发者解决方案建立了全球影响力。
登录与注册
直接通过 Hugging Face 仓库 访问 Mellum-4b-base,模型可供下载和集成。基本模型使用无需额外注册,但某些平台功能可能需要创建 Hugging Face 账户。
Mellum-4b-base FAQ
Mellum-4b-base 支持哪些编程语言的代码补全?
Mellum-4b-base 支持多种编程语言,包括 Python 和 Java,未来版本计划支持更多语言的模型。
Mellum-4b-base 与其他代码生成模型(如 CodeLlama)相比如何?
Mellum-4b-base 提供专门的代码补全功能,拥有 40 亿参数,并为云和本地部署场景优化了性能。
Mellum-4b-base 能否针对特定的编码任务或语言进行微调?
是的,Mellum-4b-base 完全支持监督式微调和强化学习,以适应特定的应用和编程领域。
Mellum-4b-base 评论0 review
Would you recommend Mellum-4b-base? Leave a comment
