第3章：模型选择入门——从小模型到合适模型

发布时间：2026/6/21 5:16:40

1. 项目背景业务场景一家AI初创公司的小团队接到一个需求：为合作的律师事务所开发一套合同条款摘要工具。律师上传一份PDF合同，工具自动提取关键条款（违约金、保密期限、管辖法院）并用自然语言总结。团队前两周进展顺利——Ollama装好了，Python脚本也写好了。但PM提出一个灵魂拷问：“我们到底该用哪个模型？”团队内部开始争论：后端小李说："当然用最大的模型，70B的，回答最准。"但70B需要48GB+显存，公司只有一台RTX 3060（12GB显存）。算法小王说："那用7B的就行，反正中文合同也不复杂。"但测试后发现7B模型抽取管辖法院时准确率只有60%。前端小周补充：“而且用户对延迟很敏感，超过5秒没人愿意用。”痛点参数规模 vs 硬件约束：更大的模型意味着更好的效果，但也需要更多的硬件资源。没有量化工具帮助做决策，选大了跑不动，选小了不好用。量化级别的认知盲区：团队对q4、q8、fp16的理解停留在"数字越小体积越小"，但不知道精度损失对具体任务的影响。缺乏选型方法论：面对上百个可选模型，如何缩小到3-5个候选？如何设计评测方案？这些问题没有标准答案。选型后不可逆成本：一旦模型不合适，重新下载、重新测试、重新评估的时间成本巨大。

相关新闻