第3章:模型选择入门——从小模型到合适模型

发布时间:2026/6/21 5:16:40
第3章:模型选择入门——从小模型到合适模型 1. 项目背景业务场景一家AI初创公司的小团队接到一个需求:为合作的律师事务所开发一套合同条款摘要工具。律师上传一份PDF合同,工具自动提取关键条款(违约金、保密期限、管辖法院)并用自然语言总结。团队前两周进展顺利——Ollama装好了,Python脚本也写好了。但PM提出一个灵魂拷问:“我们到底该用哪个模型?”团队内部开始争论:后端小李说:"当然用最大的模型,70B的,回答最准。"但70B需要48GB+显存,公司只有一台RTX 3060(12GB显存)。算法小王说:"那用7B的就行,反正中文合同也不复杂。"但测试后发现7B模型抽取管辖法院时准确率只有60%。前端小周补充:“而且用户对延迟很敏感,超过5秒没人愿意用。”痛点参数规模 vs 硬件约束:更大的模型意味着更好的效果,但也需要更多的硬件资源。没有量化工具帮助做决策,选大了跑不动,选小了不好用。量化级别的认知盲区:团队对q4、q8、fp16的理解停留在"数字越小体积越小",但不知道精度损失对具体任务的影响。缺乏选型方法论:面对上百个可选模型,如何缩小到3-5个候选?如何设计评测方案?这些问题没有标准答案。选型后不可逆成本:一旦模型不合适,重新下载、重新测试、重新评估的时间成本巨大。