8月 AGI技术月报 上篇

2024年9月13日修改
LLM做Sentence Embedding的通用方案
文章探讨了利用大型语言模型(LLM)进行句子嵌入的通用方案,强调了现有检索模型在主题检索通用性方面的不足。作者提出了直接使用 LLM 生成句子嵌入的方法,通过在输入前添加提示(Prompt),并以最后一个词的最后一层输出为嵌入表示。文章引用了两篇论文,分别提出了伪装的思维链(Pretended CoT)和知识增强(Knowledge Enhancement)技术,以及使用元任务(meta-tasks)引导模型生成多维表示。实验结果显示,该方法在多数数据集上与无监督微调的自编码模型相当,且具有更高的通用性。模型大小对结果的影响随着模型规模从 350m 增加到 1.3b 而显著,但在 13b 以上时,性能提升减缓。在主题分类实战中,作者使用了科大讯飞的长文本分类数据集,尝试了不同的 Prompt 设计,但效果有限。在句对匹配任务中,LLM 的初始准确率为 0.74,表现不俗,但仍有改进空间。文章还提供了代码实现,展示了如何使用 LLM 生成句子嵌入。
50%
附件不支持打印
飞书文档 - 图片
50%