• 常见金融术语

    https://m.cfa.cn/cfa/2413.html
  • DSSM双塔特征交互

    传统的DSSM双塔无法在早期进行user和item侧的特征交互,这在一定程度上降低了模型性能。我们想要对双塔模型进行细粒度的特征交互,同时又不失双塔模型离线建向量索引的解耦性。下面介绍两篇这方面的工作。

  • Learn To Rank

    在信息检索中,给定一个query,搜索引擎召回一系列相关的Documents,然后对这些Documents进行排序,最后将Top N的Documents输出。

  • 两种神经网络参数初始化方法

    重点介绍一下Xavier和Kaiming初始化:

  • LLM Inference Performance Engineering

    https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
  • LLaMA2详解

    LLaMA2的模型结构拆解:

  • GPU利用率

    英伟达官方的GPU利用率的定义如下:

  • Attention Sink

    论文发现自回归LLM存在的一个有趣现象:对于输入文本最靠前的少量几个token,无论它们在语义上与语言建模任务的相关性如何,大量的注意力分数都会分配给他们,如下图所示:

  • RAG

    现有的LLM已经具备了理解、生成、逻辑和记忆能力,RAG(Retrieval Augmented Generation)则是为其套上外挂,使LLM能够访问训练数据来源之外的权威知识库,并生成领域特定的内容,而无须重新训练模型。

  • 从loss角度理解LLM涌现能力

    如今的很多研究都表明小模型也能出现涌现能力,本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关,只与预训练loss相关。

    作者团队惊奇地发现,不管任何下游任务,不管模型大小,模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。

/20