Yan 的杂物志_个人主页分享

Created2024-06-30|2_Note0_Technic2_算法17_知识表示

12345678英文名：Que2Engage: Embedding-based Retrieval for Relevant and Engaging Products at Facebook Marketplace中文名：Que2Engage：基于嵌入的检索功能，在 Facebook Marketplace 上搜索相关且引人入胜的产品地址：https://arxiv.org/abs/2302.11052v1时间：21 Feb 2023（v1）作者：He Yunzhong and Tian Yuxin and Wang Mengjiao and Chen Feier and Yu Licheng and Tang Maolong and Chen Congcong and Zhang Ning and Kuang Bin and Prakash Arul机构：Meta，加州大学默塞德分校出处：会议：2023 年 ACM 网络会议的配套论文集正文：4 页 1 读后感论文优化了 Facebook Marketplace 中的搜索功能。Facebook Marketplace 是一个电子商 ...

论文阅读_基于嵌入的Facebook搜索

Created2024-06-29|2_Note0_Technic2_算法17_知识表示

12345678英文名称：Embedding-based Retrieval in Facebook Search中文名称：基于嵌入式检索的Facebook搜索时间： Wed, 29 Jul 2020 (v2)地址：https://arxiv.org/abs/2006.11632作者：Jui-Ting Huang, Ashish Sharma, Shuying Sun, Li Xia, David Zhang, Philip Pronin, Janani Padmanabhan, Giuseppe Ottaviano, Linjun Yang机构：Facebook & Microsoft出处：会议论文，第26届 ACM SIGKDD 知识发现和数据挖掘会议论文集正文：8 页读后感 Facebook 社交中的搜索与其它搜索不同，它可以基于上下文得到更多信息。这里研究的是如何将传统搜索与基于向量的搜索结合在一起的具体方法。比较有启发的是提出的“统一嵌入模型”，在编码时加入了用户、上下文、位置等文本以外的信息，以便更好地定位和匹配。另外，还考虑到每月活跃用户、最近发生的事件、热 ...

论文阅读_EMO_在弱条件下使用音频生成富有表现力的视频

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

12345678英文名称: EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions中文名称: EMO：表情画像活跃 - 在弱条件下使用音频到视频扩散模型生成富有表现力的画像视频链接: https://arxiv.org/abs/2402.17485代码: https://github.com/HumanAIGC/EMO（不是源码，只有介绍）作者: Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo机构: 阿里巴巴集团智能计算研究所日期: 2024-02-27引用次数: 18 读后感论文实现了使用扩散模型生成视频。输入是一张人像和音频文件，输出是音频对应的此人的说话视频。该功能已集成到通义千问中，输入“全民唱演/舞王”即可试用。除了真人动画，还能生成动画人物的视频。相较于之前的方法，它不仅能控制嘴部动作，还能控制头部和表情的微妙变化。其架构也相对简单，它再 ...

论文阅读_VLOGGER_图片+声音->生成视频

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER：多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示：https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13 读后感这是 Google Research 3 月份的一篇论文，主题是条件化视频生成。文中提出了 VLOGGER 模型，一种从图像和音频生成可变长度视频的方法，支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER 基于生成扩散模型，不需要对每个人单独进行培训，也不依赖面部检测和裁剪，能够生成完整的图像（不仅仅是面部或嘴唇），并考虑了广泛的场景（例如可见的躯干 ...

论文阅读_视频编辑中基于音频的唇部同步技术

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处：SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27 |200 读后感论文题目中的 in the wild 指的是非实验室的场景，应用在更为广泛的现实领域。这两年出了更好的模型，但都没有开源，只能试用或者看看展示视频。这个模型好在可以直接下载使用。 1234p ...

论文阅读_嵌入_中文嵌入资源

Created2024-06-28|2_Note0_Technic2_算法17_知识表示

1234567中文名：C-Pack：推进一般中文嵌入的打包资源英文名：C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本：v4：12 May 2024资源下载：https://github.com/FlagOpen/FlagEmbedding，5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处：北京人工智能研究院，抱抱脸，中国人民大学，中国科技大学，蒙特利尔大学，智源正文：7 页读后感这篇论文的核心是：通用的中文文本嵌入。读完之后，会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了，行动导向。文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection 的默认嵌入模型。我使用过，效果不错，速度也很。摘要目标: 介绍了 C-Pack，这是一个显著推进通用中文嵌入领域的资源包。方法: C-P ...

论文阅读_基本于文本嵌入的信息提取

Created2024-06-28|2_Note0_Technic2_算法17_知识表示

1234567英文名：Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名：基于嵌入的检索，LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间：2023-08-06 (v1)作者：Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构：谢菲尔德大学正文：4 页半 1 读后感本文讨论了在将文本文件结构化过程中遇到的一类问题：如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用，包含了大量具体的实验和设计过程，而不是纸上谈兵。文章内容巧妙结合了一些知识，同时保持了通用性。作者对相对通用的技术进行了限制优化，并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务，现在全部由 LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤，然后调用 LLM 将结构化文本转换为结构 ...

论文阅读_优化RAG系统的检索

Created2024-06-27|2_Note0_Technic2_算法17_知识表示

123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量：重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024（v4） 1 读后感在 RAG 系统中，检索和生成是独立进行的，使用的模型也不相同，检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分，不一定必须使用稠密模型，因此作者考虑了密集和稀疏的情况；在生成部分，实验使用的是本地部署的较轻量级模型如 llama2 等，这也部分影响了效果。作者的角度很有趣：查询所给出的答案可能是准确的、无关的或相关但 ...

使用OpenAI嵌入进行向量搜索：只需Lucene

Created2024-06-26|2_Note0_Technic2_算法17_知识表示

123456英文名称: Vector Search with OpenAI Embeddings: Lucene Is All You Need中文名称: 使用OpenAI嵌入进行向量搜索：只需Lucene链接: http://arxiv.org/abs/2308.14963v1作者: Jimmy Lin, Ronak Pradeep, Tommaso Teofili, Jasper Xian机构: 滑铁卢大学戴维·切里顿计算机科学学院, 罗马第三大学工程系日期: 2023-08-29 读后感嵌入领域新旧技术的最大不同点在于存储的是稠密向量（深度学习）还是稀疏向量（统计），对于稠密和稀疏的搜索和索引技术完全不同，所以继深度学习模型成为热点后，向量数据库也成为热点。作者认为，针对 Lucene 框架做少量调整，使其支持稠密向量，并不失为一种简单经济的解决方案。作者挑战了主流观点，通过实验证明，对于很多应用，使用 Lucene+HNSW 可以在不大改动 Lucene 的情况下，完美支持当前基于大模型的文本编码，无需附加的向量数据库。与当前主流方法相比，这种方法成本和复杂度更低。简单来说 ...

语言模型：文本表征&词嵌入技术调研

Created2024-06-23|2_Note0_Technic2_算法17_知识表示

1 文本表征文本表征是自然语言处理中的关键部分，尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题，结合外部数据显得尤为重要。为了便于存储和检索，除了保存纯文本外，还需要将文本转换为数组形式，以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。我最近在优化本地知识存储，调研了一些文本表征方法，包括：文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合，以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分，将在之后的 8 天内在公众号连载。本文作为开篇，先给出收获和总结。(下文中 Embedding 与嵌入同义) 关键字：embedding-based retrieval，RAG，Information Retrieval 2 问题与解答在调研之前，我一直有以下一些疑问。在研读过程中，我得到了答案和启发。以下是我目前的个人理解，可能并不完全正确。 2.1 问题一本地知识库是否必须使用深度学习表示？目前，知识表示的主要方法包括：基于规则的方法、统 ...