Yan 的杂物志_个人主页分享

Created2023-03-17|2_Note0_Technic2_算法6_自然语言其它LLM

name_ch: PaLM：使用 Pathways 的扩展语言建模 name_en: PaLM：Scaling Language Modeling with Pathways paper_addr: http://arxiv.org/abs/2204.02311 date_publish: 2022-10-05 读后感论文主要介绍了 Google 的超大模型 PaLM，它在多数任务上都超过了 SOTA，其主因是使用模型使用了大量参数和数据训练，作者认为当模型大到一定程度后，其性能也能飞跃，而 PathWay 技术是其大规模训练的基础。和其它模型相比，PaLM 更关注逻辑推理相关的任务，这也为后面的 PaLM-E 机器人行为规划奠定了基础。动态路由层选择具体的路怎么走。摘要文中提出了 Pathways Language Model (PaLM)，使用 6144 个 TPU v4 芯片训练，模型 540 B 参数，780 B 高质量 token，密集激活，Transformer 语言模型。在推理任务上表现很好，文中提出：扩展到巨大模型后，性能急剧提高（Pathways 是 Jef ...

论文阅读_Self_instruct

Created2023-03-16|2_Note0_Technic2_算法6_自然语言

12345name_ch: 自引导：用自我生成的指令调整语言模型name_en: Self-Instruct：Aligning Language Model with Self Generated Instructionspaper_addr: http://arxiv.org/abs/2212.10560code: https://github. com/yizhongw/self-instructdate_publish: 2022-12-20 读后感文中提出了自引导框架，之前引导精调主要使用人工处理的数据，数据量和范围都有限，本文通过示范少量引导示例，让模型自己生成引导数据对模型进行优化。摘要用引导数据精调模型提升了模型适应新任务的能力，它依赖于人工的引导数据，在数量、多样性和创造力方面受到限制，因此阻碍了精调模型的通用性。文中提出了自引导框架，通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的 GPT-3 提升 33%，与 InstructGPT001 差不多的效果。介绍 2022 年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PRO ...

ChatGPT_API

Created2023-03-11|2_Note0_Technic0_工具大模型OpenAI

1 用法 1.1 申请 API KEY openai平台，右上角 ->Personal->API Key->Create secret key，然后将 key 加入代码。 ChatGPT3.5 收费的单位,是“$0.002 per 1k tokens”,每 1000 个 tokens 需要花费 0.002 美元。 1.2 代码 1.2.1 命令行 1234567curl https://api.openai.com/v1/chat/completions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Wh ...

论文阅读_Kosmos-1

Created2023-03-11|2_Note0_Technic2_算法5_模型结构多模态

12345name_ch: 语言并非你所需要的全部：让感知与语言模型保持一致name_en: Language Is Not All You Need：Aligning Perception with Language Modelspaper_addr: http://arxiv.org/abs/2302.14045code: https://github.com/microsoft/unilmdate_publish: 2023-03-01 读后感文章主要研究视觉和文本领域的对齐，具体应用是看图回答问题。文中做了大量工具，在评测部分可以看到它在多领域多个数据集上对模型进行了评测，很多领域做了尝试。文中也没太说具体是怎么做的，主要是提出概念，展示能力。摘要 KOSMOS - 1 是一种多模态语言模型，能够感知通用模态、遵循指令、在语境中学习并产生输出。 The limits of my language means the limits of my world. Ludwig Wittgenstein 作者还引用了一句话：我的语言的极限意味着我的世界的极限。 KOSMOS ...

论文阅读_Visual_ChatGPT

Created2023-03-11|2_Note0_Technic2_算法5_模型结构多模态

name_ch: Visual Chatgpt：使用可视化基础模型进行交谈、绘图和编辑 name_en: Visual ChatGPT：Talking, Drawing and Editing with Visual Foundation Models paper_addr: http://arxiv.org/abs/2303.04671 code: https://github.com/microsoft/visual-chatgpt date_publish: 2023-03-08 读后感在 ChatGPT 和图像构建方法间做了桥接，和其它模型相比，除了利用大语言模型中的知识，还利用了 ChatGPT 强化学习带来的能力，是一个结合已有技术的一个优雅示例。本文将 CoT 的潜力扩展到大规模任务，包括但不限于文本生成高清图像、图像到图像的翻译、图像到文本的生成等。CoT 指的是 Chain-of-Thought 思想链，主要指模型的多步推理能力，以解决更为复杂的问题。主要对聊天的场景进行优化，在提示上作文章。即：在 ChatGPT 外边包了一层，这也是当前最常见的用法。文章偏工 ...

论文阅读_PaLM-E

Created2023-03-11|2_Note0_Technic2_算法7_模型增强AgentAgent论文

name_ch: Palm-E：具身多模态语言模型实现 name_en: PaLM-E：An Embodied Multimodal Language Model paper_addr: http://arxiv.org/abs/2303.03378 date_publish: 2023-03-06 code: https://palm-e.github.io 1 读后感 Embodied 一般译作“具身”，是一种基于身体经验和感知的认知学科，旨在研究人类知觉、思想和行动的相互作用。自然语言模型包含了大量关于世界的内化知识，但是不“落地”，本文通过多模态接入了视频，传感器，将大模型学到的知识应用于机器人领域，进一步解决世界中的交互问题。PaLM-E 直接产生动作的计划，从而让机器人以规划过程。将字，图，传感器的结果等都 Embedding 映射到同一空间，在对模型结构改动小的情况下，同时使用了多模态数据。文中还测试了将训练不同任务的训练数据放一起训练后三个模型效果都有提升，即举一返三的效果。 2 介绍提出了多模态语言模型，将现实世界中连续的传感器数据接入语言模型，从而建立了词语 ...

7_1_强化学习_ChatGPT为什么使用强化学习

Created2023-03-10|2_Note0_Technic2_算法15_强化学习

最近出现很多 ChatGPT 相关论文，但基本都是讨论其使用场景和伦理问题，至于其原理，ChatGPT 在其主页上介绍，它使用来自人类反馈的强化学习训练模型，方法与 InstructGPT 相同，只在数据收集上有细微的差别。那么，InstructGPT 和 ChatGPT 为什么使用强化学习呢？先看个示例：聊天示例|500 先不论答案是否正确，回答依赖之前的对话，且不仅是前一句。强化学习用于解决具有马尔可夫性的问题，马尔可夫性是指每个状态仅依赖前一个状态，而这种链式的关系，又使历史信息被传递到了未来。强化学习使用的场景是马尔可夫决策过程，包含以下核心点：随机过程：人机聊天你一句我一句马尔可夫性：回答依赖问题奖利：问题可能有多种答案，答案没有绝对的对错，但提问者会对某个答案更满意行为：每一次决定如何回答都对后续对话走向产生影响可以看到聊天的场景是一个马尔可夫决策过程。进而产生了另一个问题：模型需要大量数据训练，如果用户问个问题，出三个答案，让用户选一个，收集以用于训练模型。这肯定是不够友好，软件在初期效果不佳时也不会有人去用。且有些用户的回答还可能误 ...

论文阅读_近端策略优化_PPO

Created2023-03-04|2_Note0_Technic2_算法15_强化学习

1234name_ch: 近端策略优化算法name_en: Proximal Policy Optimization Algorithmspaper_addr: http://arxiv.org/abs/1707.06347date_publish: 2017-08-28 读后感 PPO 近端策略优化是一种强化学习算法，具体是对深度学习策略梯度方法的优化。策略是强化学习中用于决定在每个时刻采取哪个动作的函数。近端约束用于限制策略的变化，以避免过于激进地改变策略。文中介绍了两种方法：截断和 KL 散度，近端约束通常使用梯度截断来实现，即将梯度限制在一个特定范围内，让学习的步调不要太大。介绍一种改进版的强化学习策略梯度算法。它从与环境交互的数据中采样。不同于标准的策略梯度方法对每次采样执行一次梯度更新，文中提出了一个新的目标函数，可以实现多个 epoch 的 minibatch 数据更新，另外，它是 TRPO 的改进算法，相对 TRPO 更为简单，InstructGPT 的强化学习用的就是 PPO（ChatGPT 可能也是）。方法优化算法文章介绍了三种方法，其差别主要在损失 ...

论文阅读_善用Midjourney

Created2023-02-28|2_Note0_Technic2_算法8_图形图像AI绘画

中文名称: 用 Midjourney 生成格林童话插图英文名称: Grimm in Wonderland：Prompt Engineering with Midjourney to Illustrate Fairytales 论文地址: http://arxiv.org/abs/2302.08961 时间：2023-02-17 读后感针对生成图的提示工程，利用工具 Midjourney v4，进行了一系列实验。得出一个生成提示的 4 阶段过程：初始提示，成分调整，风格细化，加入变化。另外还讨论了生成图像效果不佳的三个原因：计数困难，难以生成假定的场景，无法描述过于奇异的情况。作者认为这不仅用于生成图片，且对未来的生成模型具有普适性。介绍之前的提示工程研究包含：主语，动词，环境，风格；之后又有人提出：主题词，风格修饰语，图像提示，质量助推器，重复，和魔术术语的方法。 Midjourney 是实践中最受欢迎的工具之一，尽管它是商业的，对建筑也知之甚少。目前的 Midjourney V4 更为复杂，它支持更多知识，能生成更多细节，可接受更复杂的提示，能处理多实体的场景。方法当前的 ...

7_Obsidian_用腾讯云同步笔记

Created2023-02-19|2_Note0_Technic0_工具笔记工具Obsidian同步

1 介绍之前用 gitee 同步 OB 笔记，同时做图床。但由于 git 系产品设置起来相对复杂，且后续可能有外链过审等问题。周五被同事小姐姐安利了用腾讯云 COS，试了一下，果然不错。其主要优点如下：设置简单，学习成本低，手机端也可方便设置价格也可接受，如果仅存笔记，一年也就十几 - 几十块钱吧（当然也看存储访问量）想存啥存啥，不用担心哪天被人家关了 2 开通腾讯云存储先用价格计算器看一下价钱腾讯云存储注册并开通 COS 服务登录创建笔记存储桶起名（后面不能改），设成私有读写，其它使用默认设置创建图床存储桶起名（后面不能改），设成公有读私有写，其它使用默认设置创建密钥网页入口 3 设置同步 OB 笔记安装插件 Remotely Save 此后，左侧出现一个小圆圈的图标，需要同步时按这个图标即可。填写以下五项设置，其它可使用默认（20230218 当前版本插件，填写设置中的五个输入框）其中第一二五项内容填写获取方式：COS 网页 ->存储桶列表 ->点新建桶右侧的配置管理，根据其访问域名填写；第三四项内容根据上面创建的密钥填写 ...