avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
论文阅读_生成模型_VAE
Created2023-08-24|2_Note0_Technic2_算法8_图形图像AI绘画
英文名称: Auto-Encoding Variational Bayes 中文名称: 自编码变分贝叶斯 论文地址: http://arxiv.org/abs/1312.6114 时间: 2013 作者: Diederik P. Kingma, 阿姆斯特丹大学 引用量: 24840 1 读后感 VAE 变分自编码(Variational Autoencoder)是一种生成模型,它结合了自编码器和概率图模型的思想。它的目标是:解决对复杂性高,且量大的数据难以拟合的问题。具体方法是:使用基于变分推理的原理,以变分下界作为目标函数,用梯度方法求取模型参数。 2 通俗理解 听起来非常抽象,简单地说:变分自编码器是自编码器的改进版。 2.1 自编码器 自编码器通常由编码器和解码器两部分组成,其中编码器将原始数据映射到低维表示,解码器则将低维表示映射回原始数据空间。即:原始数据为 x,将其输入编码器降维后,变成数据 z,再经过编码器还原成数据 x'。它常用于高维数据的低维表示和从低维表示中生成高维数据。比如:图像去噪,修复图片,生成高分辨率图片等。 2.2 变分自编码器 变分自编码器在中间加了一 ...
论文阅读_扩散模型_SDXL
Created2023-08-23|2_Note0_Technic2_算法8_图形图像AI绘画
123456英文名称: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis中文名称: SDXL:改进潜在扩散模型的高分辨率图像合成论文地址: http://arxiv.org/abs/2307.01952代码: https://github.com/Stability-AI/generative-models时间: 2023-07-04作者: Dustin Podell 1 读后感 SD 是语言引导的扩散模型。SDXL 是 2023 年 7 月 Stable Diffusion 新发的大模型框架,它是潜在扩散模型(LDM)扩展。其主要效果是:加强了画面细腻度,优化了构图,以及对语言的理解能力。 我对比了 SD 1.5 和 SDXL 模型,感觉速度差不太多,个人感觉:图片质量,对文字的理解略有提升,可能因为目前 SDXL 的基模比较少,用的还不太多。个人理解,目前阶段,无论是 AI 写作,绘画还是编程,都需要与人和其它工具深度结合,远不到可以独立解决问题,自动生成最终成果的阶段,但确实能提 ...
论文阅读_扩散模型_DDPM
Created2023-08-22|2_Note0_Technic2_算法8_图形图像AI绘画
12345678英文名称: Denoising Diffusion Probabilistic Models中文名称: 去噪扩散概率模型论文地址: http://arxiv.org/abs/2006.11239代码地址 1: https://github.com/hojonathanho/diffusion(论文对应代码 tensorflow)代码地址 2: https://github.com/AUTOMATIC1111/stable-diffusion-webui stable-diffusion-webui/modules/models/diffusion/ddpm_edit.py (推荐 pytorch)时间: 2020-12-16作者: Jonathan Ho, 加州大学伯克利分校引用量: 3286 论文阅读_生成模型_VAE 读后感 论文优化了扩散模型的具体实现,并证明了扩散模型可生成高质量的图像。具体方法是结合扩散概率模型和朗之万动力学去噪的加权变分训练模型。 学习路径 论文中公式很多,有些依赖 DM 论文,VAE 论文,还有跳步,虽然方法部分不长,但是很难读明白。至今看 ...
论文阅读_扩散模型_DM
Created2023-08-22|2_Note0_Technic2_算法8_图形图像AI绘画
英文名称: Deep Unsupervised Learning using Nonequilibrium Thermodynamics 中文名称: 使用非平衡热力学原理的深度无监督学习 论文地址: http://arxiv.org/abs/1503.03585 代码地址: https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models 时间: 2015-11-18 作者: Jascha Sohl-Dickstein, 斯坦福大学 引用量: 1813 1 读后感 论文目标是建立灵活且易用的数据生成模型。它利用非平衡统计物理学原理:通过扩散过程(少量加噪)系统地、缓慢地破坏数据分布中的结构;然后,学习反向扩散过程,恢复数据结构。 2 介绍 2.1 扩散模型与变分模型 扩散模型与变分模型原理类似,都是将图片拆成一系列高斯分布的均值和方差,而扩散模型是一个逐步变化的过程,主要差别如下: 原理不同:扩散模型使用物理学、准静态过程和退火采样的思想。由于任何平滑目标分布都存在扩散过程,因此理论上该方法可以捕获任意形式的数据分布。 ...
论文阅读_模型结构_ControlNet
Created2023-08-17|2_Note0_Technic2_算法8_图形图像AI绘画
英文名称: Adding Conditional Control to Text-to-Image Diffusion Models 中文名称: 向文本到图像的扩散模型添加条件控制 论文地址: http://arxiv.org/abs/2302.05543 代码: https://github.com/lllyasviel/ControlNet 时间: 2023-02-10 作者: Lvmin Zhang 1 读后感 ControlNet 几乎是 Stable Diffusion 中最重要的功能插件,利用它可对画面内容进入精准控制。本文介绍了 ControlNet 的原理和具体功能。 ControlNet 是一种对文本生成图像的优化方法。比如:生成 AI 画作时,画面中人体的形态,面部表情都难以精准控制,ControlNet 基于图生图的操作方式,从另一图中提取对应元素,用于新图像的生成,大幅提升了人对大模型的控制力。 具体方法是调整网络结构,基于预训练的扩散模型,根据新输入的描述和指定任务对应的条件进一步训练模型。使模型既可以在小数据量(<50K)时在个人设备上训练,也可以在 ...
论文阅读_模型结构_LoRA
Created2023-08-17|2_Note0_Technic2_算法8_图形图像AI绘画
英文名称: LoRA: Low-Rank Adaptation of Large Language Models 中文名称: LORA:大语言模型的低阶自适应 论文地址: http://arxiv.org/abs/2106.09685 代码: https://github.com/microsoft/LoRA pytorch,风格简捷 时间: 2021-10-16 作者: Edward J. Hu 引用量: 657 1 读后感 LoRA 是 Low-Rank 的缩写,它是一种大模型微调技术。一开始用于优化自然语言模型,但是后来自然语言模型后来选择了 Prompt 的道路;而该技术在图像领域得到了广泛的应用,比如 Stable Diffusion 的一众 LoRA 模型,从背景风格到人物形像,不用精调 2-8 G 的基础模型,通过训练 只有几十到几百兆 LoRA 模型,就可以实现建模。 它针对的问题是:当模型大到一定程度,比如 GPT-3 有 175B 参数,精调变得费时而昂贵。其解决方法是:它修改了 fine-tune 过程,提出低阶自适应技术,冻结了预训练的模型权重,并将可训练的秩分 ...
编程助手_CodeGeeX
Created2023-08-15|2_Note0_Technic0_工具编程工具
1 介绍 CodeGeeX 是清华系列国产工具,底层基于 ChatGLM2 模型,开源免费。 2 VSCode 使用方法 安装插件:codegeex 安装之后,在右侧看到说明文档,内容比较全也比较长。 主要功能分成两部分,同 copilot,都封装在一个插件中。 正常安装后,左侧边栏和界面右下会出现类似菱形的图标。 按提示 login,微信登录即可用。 生成后续程序 基本用法同 Copilot 一致,AI 生成的代码浅灰色,按 Tab 链后变正常。 点击左侧图标可调出 Chat 栏 Chat 栏支持提问和代码翻译等功能;智能问答含三个基本功能:/explain,/comment,/fixbug(在左下角输入框输入 "/" 可调出),在右边选代码,左边点功能即可。也可以在框中输入需要操作的文本描述。 3 总结 3.1 优点 开源免费 无需“科学”,直接使用 无需复杂配置 3.2 缺点 功能相对偏少,可看作低配版的 Copilot 在聊天中,输入自已描述的功能效果不太好,它不太能看懂需求 我测试了两个时段,其中有一次提问时不太稳定,一直 wait timeout (也可能是巧合) ...
编程助手_Copilot
Created2023-08-15|2_Note0_Technic0_工具编程工具
1 介绍 Copilot 由 Github 和 OpenAI 合作推出,底层基于的 Codex 模型,通过 GPT-3 继续训练得到。 Copilot 可以先免费试用一个月。所以大家可以先试试,如果觉得必需,再购买或者在某宝以便宜的方式购买。 每次他帮我写注释,或者补全代码的时候,我都觉得钱花得值。 2 VSCode 使用方法 安装插件:github copilot, github copilot lab, github copilot chat 主要功能分成两部分:一部分是生成后续程序 (github copilot),另一部分通过与 copilot 对话实现更丰富的功能支持 (github copilot chat)。 正常安装后,左侧边栏和界面右下会出现小机器人图标 右下角提示 copilot 需要 github 帐号登录,按提示操作即可一个月免费使用(或者申请个比较便宜的学生号)。 |600 生成后续程序 例如:编写一行注释,回车后等几秒,自动生成的代码以灰色呈现;按 Tab 键接受推荐;Alt+ 左/右中括号可切换不同的推荐;Ctrl+Enter:打开一个 Tab ...
编程助手_Cursor
Created2023-08-15|2_Note0_Technic0_工具编程工具
1 介绍 Cursor 是调用 Chatgpt 接口实现的 AI 编程工具,目前 GPT-3.5 可免费使用,GPT-4 只对专业订购者开放。Cursor 本身是一个 IDE,可从其官网下载安装包。 2 使用方法 从其主页:https://www.cursor.so/ 直接下载对应平台的 IDE 安装。 IDE 和 VSCode 很类似,可看作轻量化的 VSCode,使用习惯非常像,常用快捷键都一样。 第一次使用时,可以试用左侧的 demo 测试,融入操作的向导非常贴心。 点击右上角可以对它提问 主要快捷键有两个: Ctrl+K 在代码中操作 Ctrl+M 以提问方式交互 其它的提示都显示在屏幕上,按提示操作很快就学会了,学习成本低。 与代码续写相比,它可以根据需求,生成整个程序,整体更有章法。 |600 3 总结 3.1 优点 使用 ChatGPT 作为算法引擎,免费可用 无需“科学”,直接使用 IDE 和 GPT 结合得非常好,几乎所有操作提示全在界面上 不只是补全,还可以生成整体代码 无需复杂配置,学习成本低 3.2 缺点 IDE 比较简单,不能满足开发需求 ...
编程助手_大模型提升效率
Created2023-08-15|2_Note0_Technic0_工具编程工具
1 简介 网传有了大模型之后,很多人都要失业了,其中也包括一部分程序员,确实大模型可以减轻开发者的工作量,但是具体到减轻了多少工作量,哪种类型的工作,学习成本,使用成本如何?不捧不踩,今天我们尽量客观地体验一下。 本文将介绍目前使用最多的三个智能编程助手,它们均可提供:代码解释、注释、生成、实时补全等功能。下面基于 VSCode 环境来介绍具体的使用方法。 2 Copilot 编程助手_Copilot 3 CodeGeeX 编程助手_CodeGeeX 4 Cursor 编程助手_Cursor 5 讨论 5.1 使用场景 对于新手,我们不用再花很多时间强调代码规范了,让大家直接用 AI 就可以润色出不错的代码和注释。 对于不熟悉的领域、代码、编程语言,可以快速地了解和梳理代码,解释代码和逻辑。 自动编写常用的代码片断 自动编写相对复杂的 正则 或 SQL 查询 解决一些简单的 bug 帮助程序员快速入门一门语言或一种框架 快速程序写 demo 和代码框架,程序员只需要做少量修改即可使用 5.2 使用体验 5.2.1 基于场景的设计 最简单的使用大模型的方法是 ChatGPT 聊天界面 ...
1…293031…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
效率 知识图/知识图谱 行为模式 语音 网络环境 权力结构 人生哲学 LLM Arduino 音视频处理 认知建构 API AI功能 机器学习/自动建模 Linux 对谈 知识图/图神经网络 运动 知识库 大型语言模型 reading 社会 嵌入表示 心理学 自然语言处理 性能 自动驾驶 技术 知识图/知识表示 深度学习/知识蒸馏 Web服务 深度学习/扩散模型 模型优化 大语言模型 Obsidian 视频生成 反思 人工智能 聊天 SSH
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database