avatar
Articles
806
Tags
240
Categories
164

Yan 的杂物志_个人主页分享
Search
论文阅读_语音合成_Spear-TTS
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 说话、阅读和提示:少量监督实现高保真文本转语音 name_en: Speak, Read and Prompt:High-Fidelity Text-to-Speech with Minimal Supervision paper_addr: http://arxiv.org/abs/2302.03540 code: https://google-research.github.io/seanet/speartts/examples/ date_publish: 2023-02-07 1 读后感 这是一个完整的 TTS 系统,可视为 AudioLM 的延展。 2 摘要 多语言的语音合成系统,使用大量无监督数据,少量有监督数据训练,结合了两种类型的离散语音表示,解耦了:从文本生成语义标记(读),由语义标记再生成声音标记(说)两部分,用大量纯音频数据训练“说模块”,减少“读模块”对并行数据(并行数据指:文本语音数据对)的需求。 为控制说话人,使用提示方法,只需要 3 秒音频即可合成在训练集中未见过的说话人的语音。 实验表明,SPEAR-TTS 仅使用 15 分钟的并行数据 ...
论文阅读_语音合成_VALL-E
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 神经网络编解码器语言模型实现零样本 TTS name_en: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers date_publish: 2023-01-05 paper_addr: http://arxiv.org/abs/2301.02111 code: https://github.com/microsoft/unilm/tree/master/valle 1 读后感 语音合成模型,输入是待合成的文本,3 秒的录音,输出为与录音一致的合成后的语音内容。 2 与传统 TTS 的差异 之前的语音模型是:音素 ->梅尔倒谱 ->音频;VALL-E 是:音素 ->离散编码 ->音频。 3 主要贡献 • 我们提出了 VALL-E,有效使用上下文学习能力的 TTS 框架,音频编解码器代码作为中间表示,以取代传统的梅尔声谱图。 • 通过利用大量的半监督数据在说话者维度构建了一个通用的 TTS 系统。 • VALL-E 能够以相同的输入文本提供不同的输出,并 ...
论文阅读_语音合成_VALLE-X
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 用你自己的声音说外语:跨语言神经编解码器语言建模 name_en: Speak Foreign Languages with Your Own Voice:Cross-Lingual Neural Codec Language Modeling paper_addr: http://arxiv.org/abs/2303.03926 date_publish: 2023-03-07 1 读后感 对 VALL-E 的扩展,以源语言语音和目标语言文本为提示,预测目标语言语音的声学标记序列,可用于从语音到语音的翻译任务。它可以生成目标语言的高质量语音,同时保留看不见的说话者的声音、情感和声学环境。有效缓解了外国口音问题,可以通过语言 ID 来控制。 以从源文本和目标文本中导出的音素序列,以及从音频编解码器模型中导出的源声学标记作为提示,生成目标语音。 2 介绍 主要贡献 • 提出 VALL-E X 条件跨语言语言模型,以源语言语音和目标语言文本为提示,预测目标语言声学标记。 • 多语言上下文学习框架,能保持看不见的说话者的声音、情感和语音背景,仅依赖源语言中的一个句子提示 ...
论文阅读_音频生成_AudioLM
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: AudioLM:一种音频生成的语言建模方法 name_en: AudioLM:a Language Modeling Approach to Audio Generation date_publish: 2022-09-07 paper_addr: http://arxiv.org/abs/2209.03143 1 读后感 主要解决生成语音的两个问题:一致性和高质量。 2 摘要 这是一个利用长期一致性生成高质量音频的框架,它先将音频输入转成一系列离散的 token,然后将生成音频作为表示空间的语言建模。提出了一种混合的分词方案来平衡重建质量和长依赖的结构。 使用Mask 方法捕获长距离的关系,最终使用离散编码生成高品质的合成效果。它可以通过简短的提示,来生成自然连贯延续语音。利用大量无监督数据训练,在没有任何文字标注或注释的情况下,AudioLM 会生成句法和语义上合理的语音延续,同时还保持说话人身份和不可见的说话人的韵律。另外,还可以生成钢琴音乐。 3 介绍 在数据都是无监督的情况下,基于 Transformer 架构。具体使用的技术包括:对抗性神经音频压缩,自监督 ...
论文阅读_MAE
Created2023-04-18|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 带遮蔽的自编码器是大规模的视觉学习者name_en: Masked Autoencoders Are Scalable Vision Learnersothers: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84paper_addr: https://ieeexplore.ieee.org/document/9879206/journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)date_publish: 2022-06-01 1 读后感 图像领域的无监督学习,延续 ViT 使用 Transformer 结构 论文阅读_ViT,学习 BERT 遮蔽图片块,然后预测被遮蔽的块实现自我学习 autoencoder。 ...
医学论文_ICU_强化学习_SEPSIS
Created2023-04-15|2_Note0_Technic1_医学其它
读后感 一般跨领域论文,方法优点在于在 RL 应用于 ICU,缺点在于 RL 方法比较老,处理不了连续数据,所以试了很多离散方法,我觉得用深度学习可能就解决了,另外,奖励只使用了患者是否死亡,比较粗。 目标 其目的不是进行脓毒症诊断,而是利用分布式 RL 学习和评估治疗策略。 算法为每个状态 - 动作对的奖励分布建模,而不仅仅是期望值。 还设计了一种新的脓毒症模拟器 (见 2.4 节),该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据,分别跑,然后对比其一致性。 数据 使用 MIMIC 数据,用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补(由于有些数据不测量可能是因为医学觉得不需要)。 方法 用聚类方式离散化数据,使用 Q-Learning 实现决策。 拆分训练和测试集,好像是用训练数据训练模型,然后用测试数据测试医生操作和模型决策。 定义行为:静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素,而静脉输液包括血液制品、晶体液、胶体液和团注液。 定义状态:对用53 个特 ...
论文阅读_模型鲁棒性的量化指标
Created2023-04-15|2_Note0_Technic2_算法11_优化模型优化
读后感 建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。 介绍 根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。 具体方法介绍 Maximin 悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果 \[ Maximin = max(min_1, min_2, ..., min_n) \] ### Maximax 乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果 \[ Maximax = max(max_1, max_2, ..., max_n) \] Hurwicz optimism-pessimism rule 折衷原则:按比例结合乐观和悲观原则 \[ HOR = αMaxmin + (1 − α)Maximax \] ### Laplace's principle of insufficient reason 不充分理由原则: ...
论文阅读_图像生成_unCLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 OpenAI 出品,应用于 DALL-E 2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中,利用了图像与文本间的映射关系,文本可以看作是人对图片内容的抽象,它让模型从人的视角“看”图片,识别了其中人觉得最重要的内容;在图片内容和人类概念之间建立联系,并能通过文本描述的概念来生成和编辑图片。 从技术层面看,它主要基于 CLIP,Diffusion 模型,并在 GLIDE 的方法之上进行了改进(之前 GLIDE 尝试了有分类的 CLIP,本文尝试了无分类的 CLIP;GLIDE 对 Diffusion 中加噪图片训练 CLIP 对齐嵌入,本文用不加噪图片做 CLIP)。 介绍 CLIP 模型在图片和文本之间建立映射关系,能很好的获取图片的含义和风格。本文基于 CLIP,提出了两阶段模型(如图):首先,生成给定文本描述对应的 CLIP 图像嵌入,然后,用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法,发现扩散模型效率更高。 其核心逻辑如图所示:虚线上结合了文本和图像的表示空间;虚线下是生成图片的过程,用文本嵌入产生一个图像嵌入,然后利用这个嵌入在条 ...
论文阅读_图像生成文本_CLIP
Created2023-04-15|2_Note0_Technic2_算法5_模型结构多模态
读后感 使用大量数据的对比学习,基于对齐图片和文本嵌入的原理,实现了根据图像生成描述文本的功能,为后续根据文本生成图像奠定了基础。 介绍 文中提出 CLIP(Contrastive Language-Image Pre-training)方法,即:对比式语言 - 图像预训练。它的先进性在于:之前模型只能判断图片是否属于固定类别,而它可以根据一张图片内容,生成文本描述,或者利用文本描述的新类别匹配图片,而无需根据新类别调优模型,即零样本学习。 具体实现方法利用少量有标注数据和大量无标注数据(4 亿个图片文本对)方法建模,利用对比学习训练模型,对齐文本和图像的嵌入。通过在 30 多个不同的现有视觉数据集上进行基准测试,证明该模型能很好地应用到大多数任务中。 它为后面一系列的图像生成模型(利用文本生成图片)奠定了基础。比如:用 DALL-E(unCLIP) 用“小狗吹喇叭”自动生成对应的图片。 方法 数据 虽然 MS - COCO 和 Visual Genome 是高质量的人工标记数据集,但按现代标准它们都很小。YFCC100M,在 1 亿张照片中,保留带有自然语言标题和/或英文描述的图片, ...
论文阅读_ViT
Created2023-04-08|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 将 16x16 的块看作词:用 Transformers 实现大规模图像识别name_en: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scalepaper_addr: http://arxiv.org/abs/2010.11929code: https://github.com/google-research/vision_transformerdate_publish: 2021-06-03other src: ViT 论文逐段精读:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0 读后感 ViT 是 Vision Transformer 的缩写,是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。ViT 将输入图片分为多个 patch,再将每个 patch 投影为固定长度的向量送入 Transformer,后续 encoder 的操 ...
1…313233…81
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
806
Tags
240
Categories
164
Follow Me
Announcement
This is my Blog
Recent Post
250523_对谈_用叙事打磨世界观2025-05-23
250512_对谈_股票操作中的概率与心理2025-05-21
250520_对谈_最近发展区理论与实践2025-05-21
论文阅读_现实的叙事构建2025-05-21
2505xx_对谈_家长的角色22025-05-20
Categories
  • 0_IMO54
    • 工作1
    • 说给一个人听53
      • 01_自我建构21
        • 思考与觉悟11
        • 行动与进化10
      • 02_情绪心理12
      • 03_关系互动9
Tags
效率 知识图/知识图谱 行为模式 语音 网络环境 权力结构 人生哲学 LLM Arduino 音视频处理 认知建构 API AI功能 机器学习/自动建模 Linux 对谈 知识图/图神经网络 运动 知识库 大型语言模型 reading 社会 嵌入表示 心理学 自然语言处理 性能 自动驾驶 技术 知识图/知识表示 深度学习/知识蒸馏 Web服务 深度学习/扩散模型 模型优化 大语言模型 Obsidian 视频生成 反思 人工智能 聊天 SSH
Archives
  • May 202565
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
  • November 20246
  • October 20244
Info
Article :
806
Total Count :
1095.3k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database