Yan 的杂物志_个人主页分享

Created2022-11-09|2_Note0_Technic0_工具其它

Jenkins 是一个开源软件项目，是基于 Java 开发的一种持续集成工具，用于软件项目的持续集成。简单地说，你可以通过 Jenkins 服务，把 github 上的更新自动安装部署到指定位置。 1 安装最简单，又不影响系统的方式，还是以 docker 方式安装： 1$ docker run -p 8080:8080 -p 50000:50000 -v jenkins_home:/var/jenkins_home jenkins/jenkins:lts-jdk11 此时 jenkins 的镜像被自动下载，并启动。 2 配置用浏览器打开 8080 端口。然后按界面提示从 docker 中的 passwd 文件中找到密码，并登录。如果是第一次使用，选“按推荐安装插件”，等进度条运行结束。按提示设置管理员用户名和密码。设置完成后即可开始使用。 3 开始使用不同版本的界面大同小异：创建任务 (也叫 " 新建 Item" 或 "New 任务 ") 先尝试一下最常用的流水线任务 (也叫 "Pipeline") 点 Github 项目，然后输入 github 项目地址，SCM ...

论文阅读_异常检测综述

Created2022-10-30|2_Note0_Technic2_算法10_异常检测

英文题目：Anomaly Detection: A Survey 中文题目：异常检测综述论文地址：https://readpaper.com/paper/2122646361 领域：异常检测发表时间：2009 作者：VARUN CHANDOLA 等，明尼苏达大学出处：ACM Computing Surveys 被引量：11797（谷歌学术） 1 读后感一篇典型的综述文章，快速了解异常检测的定义，用途，方法……发表时间比较早，是机器学习异常检测方法的总结。正文 50 多页，比较长。 2 介绍文章根据方法对异常检测分类，对于每个类别，提供一个基本的异常检测技术，然后展示该类别中新技术与基本技术的差异，此类技术的优缺点及计算复杂度。异常一般包含：异常 (anomalies)、离群点 (outliers)、不一致的观察结果 (discordant observations)、特例 (exceptions)、畸变 (aberrations)、意外 (surprises)、特性 (peculiarity) 或污染 (contaminants)。其中又以异常和离群点最为常见。异常检测的 ...

论文阅读_模型剪枝_彩票假设

Created2022-10-06|2_Note0_Technic2_算法5_模型结构网络结构

英文题目：The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models 中文题目：用基于彩票假设方法裁剪视觉模型论文地址：https://arxiv.org/pdf/2012.06908.pdf 领域：机器视觉，深度学习，模型剪枝发表时间：2021 作者：Tianlong Chen 等，德克萨斯大学出处：CVPR 被引量：26 代码和数据：https: //github.com/VITA-Group/CV_LTH_Pre-training 阅读时间：22.10.06 读后感文章介绍了一种针对图像处理的剪枝算法，不同与以往先训练后剪枝的方法，它的目标是直接训练出一个稀疏的子网络，并使子网络性能与稠密网络性能相当。介绍预训练模型提升了计算机视觉的效果，目前主流的方法是有监督学习和半监督学习。作者提出：可否在不影响下游任务性能的同时，降低预训练模型的复杂度？文中提出基于彩票假设的方法（lottery ticket hypothesi ...

常用的线性回归模型

Created2022-09-25|2_Note0_Technic2_算法4_机器学习经典算法

常用线性回归模型多元线性回归多元线性回归是最常用的预测数值型目标的建模方法，也常用于数据分析中的多因素分析。 \[ \min_w||Xw-y||_2^2 \] 后面几种回归都是在它基础上稍做修改。当特征数多于实例数，某些数据有问题，或者某些特征相关性高时，线性回归得到的参数常常数值很大，常用 Lasso 回归和 Ridge 回归解决这一问题，防止模型过拟合。 lasso 回归（套索回归） lasso 回归倾向于减少有效参数，使模型更加简单。具体方法是修改损失函数，将 L1 范数（各个元素绝对值之和）加入惩罚项，它可生成稀疏的模型参数。常用于特征存在共线性的情况，实现模型特征选择。 \[ \min_w\frac{1}{2n_{samples}}||Xw-y||_2^2+\alpha||w||_1 \] ### Ridge 回归（岭回归）和 Lasso 回归类似，将 L2 范数（向量所有元素的平方和的开平方）加入惩罚项。常用于数据个数小于数据维度的情况，它限制参数大小，使之逼近 0。 \[ \min_w||Xw-y||_2^2+\alpha||w||_2^2 \] ### Huber ...

主题笔记_模型压缩

Created2022-09-24|3_Knowledge2_技术

模型压缩对于复杂问题建模时，深度学习模型在容纳更多参数的情况下，效果一般更好，但是模型占内存大，预测时间长的，往往限制其在小型或普通配制的硬件上使用。一般使用模型压缩方法给模型减肥，主要方法总结如下。模型剪枝移除对结果作用很小的参数权重，如接近0的参数。具体如去掉某些卷积核，或者卷积核中的某些权重，还有对通通道的减枝，对层的减枝，对注意力头的减枝等。 #### 非结构剪枝非结构剪枝相对比较底层，使模型结构受到影响，pytorch，tensorflow不能支持。常用结构剪枝，相对简单，但没有非结构剪枝效果好。结构剪枝方法如：DropOut，DropConnect让神经元或连接失活，置0，但仍然会参与计算。有一些改进，比如根据全局所有参数的分布来计算某一道通路是否被减掉。 #### 结构剪枝移除通道（Network slimming, 2017），通过减枝和微调不断迭代，可以把yolo3减掉70%。彩票假设（The Lottery Tickets Hypothesis, ICLR 2019），找彩票子网络（比较特殊的子网络）。彩票代码: torch.nn.utils.pr ...

EasyNLP

Created2022-09-24|2_Note0_Technic2_算法5_模型结构工具

EasyNLP 中文 NLP 算法框架作者：PAI（阿里云人工智能平台）算法团队平台：基于 PyTorch 优势：中文预训练模型提供：AppZoo 和预训练 ModelZoo，ModelZoo 有很多预训练模型，EasyNLP 可以无缝接入 huggingface/transformers 的模型；AppZoo 支持文本分类，文本匹配，序列标注等任务。工具：支持小样本训练：Contrastive Prompt Tuning。大模型知识蒸馏技术：让跨领域典型性的样本在学习阶段有更大的权重。数据：DataHub 还支持一些中文训练数据项目开源地址：https://github.com/alibaba/EasyNLP 蒸馏算法实现：EasyNLP/examples/knowledge_distillation/metakd

论文阅读_对比学习_SimCSE

Created2022-09-18|2_Note0_Technic2_算法6_自然语言

英文题目：SimCSE: Simple Contrastive Learning of Sentence Embeddings 中文题目：SimCSE：用简单的对比学习提升句嵌入的质量论文地址：https://export.arxiv.org/pdf/2104.08821.pdf 领域：自然语言处理，对比学习发表时间：2021.04 作者：Tianyu Gao, 普林斯顿大学，清华大学出处：EMNLP 被引量：83 代码和数据：https://github.com/princeton-nlp/SimCSE 阅读时间：2022.09.18 (周五同事分享，简单整理笔记) 读后感主要用于提升句嵌入的质量。方法很简单，利用 BERT 模型本身的 dropout 性质，通过同一输入输出不同嵌入作为正例对，然后取同一 batch 下的反例对训练模型。介绍自监督学习主要包含：生成式，对比式，对抗式。其中的对比学习原理是：利用无监督数据，通过巧妙的方法构造正例/反例（一般是一个正例对应多个反例），训练模型，让正例距离足够近，反例距离足够远，以利用无监督数据，进行更好地表示（表征）。一般 ...

论文阅读_模型蒸馏_TinyBERT

Created2022-09-16|2_Note0_Technic2_算法11_优化模型蒸馏

英文题目：TINYBERT: DISTILLING BERT FOR NATURAL LAN-GUAGE UNDERSTANDING 中文题目：TinyBERT: 提炼 BERT 的自然语言理解能力论文地址：https://arxiv.org/pdf/1909.10351.pdf 领域：NLP，知识蒸馏发表时间：2020 作者：Xiaoqi Jiao, 华中科技大学出处：ICLR 被引量：67 代码和数据： https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT https://github.com/Lisennlp/TinyBert https://github.com/qiangsiwei/bert_distill（数据是中文的）阅读时间：22.09.16 读后感对 BERT 模型进行蒸馏，老师模型和学生模型都使用Transformer架构，但是层数和每层的输出维度可以不同，从而实现对模型的精减。介绍预训练的大模型难以应用到资源受限的系统中，文中提出针对 Trans ...

论文阅读_BERT知识蒸馏

Created2022-09-12|2_Note0_Technic2_算法11_优化模型蒸馏

英文题目：Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 中文题目：从 BERT 中蒸馏指定任务知识到简单网络论文地址：https://arxiv.org/pdf/1903.12136.pdf 领域：自然语言，深度学习发表时间：2019 作者：Raphael Tang, 滑铁卢大学被引量：226 代码和数据：https://github.com/qiangsiwei/bert_distill 阅读时间：2022.09.11 读后感第一次对大型自然语言模型的蒸馏：将 BERT 模型蒸馏成 BiLSTM 模型。介绍在自然语言处理方面，随着 BERT,GPT 等大规模预训练模型的发展，浅层的深度学习模型似乎已经过时了。但由于资源的限制，又需要使用小而快的模型。文章的动机是讨论：浅层模型是否真的不具备对文本的表示能力？并展示了针对于具体的任务，将 BERT 蒸馏成单层 BiLSTM 模型的方法和效果。也通过大模型（起初训练的复杂的模型，后称 Teacher/T）和小模型（蒸馏后的模型 ...

论文阅读_知识蒸馏_Meta-KD

Created2022-09-12|2_Note0_Technic2_算法11_优化模型蒸馏

英文题目：Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains 中文题目：Meta-KD: 跨领域语言模型压缩的元知识蒸馏框架论文地址：http://export.arxiv.org/pdf/2012.01266v1.pdf 领域：自然语言处理, 知识蒸馏发表时间：2020.12 作者：Haojie Pan，阿里团队出处：ACL 被引量：1 代码和数据：https://github.com/alibaba/EasyNLP（集成于 EasyNLP）阅读时间：2022-09-17 读后感结合元学习和蒸馏学习：元学习使得模型获取调整超参数的能力，使其可以在已有知识的基础上快速学习新任务。介绍预训练的自然语言模型虽然效果好，但占空间大，预测时间长，使模型不能应用于实时预测任务。典型的方法是使用基于老师/学生模型的知识蒸馏。而模型一般面向单一领域，忽略了不同领域知识的知识转移。本文提出元蒸馏算法，致力于基于元学习的理论，让老师模型具有更大的转移能力 ...