Yan 的杂物志_个人主页分享

Created2020-10-01|2_Note0_Technic0_工具Docker

nvidia-docker 无法正常启动上周更新了 nv 的驱动到 450，然后发现 nvidia-docker 无法启动了，报错： 1docker: Error response from daemon: OCI runtime create failed: container_linux.go:349: starting container process caused "process_linux.go:449: container init caused \"process_linux.go:432: running prestart hook 1 caused \\\"error running hook: exit status 1, stdout: , stderr: nvidia-container-cli: initialization error: driver error: failed to process request\\\\n\\\"\"": unknown. 使用命令： 12345$ nvid ...

自动机器学习框架之四_PyCaret

Created2020-09-12|2_Note0_Technic2_算法4_机器学习自动机器学习框架

自动机器学习框架之四 _PyCaret 机器学习涉及数据分析、清洗、建模、评价、对比模型……无论是初学者，还是有经验的开发者在面对新的项目时，都想要简化这些工作，最好能用简单的代码、较短时间，就能得出初步验证结果，之后再进一步优化。希望能用一个简单的数据文件，几行通用的 Python 语句，就能实现分析、建模和部署。PyCaret 就是这样的工具：虽然没有太多创新算法，但极大地简化了工作流程。这也让机器学习的门槛越来越低。 PyCaret 是 Python 开发的机器学习库，它封装了 Sklearn，XGBoost，LightGBM，Spacy，Shap，PyOD，Gensim，WordCloud 等工具，几乎包括机器学习所有的使用场景和方法（不含深度学习）：异常检测 Anomaly Detection，关联规则 Association Rules，分类 Classification，回归 Regression，聚类 Clustering，自然语言处理 NLP 等。其中支持最丰富的还是分类和回归。 PyCaret 屏蔽了具体使用细节，比如各种库在建模，绘图，特征排序的不同调用方法。向 ...

用Lucene构造垂直搜索引擎

Created2020-08-30|2_Note0_Technic2_算法6_自然语言工具

用 Lucene 构造垂直搜索引擎 Lucene 是用于全文检索的开源库，Apache 软件基金会提供支持。它由 Java 语言开发，也提供 Python 接口调用。本文介绍使用开源项目 Lupyne 构建垂直搜索引擎，搜索本地网页中的内容。它使用 Python 语言编写，搜索功能用 Lucene 引擎实现，使用 html2text 从本地网页中提取数据，实现对网页中文本的搜索，前端调用 CherryPy 框架（flask 的 web server 常用作开发测试。而 cherrypy 的 web server 常用于生产环境），提供网页搜索功能。运行文中实例需要匹配 Java，Python，Lucene 等各个软件版本，环境配置比较复杂，因而基于 Lucene 提供的 docker image 环境构建。 Lucene 元素使用 Lucene 之前，先来了解一些相关概念。 Directory：指定如何保存构建的索引，测试时常保存在内存中，实际应用中，一般将其保存在文件系统中，本例将索引保存在/tmp/a 目录下。 Analyzer：分析器，用于处理文本，如分词，去停用词等。 I ...

论文阅读_解释黑盒模型方法综述

Created2020-08-16|2_Note0_Technic2_算法14_模型解释

论文阅读 _ 解释黑盒模型方法综述论文：《A Survey of Methods for Explaining Black Box Models》论文地址：https://arxiv.org/abs/1802.01933v3 (本文为论文核心内容提炼，并非逐段翻译) 《A Survey of Methods for Explaining Black Box Models》是 2018 年发表在 ACM Computing Surveys 上的一篇综述性论文，正文 37 页，介绍了七十多种模型解释相关论文，参数文献 144 篇。它列出了每种方法的相关论文，作者，发表时间，解释模型，被解释模型，解释何种类型数据，是否提供代码，数据等信息，如下图所示：论文的前五章介绍了为什么需要使用可解释模型，第六到九章分类别介绍了各种解释方法及相关论文，并对每一种方法进行了简要介绍。如何评价模型无论是写论文，还是和客户沟通，描述下列几点都是必不可少的。 • 模型评价指标一般数据分析时都会使用：敏感性、特异性、F1 score、AUC 曲线等方法。 • 被多少数据支持训练数据和测试数据的数据 ...

查找论文

Created2020-08-01|2_Note0_Technic0_工具论文0_方法

#论文阅读 SCI 是什么美国《科学引文索引》（Science Citation Index, 简称 SCI）是由美国科学信息研究所 1961 年创办出版的引文数据库。相对于 EI 工程索引，SCI 要求论文更规范，系统，完整，创新性更高。论文分区 SCI 有两个分区规则：JCR 分区和中科院分区。JCR 分区根据某一学科的所有期刊都按照上一年的影响因子降序排列，然后平均 4 等分 (各 25%)，分别是 Q1，Q2，Q3，Q4。中科院分区按各类期刊三年平均影响因子排序，前 5% 为一区（国际顶级期刊），前 20% 为二区，前 50% 为三区，剩下的为四区。影响因子 SCI 期刊的影响因子 IF（Impact Factor）值是衡量期刊水平的标准，它的计算方法为：前两年文章引用数/前两年文章收录数（一般 IF＞1 表示引用率较高）。最低分值是 0~1 分，高的到几十分。用以下方法查看影响因子：打开 http://www.letpub.com.cn/ 点击 SCI IF（影响因子）查询输入期刊名搜索（也可以按分类查找）如：输入 JAMA，列出了 JAMA 的多个子刊，从列 ...

分类模型的可解释性

Created2020-07-26|2_Note0_Technic2_算法14_模型解释

分类模型的可解释性 #机器学习论文题目：《Why Should I Trust You? Explaining the Predictions of Any Classifier》论文地址：[https://chu-data-lab.github.io/CS8803Fall2018/CS8803-Fall2018-DML- Papers/lime.pdf](https://links.jianshu.com/go?to=https%3A%2F%2Fchu-data- lab.github.io%2FCS8803Fall2018%2FCS8803-Fall2018-DML-Papers%2Flime.pdf) 模型可解释性论文列表：[ https://github.com/oneTaken/awesome_deep_learning_interpretability ](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FoneTaken%2Fawesome_deep_learning_interpretability ...

Notebook左侧开启导航

Created2020-07-22|2_Note0_Technic3_编程Python工具

Notebook 左侧开启导航 Python 有时候使用 Notebook 编写较长代码，或者有很多 Cell，定位某一段代码时需要不断拖动，非常麻烦，使用 Notebook 插件提供的导航功能可以很好地解决这一问题。首先，安装插件：方法一 123$ pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions$ jupyter contrib nbextension install --user$ jupyter nbextensions_configurator enable –user 方法二 123$ pip install jupyter_contrib_nbextensions$ jupyter contrib nbextension install --user$ pip install jupyter_nbextensions_configurator 然后在 Notebook 目录界面打开插件设置标签页 Nbextensions，选中其中的 Table of contents ...

找不到字符集

Created2020-07-08|2_Note0_Technic4_系统Linux系统

找不到字符集 #操作系统/Linux #操作系统终端报错： 123locale: Cannot set LC_CTYPE to default locale: No such file or directorylocale: Cannot set LC_MESSAGES to default locale: No such file or directorylocale: Cannot set LC_ALL to default locale: No such file or directory Jupyter notebook 报错： 1UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 0 解决方法： 12345apt-get updateapt-get install locateslocale-gendpkg-reconfigure locales按提示选择字符集，一般是zh_CN.UTF-8 (488) 设置环境变量 123export LANG=zh_CN. ...

grub无法正常启动的解决方法

Created2020-07-04|2_Note0_Technic4_系统Linux系统

grub 无法正常启动的解决方法在我第二次安装 ubuntu 18.04 时，出现 grub 提示符，系统无法正常启动。使用以下方法恢复：首先，输入 ls 指令, 查看当前状态，以及系统安装在哪个分区： 12lsls (hd0)/ 假设 ubuntu 系统安装在第五个分区上，用以下命令启动系统。 1234set root=(hd0,5)set prefix=(hd0,5)/boot/grubinsmod normalnormal 系统正常启动后，安装 boot-repair 工具： 1234sudo susudo add-apt-repository ppa:yannubuntu/boot-repairapt-get updateapt-get install boot-repair 运行 boot-repair，选择 Recommended repair, 并按提示执行命令： s

Attention注意力机制

Created2020-06-29|2_Note0_Technic2_算法5_模型结构Transformer

Attention 注意力机制网上的文章总把 Attention 注意力机制和 Transformer 模型结合来讲，看起来非常复杂。实际上 Attention 不仅作用于自然语言处理领域，目前已是很通用的技术。本篇来看看 Attention 的原理，以及在各个领域的典型应用。原理越来越多的模型用到注意力机制，它已成为与全连接，卷积，循环网络同等重要的技术。简单地说，当人观察图片时，一般先扫一眼，确定大概信息，然后聚焦在图中的重要区域，这个区域可能是某个物体，某种显著的特点，或者人脸等等。机器视觉，自然语言模型，跨模态模型都越来越多地使用到注意力技术。其核心是通过当前数据决定更关注哪一部分数据，给数据加权。那么，同样是给特征加权，注意力和普通的全连接网络到底有何差异？主要差异在于是否与位置相关。全连接网络与位置强相关（比如下图中 W11 描述了 x1 到 y1 的映射关系，如果特征 x1 改变了位置，结果就会不同）。在使用 Attention 的过程中，我们希望聚焦于图中的动词，不管它出现在句中什么位置，希望聚焦于图中的人脸，而不管脸在图中的位置以及有几张脸……Att ...