avatar
Articles
852
Tags
268
Categories
179

Yan 的杂物志_个人主页分享
Search
2_Obsidian_常用插件
Created2022-01-27|2_Note0_Technic0_工具笔记工具Obsidian插件
2_Obsidian_ 常用插件 1 强烈推荐 1.1 最近打开的文件:Recent Files 安装后在左侧面板上部出现时钟图标,可以查看最近打开的文件 1.2 Git 插件:Obsidian Git 可以定时 commit,push,pull 同步到 git,在国内可使用 gitee 作为服务端,速度很快。 详见:3_Obsidian_用Git同步笔记 1.3 规范化格式:Linter tag wrangler 目前位居下载量排行榜第 26 位。 Linter 插件用于规范化笔记模式,支持规范化当前文档,当前目录下的文档,以及所有文档,并且可以设置哪些文档不需要修改(比如某些模板)。需要注意的是:修改之前要先在设置界面勾选规范哪些操作(细节非常丰富),然后通过 Ctrl+P 菜单调用 Linter 功能,或者用 Ctrl+Alt+L 快捷键规范化当前页面。常见的操作包含:加间隔行,去空行,去掉无用的空格等等。 1.4 自动生成序列号:Number Headings 在 Setting->Number Headings 中设置默认的开始层级等信息,注意不要选择 Automati ...
论文阅读_字典提升基于BERT的NER
Created2022-01-23|2_Note0_Technic2_算法6_自然语言BERT类
用字典提升基于 BERT 的中文标注效果 论文题目:Lexicon Enhanced Chinese Sequence Labeling Using BERT Adapter 论文地址:https://arxiv.org/abs/2105.07148 读后感 论文提出将字典融入 BERT 网络层记作字典加强 BERT(Lexicon Enhanced BERT,LEBERT),用于提升中文标注效果。新模型在命名实体识别、分词、成份标注实验中均达到了目前最佳水平。 简介 这是一篇自表于 2021 ACL(NLP 顶会)的论文。 由于存在分词(CWS)问题,中文面临更大的挑战,对多数任务,以字为单位比以词为单位效果更好。 目前大多优化方法都是修改上层(网络末端),而未修改核心网络。文中提出的方法利用字典得到更多可能的分词,动态计算最佳分词方法,并修改了网络的 Transformers 层,如图 -1 中的右图所示: Pasted image 20220112130432.png 模型 Pasted image 20220112130755.png 模型的核心结构如图 -2 所示 ...
机器学习_条件随机场CRF
Created2022-01-16|2_Note0_Technic2_算法4_机器学习经典算法
条件随机场 CRF 简介 在命名实体识别(后简称 NER)中,迄今绝大多数模型都使用神经网络和条件随机场结合的方法实现。所以,需要稍微了解一下 CRF 的原理。 NER 是自然语言处理中一个非常基础的任务,简单的说,就是识别句中的成份。比如 " 小明去学校 ",其中“小明”是人名,“去”是动词,“学校”是地点。如果把字当作处理单元,“学”字是动词还是地点,不仅取决于该字的意思,还取决于它的上下文。 CRF 可用于解决序列问题(前后状态存在相关性),比如根据第 i-1 个字来判断第 i 个字所充当的成份。当 CRF 与神经网络共同工作时,神经网络负责提取词义,CRF 将词义与上下文结合,以实现更准确地判断。 原理 这里涉及很多概念,比如最大团、马尔可夫性、马尔可夫链等等,本文不做展开,以免过长、过于复杂。 直奔主题,CRF 最大的特点是它使用了特征函数。可以把特征函数想象成对输入 x 提取多个特征,每个特征函数提取一个特征。 \[ \sum_i^T\sum_k^M\lambda_kf_k(x,y_{i-1},y_i,i) \] 序列中共有 T 个时间步(NER 句中有 T 个字),用 i ...
论文阅读_语音合成综述
Created2022-01-15|2_Note0_Technic2_算法1_音频
基本信息 题目:Survey on Neural Speech Syntheis 论文地址:https://arxiv.org/abs/2106.15561 上传时间:2021 年 1 月 全文翻译:论文学习:A Survey on Neural Speech Synthesis 阅读体会 比较全面介绍用深度学习实现语音合成的综述性论文。论文整体 63 页,其中正文 37 页,参考 TTS 相关论文 400 多篇。本文并不打算对论文逐句翻译,只列出重点,作为个人阅读笔记,同时加入笔者的一些注释。 摘要 近年来基于神经网络的深度学习算法大大提升了语音合成的质量,这篇文章集学术研究和工业应用于一体,是一篇综述性的文档,它包含语音合成的几个重要组成部分:文本分析、声学模型和声码器;涉及热门主题,比如:快速 TTS,使用更少资源训练等等;还总结了 TTS 相关资料(工具和数据),最后讨论了 TTS 未来的发展方向。 1. 介绍 TTS 主要指的是把文本转换成语音输出,它是一个由来已久的课题,涉及:语言学、声学、数据信号处理、机器学习等领域。这几年深度学习使 TTS 效果有了显著提升,这篇论文是 ...
MYSQL_数据库大太的解决方案
Created2022-01-09|2_Note0_Technic3_编程数据库
MYSQL 数据库大太的解决方案 #数据存储/MYSQL 面对问题 插入查询慢、且需要时效性比较强的情况 原因 MYSQL 容量上千万条以上就会很慢。 解决方法 分区 对应用透明,相对操作比较简单。 对主键有要求:所有主键里必须包含分区主键,如果又想用 id 查,又想用年份查就比较难。 查询会受一些影响:批量查时快不了多少,插入可以提速。 分库 比如不同年份可以放在不同主机上,以加快速度。 分表 一般都使用分表策略。 需要看按什么分,比如按用户 id 分,或者按年份分表。 按时间分:热表(当前一年数据)、冷表(往年数据),最后一个年份的冷表可能看需要看是否保存最新数据;需要确定冷热表是否重叠,如果重叠。 如按年份分表,注意按业务时间而不是编辑时间(这个时间可能变化) 迁移场景 需要定义迁移规则:比如每个月迁一次(新表、本年表、前一年表),对时间字段建索引 历史数据迁移:如果表巨大,则不使用查询,从第一条开始向其它表里分流;选改表,再改其上应用。 新表间迁移:假设每月迁一次,每月把这个月数据从热表里迁出来(同样是分流);也可以双写,即每次写入冷表和热表,定期删热表最后的数据。 补采数据 ...
论文阅读_语义嵌入
Created2022-01-08|2_Note0_Technic2_算法6_自然语言Embedding
论文题目:Making Sense of Word Embeddings 相关源码:https://github.com/uhh-lt/sensegram 论文地址:https://arxiv.org/abs/1708.03390 读后感 语义嵌入:从语料库和字典学习,或从已有词向量数据归纳学习 简介 论文是 2016 年发表于 ACL(Association for Computational Linguistics,自然语言处理顶会,一年召开一次,CCF 等级/JCR 分区:A 类) 的会议论文。 背景知识 论文介绍了一种简单有效的方法用于学习语义嵌入。文中方法既可以直接从语料库和字典学习,也可以根据已有的词向量数据通过自我网络聚类的方法归纳学习。它提升了下游应用的效果,与当时最好的模型效果类似。 词向量 预处理时将词映射成稠密向量代入模型,降低稀疏性 对比不同词的语义相似度,实现近义词的迁移 表征不同语义单位:词向量 ->词组向量 ->短语向量 通过词嵌入实现运算,比如:男 - 女=国王 - 王后,国王 - 男 + 女 ->王后,实现类比相关的逻辑推理功能,以 ...
论文阅读_中文命名实体识别 Lattice LSTM
Created2022-01-08|2_Note0_Technic2_算法6_自然语言特定功能模型
论文题目:Chinese NER Using Lattice LSTM 论文地址:https://arxiv.org/pdf/1805.02023.pdf 相关源码:https://github.com/jiesutd/LatticeLSTM 约 1.5K Star 中文翻译:中文实体抽取(NER)论文笔记 中文翻译 2:ChineseNER Using LatticeLSTM笔记 读后感 优化中文的命名实体识别,加入了对中文词的支持 介绍 这是一篇 2018 年发表于 ACL(自然语言处理顶会)的论文,文中提出了一种基于格子(Lattice)结构的 LSTM 模型,用于优化中文的命名实体识别。具体方法结合了字序列和词序列两种方式(考虑可能出现的各种分词情况)。相对于基于 " 字序列”的方法,模型能兼顾词间关系;相对于”词序列“的方法,模型不受分词错误的影响。门控单元让模型选择最为相关的字和词以实现实体识别。 近年来英文命名实体识别(NER)常用 LSTM-CRF 方法实现。中文的 NER 直觉上似乎应该是先做分词,再进行实体识别。然而由于跨界领域的分词问题难以解决,所以中文以字符为单 ...
6_Obsidian_日程管理工具
Created2022-01-06|2_Note0_Technic0_工具笔记工具Obsidian插件
#笔记/obsidian 简介 原来一直觉得对每个小时日程做记录实在太卷了,但是近来常常遇到的问题是:计划都没完成,时间就没了,所以决定记录一下看看每天都做了什么。 Obsidian 的 Day Planner 插件就实现了这一功能,且可以以图的形式显示当天日程。 优点 很直观的看到当前处于什么位置 明显看到时间流浙 哪项工作 delay 哪些工作安排冲突 尽管没完成计划,但也并没闲着 进一步优化时间表,更有掌控感 使用方法 安装三方插件 Day Planner Setting->Community plugins->Day Planner 这也是一款下载量非常大的插件 设置插件 Setting->Day Planner 建议在 Day Planner mode 中选 Command mode,如果使用 File mode 会建立一个文件夹专门存放 Day Planner 文件,如果使用 Command mode 则可通过命令面板在任意文件中插入 Day Planner 块 建议选中 Mermaid Gantt,可以在笔记中自动建立横版的进度图,形如: ...
用ssh方式连接mysql数据库
Created2022-01-05|2_Note0_Technic3_编程数据库
用 ssh 方式连接 mysql 数据库 原理 SSH 连接数据库的原理是先用 ssh 连接数据库所在服务器,然后作为该服务器上的应用程序访问本地数据库。 Navicat Python 安装工具 1$ pip install sshtunnel 建立连接 12345678import sshtunnelwith sshtunnel.SSHTunnelForwarder( ('192.168.1.216', 22), # ssh端口22 ssh_password='实际密码', ssh_username='实际用户名', remote_bind_address=('127.0.0.1', 3306)) as server: # mysql端口3306 ...... 此时数据库服务地址被映射到本地端口:127.0.0.1:serve.local_port,数据库连接方法和之前一样,不同的是将 ip 设置成本机 ip:127.0.0.1,端 ...
论文阅读_时序模型TDTS
Created2021-12-11|2_Note0_Technic2_算法9_时序
基本信息 论文题目:基于趋势特征表示的 shapelet 分类方法 (Shapelet classification method based on trend feature representation) 论文地址:http://www.joca.cn/EN/Y2017/V37/I8/2343 原理 在 Shaplet 被提出后的几年里,出现了很多算法来提高 Shapelet 效率和扩展其应用范围,《Shapelet classification method based on trend feature representation》简称 TDTS 提出了一种基于趋势的 top-K shapelet。 其核心方法有三个: 对分段后的子序列进行基于趋势的符号化处理 符号化的原理请见 SAX 论文,简单地说,它实现了连续到离散的转化,用简单的值表征一个序列,包含趋势的符号化方法用二元组<K,u>表示序列,其中 K 是斜率,u 是该序列的终点值。 它使用滑动窗口计算窗口内的斜率,当斜率变化大于某一阀值时(趋势改变时),则产生一个分段点 u 并继续滑动.所有分段完成 ...
1…474849…86
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
852
Tags
268
Categories
179
Follow Me
Announcement
This is my Blog
Recent Post
基金交易量预测比赛_5_背景知识22025-08-08
两阶段股票价格预测研究2025-08-08
TradingAgents项目源码解析2025-08-08
基金交易量预测比赛_1_我的方案2025-08-07
基金交易量预测比赛_3_反思2025-08-07
Categories
  • 0_IMO84
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听82
      • 01_自我建构32
        • 实修3
        • 思考与觉悟16
Tags
角色扮演 代码模型 社交 运动 社会文化 生物医学 历史 Linux 阅读哲学 数据存储/ES 数据存储/PGSQL 心理建设 反思 笔记/Obsidian 模型工具 股票预测 阅读/心理学 模型解释 自我构建 叙事治疗 关系维护 笔记工具 机器学习 人生哲学 大型语言模型 编程语言 Python/图形图像 效率 情感分析 机器学习/XGBoost 技巧 编程 读书 技术 GitHub Actions 移动开发 禅宗 深度学习/图形图像 驱动 知识库
Archives
  • August 202510
  • July 202540
  • June 202538
  • May 202529
  • April 202516
  • March 20258
  • February 20252
  • January 20256
Info
Article :
852
Total Count :
1188.5k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database