NLP_victor 个人主页

@IOT_victor

NLP_victor

2022-06-24 21:13:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习基础知识点②：决策树、随机森林、GBDT与xgboost

ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结1、决策树首先，决策树是一个有监督的分类模型，其本质是选择一个能带来最大信息增益的特征值进行树的分割，直到到达结束条件或者叶子结点纯度到达一定阈值。按照分割指标和分割方法，决策树的经典模型可以分为ID3、C4.5以及CART（1）ID3：以信息增益为准则来选择最优划...

#集成学习 #决策树 #随机森林

机器学习基础知识点⑤数据增强、类别不平衡

1、NLP数据增强技术https://zhuanlan.zhihu.com/p/151726605CV领域的标配，比如对图像的旋转、镜像、高斯白噪声等。（1）文本替代文本替代主要是针对在不改变句子含义的情况下，替换文本中的单词，比如，同义词替换、词嵌入替换等等。同义词替换：在文本中随机抽取一个单词，然后再同义词库里将其替换为同义词。比如，使用WordNet数据库，将「awesome」替换为「ama

#机器学习 #tensorflow #人工智能

搭建Python虚拟环境:source bin/activate

LInux搭建Python虚拟环境

#python

Python的datasketch库中的MinHashLSH

1、简介在工作中需要对海量数据进行相似性查找，即对微博全量用户进行关注相似度计算，计算得到每个用户关注相似度最高的TOP-N个用户，首先想到的是利用简单的协同过滤，先定义相似性度量（cos，Pearson，Jaccard），然后利用通过两两计算相似度，计算top-n进行筛选，这种方法的时间复杂度为O(n^2)（对于每个用户，都和其他任意一个用户进行了比较）。但是在实际应用中，对于亿级的用户...

NLP基础笔记5——词向量

一、什么是词向量词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。还有 Google 团队的 Word2Vec，值得一提的是，Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外，还有一些词向量...

#word2vec

github网址无法打开

问题描述浏览器访问github相关网址，均无法打开。打开cmd，ping github.com，请求超时，应该是本地DNS无法解析导致。解决方法打开C:\Windows\System32\drivers\etc\hosts在末尾追加一下内容，需要开启管理员权限修改192.30.255.112github.com git185.31.16.184 github....

#github

Google Colaboratory (Tesla T4 GPU)使用指南

入门配置和使用https://redstonewill.com/1493/如上我们看到 Colab 现在确实使用的是 Tesla T4 GPU，而且显存也达到了 16 GB，比以前 K80 12GB 的显存又要大了一圈。Google Colab使用经验汇总-知识本体论3 个相见恨晚的 Google Colaboratory 奇技淫巧-AI有道...

#GPU

背包问题系列

1、背包问题https://www.jiuzhang.com/solutions/backpack/#tag-lang-python在n个物品中挑选若干物品装入背包，最多能装多满？假设背包的大小为m，每个物品的大小为A[i]输入: [3,4,8,5], backpack size=10, 输出: 9输入: [2,3,5,7], backpack size=12, 输出: 12用dp[i][j]表示

#动态规划

42：连续子数组的最大和（剑指offer第2版Python）

1、题目描述HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢？例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)。给一个数组，返回它的最大...

#动态规划

语音识别笔记

1、语音基础2、模型结构2.1 卷积神经网络1 时频域上的卷积相比于二维的图像输入，语音信号往往是一维时序信号。然而，直接使用一维时序信号建模很难获得不错的识别结果。因此，与前馈神经网络的做法一致，在网络的输入中也采用经过处理的帧级别特征，比如MFCC特征或者FBANK特征。如果我们利用相邻的语音帧信息，整合成二维的语谱图作为输入，则此时的输入输出与图像识别任务很像，就可以利用二维卷积操作对输入的

#语音识别

共 11 条

请选择