logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习基础知识点②:决策树、随机森林、GBDT与xgboost

ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结1、决策树首先,决策树是一个有监督的分类模型,其本质是选择一个能带来最大信息增益的特征值进行树的分割,直到到达结束条件或者叶子结点纯度到达一定阈值。按照分割指标和分割方法,决策树的经典模型可以分为ID3、C4.5以及CART(1)ID3:以信息增益为准则来选择最优划...

#集成学习#决策树#随机森林
机器学习基础知识点⑤数据增强、类别不平衡

1、NLP数据增强技术https://zhuanlan.zhihu.com/p/151726605CV领域的标配,比如对图像的旋转、镜像、高斯白噪声等。(1)文本替代文本替代主要是针对在不改变句子含义的情况下,替换文本中的单词,比如,同义词替换、词嵌入替换等等。同义词替换:在文本中随机抽取一个单词,然后再同义词库里将其替换为同义词。比如,使用WordNet数据库,将「awesome」替换为「ama

#机器学习#tensorflow#人工智能
Python的datasketch库中的MinHashLSH

1、简介在工作中需要对海量数据进行相似性查找,即对微博全量用户进行关注相似度计算,计算得到每个用户关注相似度最高的TOP-N个用户,首先想到的是利用简单的协同过滤,先定义相似性度量(cos,Pearson,Jaccard),然后利用通过两两计算相似度,计算top-n进行筛选,这种方法的时间复杂度为O(n^2)(对于每个用户,都和其他任意一个用户进行了比较)。但是在实际应用中,对于亿级的用户...

NLP基础笔记5——词向量

一、什么是词向量词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量...

#word2vec
github网址无法打开

问题描述浏览器访问github相关网址,均无法打开。打开cmd,ping github.com,请求超时,应该是本地DNS无法解析导致。解决方法打开C:\Windows\System32\drivers\etc\hosts在末尾追加一下内容,需要开启管理员权限修改192.30.255.112github.com git185.31.16.184 github....

#github
Google Colaboratory (Tesla T4 GPU)使用指南

入门配置和使用https://redstonewill.com/1493/如上我们看到 Colab 现在确实使用的是 Tesla T4 GPU,而且显存也达到了 16 GB,比以前 K80 12GB 的显存又要大了一圈。Google Colab使用经验汇总-知识本体论3 个相见恨晚的 Google Colaboratory 奇技淫巧-AI有道...

#GPU
背包问题系列

1、背包问题https://www.jiuzhang.com/solutions/backpack/#tag-lang-python在n个物品中挑选若干物品装入背包,最多能装多满?假设背包的大小为m,每个物品的大小为A[i]输入: [3,4,8,5], backpack size=10, 输出: 9输入: [2,3,5,7], backpack size=12, 输出: 12用dp[i][j]表示

#动态规划
42:连续子数组的最大和(剑指offer第2版Python)

1、题目描述HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢?例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)。给一个数组,返回它的最大...

#动态规划
语音识别笔记

1、语音基础2、模型结构2.1 卷积神经网络1 时频域上的卷积相比于二维的图像输入,语音信号往往是一维时序信号。然而,直接使用一维时序信号建模很难获得不错的识别结果。因此,与前馈神经网络的做法一致,在网络的输入中也采用经过处理的帧级别特征,比如MFCC特征或者FBANK特征。如果我们利用相邻的语音帧信息,整合成二维的语谱图作为输入,则此时的输入输出与图像识别任务很像,就可以利用二维卷积操作对输入的

#语音识别
    共 11 条
  • 1
  • 2
  • 请选择
OSZAR »