
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结1、决策树首先,决策树是一个有监督的分类模型,其本质是选择一个能带来最大信息增益的特征值进行树的分割,直到到达结束条件或者叶子结点纯度到达一定阈值。按照分割指标和分割方法,决策树的经典模型可以分为ID3、C4.5以及CART(1)ID3:以信息增益为准则来选择最优划...
1、NLP数据增强技术https://zhuanlan.zhihu.com/p/151726605CV领域的标配,比如对图像的旋转、镜像、高斯白噪声等。(1)文本替代文本替代主要是针对在不改变句子含义的情况下,替换文本中的单词,比如,同义词替换、词嵌入替换等等。同义词替换:在文本中随机抽取一个单词,然后再同义词库里将其替换为同义词。比如,使用WordNet数据库,将「awesome」替换为「ama
LInux搭建Python虚拟环境

1、简介在工作中需要对海量数据进行相似性查找,即对微博全量用户进行关注相似度计算,计算得到每个用户关注相似度最高的TOP-N个用户,首先想到的是利用简单的协同过滤,先定义相似性度量(cos,Pearson,Jaccard),然后利用通过两两计算相似度,计算top-n进行筛选,这种方法的时间复杂度为O(n^2)(对于每个用户,都和其他任意一个用户进行了比较)。但是在实际应用中,对于亿级的用户...
一、什么是词向量词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量...
问题描述浏览器访问github相关网址,均无法打开。打开cmd,ping github.com,请求超时,应该是本地DNS无法解析导致。解决方法打开C:\Windows\System32\drivers\etc\hosts在末尾追加一下内容,需要开启管理员权限修改192.30.255.112github.com git185.31.16.184 github....
入门配置和使用https://redstonewill.com/1493/如上我们看到 Colab 现在确实使用的是 Tesla T4 GPU,而且显存也达到了 16 GB,比以前 K80 12GB 的显存又要大了一圈。Google Colab使用经验汇总-知识本体论3 个相见恨晚的 Google Colaboratory 奇技淫巧-AI有道...
1、背包问题https://www.jiuzhang.com/solutions/backpack/#tag-lang-python在n个物品中挑选若干物品装入背包,最多能装多满?假设背包的大小为m,每个物品的大小为A[i]输入: [3,4,8,5], backpack size=10, 输出: 9输入: [2,3,5,7], backpack size=12, 输出: 12用dp[i][j]表示
1、题目描述HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢?例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)。给一个数组,返回它的最大...