换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

机器学习方法有哪些docx.docx

资源ID：2554093 资源大小：24.29KB 全文页数：20页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

机器学习方法有哪些docx.docx

1、机器学习方法有哪些docx机器学习方法有哪些数学基础有无数激情满满大步向前，誓要在机器学习领域有一番作为的同学，在看到公式的一刻突然就觉得自己狗带了。是啊，机器学习之所以相对于其他开发工作，更有门槛的根本原因就是数学。每一个算法，要在训练集上最大程度拟合同时又保证泛化能力，需要不断分析结果和数据，调优参数，这需要我们对数据分布和模型底层的数学原理有一定的理解。所幸的是如果只是想合理应用机器学习，而不是做相关方向高精尖的 research ，需要的数学知识啃一啃还是基本能理解下来的。至于更高深的部分，恩，博主非常愿意承认自己是数学渣。基本所有常见机器学习算法需要的数学基础，都集中在微积分、线性代

2、数和概率与统计当中。下面我们先过一过知识重点，文章的后部分会介绍一些帮助学习和巩固这些知识的资料。微积分微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的核心。比如算法中运用到梯度下降法、牛顿法等。如果对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。凸优化和条件最优化的相关知识在算法中的应用随处可见，如果能有系统的学习将使得你对算法的认识达到一个新高度。线性代数大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员 GG们习惯的多层 for 循环通常就行不通了，而大多数的循环操作可转化成矩阵之间

3、的乘法运算，这就和线性代数有莫大的关系了向量的内积运算更是随处可见。矩阵乘法与分解在机器学习的主成分分析 (PCA)和奇异值分解(SVD)等部分呈现刷屏状地出现。概率与统计从广义来说，机器学习在做的很多事情，和统计层面数据分析和发掘隐藏的模式，是非常类似的。极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯 (Na?veBayes) 、语言模型 (N-gram) 、隐马尔科夫 (HMM)、隐变量混合概率模型是他们的高级形态。常见分布如高斯分布是混合高斯模型 (GMM)等的基础。典型算法绝大多数问题用典型机器学习的算法都能解决，粗略地列举一下这些方法如下：处理分类问题的常用算法包括：逻辑回归 ( 工

4、业界最常用 ) ，支持向量机，随机森林，朴素贝叶斯 (NLP 中常用 ) ，深度神经网络 ( 视频、图片、语音等多媒体数据中使用 ) 。处理回归问题的常用算法包括：线性回归，普通最小二乘回归(OrdinaryLeastSquaresRegression) ，逐步回归(StepwiseRegression) ，多元自适应回归样条(MultivariateAdaptiveRegressionSplines)处理聚类问题的常用算法包括： K均值 (K-means) ，基于密度聚类， LDA等等。降维的常用算法包括：主成分分析 (PCA), 奇异值分解 (SVD)等。模型融合 (modelensemb

5、le) 和提升 (boosting)bagging ，adaboost ，GBDT，GBRT的算法包括：其他很重要的算法包括：EM算法等等。我们多插一句，机器学习里所说的“算法”与程序员所说的“数据结构与算法分析”里的“算法”略有区别。前者更关注结果数据的召回率、精确度、准确性等方面，后者更关注执行过程的时间复杂度、空间复杂度等方面。当然，实际机器学习问题中，对效率和资源占用的考量是不可或缺的。编程语言、工具和环境看了无数的理论与知识，总归要落到实际动手实现和解决问题上。而没有工具所有的材料和框架、逻辑、思路都给你，也寸步难行。因此我们还是得需要合适的编程语言、工具和环境帮助自己在数据集上应用

6、机器学习算法，或者实现自己的想法。对初学者而言， Python 和 R语言是很好的入门语言，很容易上手，同时又活跃的社区支持，丰富的工具包帮助我们完成想法。相对而言，似乎计算机相关的同学用 Python 多一些，而数学统计出身的同学更喜欢 R 一些。我们对编程语言、工具和环境稍加介绍：pythonpython 有着全品类的数据科学工具，从数据获取、数据清洗到整合各种算法都做得非常全面。网页爬虫 :scrapy数据挖掘 :pandas：模拟 R，进行数据浏览与预处理。numpy：数组运算。scipy ：高效的科学计算。matplotlib ：非常方便的数据可视化工具。机器学习 :scikit-l

7、earn ：远近闻名的机器学习 package。未必是最高效的，但是接口真心封装得好，几乎所有的机器学习算法输入输出部分格式都一致。而它的支持文档甚至可以直接当做教程来学习，非常用心。对于不是非常高纬度、高量级的数据， scikit-learn 胜任得非常好 ( 有兴趣可以看看 sklearn 的源码，也很有意思 ) 。libsvm ：高效率的 svm模型实现 ( 了解一下很有好处， libsvm 的系数数据输入格式，在各处都非常常见 )keras/TensorFlow ：对深度学习感兴趣的同学，也能很方便地搭建自己的神经网络了。自然语言处理 :nltk ：自然语言处理的相关功能做得非常全面，

8、有典型语料库，而且上手也非常容易。交互式环境：R最大的优势是开源社区，聚集了非常多功能强大可直接使用的包，绝大多数的机器学习算法在 R中都有完善的包可直接使用，同时文档也非常齐全。常见的 package 包括：RGtk2,pmml,colorspace,ada,amap,arules,biclust,cba,descr,doB y,e1071,ellipse 等等。另外，值得一提的是 R的可视化效果做得非常不错，而这对于机器学习是非常有帮助的。其他语言相应资深程序员 GG的要求，再补充一下 java 和 C+相关机器学习package。Java 系列WEKAMachineLearningWor

9、kbench相当于 java 中的 scikit-learn其他的工具如 MassiveOnlineAnalysis(MOA) 、MEKA、Mallet 等也非常有名。更多详细的应用请参考这篇文章 25 个 Java 机器学习工具 &库C+系列mlpack，高效同时可扩充性非常好的机器学习库。Shark ：文档齐全的老牌 C+机器学习库。大数据相关Hadoop：基本上是工业界的标配了。一般用来做特征清洗、特征处理的相关工作。spark ：提供了 MLlib 这样的大数据机器学习平台，实现了很多常用算法。但可靠性、稳定性上有待提高。操作系统mac和 linux 会方便一些，而 windows 在

10、开发中略显力不从心。所谓方便，主要是指的 mac和 linux 在下载安装软件、配置环境更快捷。基本工作流程以上我们基本具备了机器学习的必要条件，剩下的就是怎么运用它们去做一个完整的机器学习项目。其工作流程如下 :抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。获取数据数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。数据要有代表性，否则必然会过拟合。而且对于分类问题，数据

11、偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。特征预处理与特征选择良好的数据要能够提取出良好的特征才能真正发挥效力。特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。筛选出显著特征、摒弃非显著特征

12、，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。训练模型与调优直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的 ( 超) 参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。模型诊断如何确定模型调优的方向与思路呢 ?这就需要对模型进行诊断的技术。过拟合、欠拟合判断是模型诊断中至关重要的一步。

13、常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。差分析也是机器学至关重要的步。通察差本，全面分析差生差的原因 : 是参数的是算法的，是特征的是数据本身的断后的模型需要行，后的新模型需要重新行断，是一个反复迭代不断逼近的程，需要不断地，而达到最状。模型融合一般来，模型融合后都能使得效果有一定提升。而且效果很好。工程上，主要提升算法准确度的方法是分在模型的前端 ( 特征清洗和理，不同的采模式 ) 与后端 ( 模型融合 ) 上下功夫。因他比

14、准可复制，效果比定。而直接参的工作不会很多，竟大量数据起来太慢了，而且效果以保。上运行一部分内容主要跟工程的相关性比大。工程上是果向，模型在上运行的效果直接决定模型的成。不包括其准确程度、差等情况，包括其运行的速度 ( 复度 ) 、源消耗程度 ( 空复度 ) 、定性是否可接受。些工作流程主要是工程践上出的一些。并不是每个目都包含完整的一个流程。里的部分只是一个指性的明，只有大家自己多践，多累目，才会有自己更深刻的。关于累目初学机器学可能有一个区，就是一上来就陷入到各种高大上算法的追逐当中。不就我能不能用深度学

15、去解决个啊?我是不是要用 boosting 算法做一些模型融合啊 ?我一直持有一个点，脱离和数据的算法是毫无意的。上按我的学，从一个数据源开始，即使是用最，已用多年的机器学算法，先完整地走完机器学的整个工作流程，不断各种算法深挖些数据的价，在运用程中把数据、特征和算法搞透，真正积累出项目经验才是最快、最靠谱的学习路径。那如何获取数据和项目呢 ?一个捷径就是积极参加国内外各种数据挖掘竞赛，数据直接下载下来，按照竞赛的要求去不断优化，积累经验。国外的 Kaggle 和国内的 DataCastle 以及阿里天池比赛都是很好的平台，你可以在上面获取真实的数据和数据科

16、学家们一起学习和进行竞赛，尝试使用已经学过的所有知识来完成这个比赛本身也是一件很有乐趣的事情。和其他数据科学家的讨论能开阔视野，对机器学习算法有更深层次的认识。有意思的是，有些平台，比如阿里天池比赛，甚至给出了从数据处理到模型训练到模型评估、可视化到模型融合增强的全部组件，你要做的事情只是参与比赛，获取数据，然后使用这些组件去实现自己的 idea 即可。具体内容可以参见阿里云机器学习文档。自主学习能力多几句嘴，这部分内容和机器学习本身没有关系，但是我们觉得这方面的能力对于任何一种新知识和技能的学习来说都是至关重要的。自主学习能力提升后，意味着你能够跟据自己的情况，找到最合适的学习资料和最快学习

17、成长路径。信息检索过滤与整合能力对于初学者，绝大部分需要的知识通过网络就可以找到了。google 搜索引擎技巧组合替换搜索关键词、站内搜索、学术文献搜索、 PDF搜索等都是必备的。一个比较好的习惯是找到信息的原始出处，如个人站、公众号、博客、专业网站、书籍等等。这样就能够找到系统化、不失真的高质量信息。XX搜到的技术类信息不够好，建议只作为补充搜索来用。各种搜索引擎都可以交叉着使用效果更好。学会去常见的高质量信息源中搜索东西 :stackoverflow( 程序相关) 、quora( 高质量回答 ) 、wikipedia( 系统化知识，比某某百科不知道好太多 ) 、知乎 ( 中文、有料 ) 、

18、网盘搜索 ( 免费资源一大把 ) 等。将搜集到的网页放到分类齐全的云端收藏夹里，并经常整理。这样无论在公司还是在家里，在电脑前还是在手机上，都能够找到自己喜欢的东西。搜集到的文件、代码、电子书等等也放到云端网盘里，并经常整理。提炼与总结能力经常作笔记，并总结自己学到的知识是成长的不二法门。其实主要的困难是懒，但是坚持之后总能发现知识的共性，就能少记一些东西，掌握得更多。笔记建议放到云端笔记里，印象笔记、为知笔记都还不错。这样在坐地铁、排队等零碎的时间都能看到笔记并继续思考。提问与求助能力机器学习的相关 QQ群、论坛、社区一大堆。总有人知道你问题的答案。但是大多数同学都很忙，没法像家庭教师那样手

19、把手告诉你怎么做。为了让回答者最快明白你的问题，最好该学会正确的问问题的方式: 陈述清楚你的业务场景和业务需求是什么，有什么已知条件，在哪个具体的节点上遇到困难了，并做过哪些努力。别人帮助你的可能性与你提问题的具体程度和重要性呈指数相关。分享的习惯我们深信：“证明自己真的透彻理解一个知识，最好的方法，是给一个想了解这个内容的人，讲清楚这个内容。”分享能够最充分地提升自己的学习水平。这也是我们坚持长期分享最重要的原因。分享还有一个副产品，就是自己在求助的时候能够获得更多的帮助机会，这也非常重要。并非所有的问题都适合用机器学习解决 ( 很多逻辑清晰的问题用规则能很高效和准确地处理 ) ，也没有一个

20、机器学习算法可以通用于所有问题。咱们先来了解了解，机器学习，到底关心和解决什么样的问题。从功能的角度分类，机器学习在一定量级的数据上，可以解决下列问题：1.分类问题根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。比如：垃圾邮件识别 ( 结果类别： 1、垃圾邮件 2、正常邮件 )文本情感褒贬分析 ( 结果类别： 1、褒 2、贬 )图像内容识别识别 ( 结果类别： 1、喵星人 2、汪星人 3、人类 4、草泥马 5、都不是 ) 。2.回归问题根据数据样本上抽取出的特征，预测一个连续值的结果。比如：星爷美人鱼票房大帝都 2 个月后的房价隔壁熊孩子一天来你家几次，宠幸你多少玩具3.聚类问题根

21、据数据样本上抽取出的特征，让样本抱抱团 ( 相近 / 相关的样本在一团内 ) 。比如：google 的新闻分类用户群体划分我们再把上述常见问题划到机器学习最典型的 2 个分类上。分类与回归问题需要用已知结果的数据做训练，属于“监督学习”聚类的问题不需要已知标签，属于“非监督学习”。如果在 IT 行业 ( 尤其是互联网 ) 里溜达一圈，你会发现机器学习在以下热点问题中有广泛应用：1.计算机视觉典型的应用包括：人脸识别、车牌识别、扫描文字识别、图片内容识别、图片搜索等等。2.自然语言处理典型的应用包括：搜索引擎智能匹配、文本内容理解、文本情绪判断，语音识别、输入法、机器翻译等等。3.社会网络分析典

22、型的应用包括：用户画像、网络关联分析、欺诈作弊发现、热点发现等等。文章的最后部分，我们继续放送干货。其实机器学习的优质资源非常多。博主也是翻遍浏览器收藏夹，也问同事取了取经，整合了一部分资源罗列如下：入门资源微积分相关Calculus:SingleVariableMultivariableCalculus线性代数LinearAlgebra概率统计IntroductiontoStatistics:DescriptiveStatisticsProbabilisticSystemsAnalysisandAppliedProbability编程语言ProgrammingforEverybody:Pyt

23、honDataCamp:LearnRwithRtutorialsandcodingchallenges:R机器学习方法StatisticalLearning(R)机器学习基石机器学习技术：林轩田老师的课相对更有深度一些，把作业做完会对提升对机器学习的认识。自然语言处理 : 斯坦福大学课程日常阅读的资源爱可可 - 爱生活的微博机器学习日报的邮件订阅等。进阶资源有源代码的教程scikit-learn 中各个算法的例子机器学习实战有中文版，并附有 python 源代码。TheElementsofStatisticalLearning( 豆瓣 ) 这本书有对应的中文版：统计学习基础 ( 豆瓣 ) 。书

24、中配有 R包。可以参照着代码学习算法。网盘中有中文版。NaturalLanguageProcessingwithPython( 豆瓣 ) NLP经典，其实主要是讲 python 的 NLTK这个包。网盘中有中文版。NeuralNetworksandDeepLearning MichaelNielsen 的神经网络教材，浅显易懂。国内有部分翻译，不全，建议直接看原版。图书与教材数学之美：入门读起来很不错。统计学习方法 ( 豆瓣 ) ：李航经典教材。PatternRecognitionAndMachineLearning( 豆瓣 ) ：经典中教材。统计自然语言处理自然语言处理经典教材Appliedpredictivemodeling ：英文版，注重工程实践的机器学习教材UFLDL教程：神经网络经典教材deeplearningbook : 深度学习经典教材。工具书SciPyandNumPy(豆瓣 ) PythonforDataAnalysis( 豆瓣 ) 作者是 Pandas 这个包的作者其他网络资料机器学习 (MachineLearning) 与深度学习 (DeepLearning) 资料汇总: 作者太给力，量大干货多，有兴趣的同学可以看看，博主至今只看了一小部分。

注意事项

本文（机器学习方法有哪些docx.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。