斯坦福大学ML(7)——正则化(Regularization)

7-1-The Problem of Overfitting

(现在为止,你已经见识了几种不同的学习方法包括线性回归和逻辑回归)By Now,you've seen a couple different learning algorithm,linear regression and logistic regression.(它们能够有效解决许多问题,但是当将它们应用到某些特定的机器学习应用时,它们可能会遇到过度拟合,可能会导致它们效果很差)They work well for many problems,but when you apply them to certain machine learning applications,they can run into a problem called overfitting that can cause them to perform very poorly.(在这个视频中,我将为你解释什么是过度拟合问题,在此之后接下来的几个视频中,我们将讨论一种称为正则化的技术,它可以改善或者减少过度拟合问题,以使机器学习算法更好实现)What I need to do in this video is explain to you what is this overfitting problem,and in the next few videos after this,we'll talk about a technique called regularization,that allow us to ameliorate to reduce this overfitting problem and get this learning algorithms to maybe work much better.(那么什么是过度拟合呢?)So what is overfitting?

(让我们继续使用之前的那个线性回归预测房价的例子)Let's keep using our running an example of predicting housing prices with linear regression.(在后面的课程,我们会讲到调试和诊断诊断出导致学习算法故障的东西)In later course,we'll talk about debugging and diagnosing things that can go wrong with learning algorithm.(但是,现在让我们谈谈过拟合问题,我们该怎样解决)And Now,lets talk about the problem of overfitting,what we do to address it?(为了解决过度拟合,这里有两种方法解决问题)In order to address overfitting,there are two main options for things that we can do.(一个方法是尽量减少选取变量的数量,我们可以人工检查变量的条目)The first option is,to try to reduce the number of features.(我们可以做的一件事是人工筛选特征)One thing we can do is manually look through the list of features,and,use that to try to decide which are the more important features.(在后面的课程,我们会提到模型选择算法)In later course,we'll talk about model selection algorithms.(减少特征的做法是非常有效的)Reduce the numbers of features can work well,and reduce overfitting.(第二个方法,就是我们接下来视频的正则化)The second option,which we'll talk about next few videos,is regularization.(正则化中我们将保留,但是将减少指数级或参数数值的大小)Here,we're going to keep all the features,but we're going to reduce the magnitude or the value of the parameters theta J.


7-2-Cost Function

这个视频将告诉你正则化是如何进行的,而且写出我们使用正则化时,需要使用的代价函数)Write the cost function that we'll use,when we were using regularization.(让我们考虑下面的假设,我们想要加上惩罚项,从而使theta3和theta4足够小)Consider the following,suppose we were to penalize,make the parameters theta3 and theta4 really small.(这是我们的优化目标,我们要尽量减少代价函数的均方误差)Here's what I mean,here is our optimization problem,where we minimize our usual squared error cause function.(对于这个函数,我们对它进行一些,添加一些项加上1000乘以theta3加上1000乘以theta4的平方)Let's say I take this objective and modify it and add to it,plus 1000 theta3 squared,plus 1000 theta 4 squared.(1000只是我随便写的某个较大的数字而已)(使得theta3和theta4接近于0)theta3 and theta4 that they may be very close to 0.(在这个例子中,我们看到了惩罚这两个非常大的参数值的效果)In this particular example,we looked at the effect two of the parameter values being large.(思路就是如果我们有更小的参数值)The idea is that,if we have small values for the parameter.



7-3-Regularized Linear Regression

(对于线性回归的求解,我们之前推导了两种学习算法,一种基于梯度下降,一种基于正规方程)For linear regression,we had prevIoUs worked out two learning algorithms,one based on gradient descent and one based on the normal equation.(在本次视频,我们将推广这两个算法到正则化线性回归中)In this video,we'll learn those two algorithms and generalize them to the case of regularized linear regression.(所以,这样做其实没有什么变化对吧?这种写法从theta1,theta 2,theta 3剥离出theta0。)This is just writing the update for theta zero separately from the update from theta 1,theta 3,up to theta n.

梯度下降


常规方程



7-4-Regularized Logistic Regression

(针对逻辑回归问题,我们在之前的课程中已经学习过两种优化算法。)For logistic regression,we prevIoUsly talked about two types of optimization algorithms.(在这节课,我们将展示如何改进梯度下降法和高级优化算法)In this video,We'll show how you can adapt both of those techniques,both gradient descent and the more advanced optimization techiques (使其适应正则化的逻辑回归)In order to have them to work for regularized logistic regression.(所以,接下来我们注意到逻辑回归问题有可能出现过拟合的现象,类似这样的高阶多项式)We saw earlier that logistic regression can also be prone to overfitting if you fit it with a very,sort of very high order polynomial features like this,(g是S型函数)Where G is the sigmoid function.(使用正则化,变得更加圆滑,所以使用正则化方法避免过拟合)help take care of the overfitting problem.(是如何具体实现的呢?)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


正则替换html代码中img标签的src值在开发富文本信息在移动端展示的项目中,难免会遇到后台返回的标签文本信息中img标签src属性按照相对或者绝对路径返回的形式,类似:<img src="qinhancity/v1.0.0/ima
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描,过滤,统计汇总等工作,数据可以来自标准输入也可以是管道或文件。当读到第一行时,匹配条件,然后执行指定动作,在接着读取第二行数据处理,不会默认输出。如果没有定义匹配条件,则是默认匹配所有数据行,awk隐含循环,条件匹配多少次,动作就会执行多少次。逐行读取文本,默认以空格或tab键为分割符进行分割,将分割所得的各个字段,保存到内建变量中,并按模式或或条件执行编辑命令。与sed工作原理相比:s
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及他们的组合组成了一个规则,然后检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。我们刚才在学习正则表达式的时候,我们表示数字,字母下划线的时候是用w表示的,为什么我们在书写的时候用的是w?我们可以发现我们分割空格的话,并没有达到我们预期的效果,这里我们可以使用正则表达式的方式进行分割。我们可以发现,我们和上面得到的结果不一致,既然出错了,肯定是我们的使用方式不对。看到这里我们就能感受到正则表达式的作用了,正则表达式是字符串处理的有力工具。
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发布,同步更新到和。欢迎大家投稿,,推荐或者自荐开源项目/资源/工具/文章~
本文涉及Shell函数,Shell中的echo、printf、test命令等。
常用正则表达,包括: 密码、 手机号、 身份证、 邮箱、 中文、 车牌号、 微信号、 日期 YYYY-MM-DD hh:mm:ss、 日期 YYY-MM-DD、 十六进制颜色、 邮政编号、 用户名、 QQ号
一、python【re】的用法1、re.match函数·单一匹配-推荐指数【★★】2、re.search函数·单一匹配-推荐指数【★★★★★】3、re.findall函数·多项匹配-推荐指数【★★★★★】4、re.finditer函数·多项匹配-推荐指数【★★★★】5、re.sub函数·替换函数-推荐指数【★★★★】二、正则表达式示例·总有一款适合你1、正则表达式匹配HTML指定id/class的标签2、正则表达式匹配HTML中所有a标签中的各类属性值3、获取标签的文本值
1.借助词法分析工具Flex或Lex完成(参考网络资源)2.输入:高级语言源代码(如helloworld.c)3.输出:以二元组表示的单词符号序列。通过设计、编制、调试一个具体的词法分析程序,加深对词法分析原理的理解,并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。由于各种不同的高级程序语言中单词总体结构大致相同,基本上都可用一组正则表达式描述,所以构造这样的自动生成系统:只要给出某高级语言各类单词词法结构的一组正则表达式以及识别各类单词时词法分析程序应采取的语义动作,该系统
正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。例如:我们在写登录注册功能的时候使用的表单验证(对用户名、密码进行一些字符或长度进行限制) ===> (`匹配`) - 正则表达式还常用于过滤掉页面内容的一些敏感词汇。例如:我们平常在打游戏时候的口吐芬芳被换成了***:full_moon_with_face: ===> (`替换`) - 正则表达式从字符串中获取我们想要的特定部分。例如:我们在逛淘宝的时候在搜索框中搜索内容,会弹出很多与搜索相关的提示内容 ===> (`提取`) etc..
通过上面几个简单的示例,可以了解到常见的基础正则表达式的元字符主要包括以下几个^ 匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配”^”字符本身,请使用"^"$ 匹配输入字符串的结尾位置。如果设置了RegExp对象的 Multiline属性,则"$”也匹配'n'或'r’,。要匹配”$"字符本身,请使用”$". 匹配除"rn"之外的任何单个字符 反斜杠,又叫转义字符,去除其后紧跟的元字符或通配符的特殊意义* 匹配前面的子表达式零次或多次。...
给出补充后描述 C 语言子集单词符号的正则文法,设计并实现其词法分析程序。
正则表达式(Regular Expression),又称规则表达式,它不是某个编程语言所特有的,是计算机科学的一个概念,通常被用来检索和替换符合某些规则的文本。
Python Re 正则表达式 数据匹配提取 基本使用
正则表达式:是用来描述字符串内容格式,使用它通常用于匹配一个字符串的内容是否符合格式要求
python的学习还是要多以练习为主,想要练习python的同学,推荐可以去牛客网看看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费!