文章吧-经典好文章在线阅读:深入浅出统计学的读后感10篇

当前的位置:文章吧 > 经典文章 > 读后感 >

深入浅出统计学的读后感10篇

2022-05-16 12:45:21 来源:文章吧 阅读:载入中…

深入浅出统计学的读后感10篇

  《深入浅出统计学》是一本由Dawn Griffiths著作,电子工业出版社出版的平装图书,本书定价:89.00元,页数:677,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。

  《深入浅出统计学》读后感(一):通俗易懂,适合非统计学人士

  优点:

  (1)此书比较通俗易懂,适合非专业人士的统计学入门;

  (2)书中的很多案例和习题比较好,能从简单的角度阐述复杂的概率统计的理论知识;

  (3)本书比较内容相对连贯,读下去一气呵成

  缺点:

  (1)有少许印刷错误

  《深入浅出统计学》读后感(二):期望,均值,方差~好吧我撕开了读的

  吞不太认同这种毁书的阅读方式,可这个厚度真不合适地铁,撕开后还是很有成果的,新问题是如何装订回去?

  正题:均值是发生了的期望的话,方差计算的一致性就可以解释了,现在再开始几何分布的期望速算方式就好理解点儿了,这次是要feel几何分布的方式不是推理

  《深入浅出统计学》读后感(三):苏格拉底助产术之统计入门

  这是一本非常适合入门的统计书:

  1.内容轻重得当,可高效窥见统计学全貌:

  可视化;

  度量集中与分散(均值、距、差);

  概率计算、描述(四类分布)与预测(期望、方差);

  用样本(抽取样本)预估总体(抽样分布、点估计量、置信区间)、以及进行假设检验(拒绝域);

  多变量之间的独立性(x分布)、相关性、线性回归、非线性回归。

  2.叙事方式采用苏格拉底助产术,引导读者思考得出结论,学习效果好。

  TW,head first 系列的叙事风格非常值得学习,尤其在这轮内容消费的浪潮下。

  《深入浅出统计学》读后感(四):有趣且清晰的入门书目

  本科时上过统计和测量的课,还有spss,stata这些课程,考研时专业课里也有教育统计,但我觉得到看这本书之前都没有学明白统计的一些基本概念。之前的学习方式都是从干巴巴的概念入手,加以枯燥的题目训练,本科的时候不知道学这些有什么用,后来也是想起来头就痛。

  这本书非常适合像我这样文科背景数学小白的学生来作为入门的自学教材,相见恨晚啊。书看起来很厚,专心读的话很快就可以读完。我重点看的是后半部分,跟国内的统计教材一个很大的不同是排版比较愉快友好,虽然人像的插图有点突兀== 另外很重要是基本都是以情景例子引入,然后提问,这才符合人类的学习规律好嘛,要是大学老师也这样教我早该学会了啊== 然后还会有问题的系统的思路和解法,最后还会有小结。不过觉得还是自备笔记本边看边总结好。

  不足的地方觉得主要是内容还是比较浅的,不过对于基础又重要的概念理解和入门应当是足够了的。要去继续发现好教材啦~

  《深入浅出统计学》读后感(五):深入浅出统计学

  样章试读请到下面的链接下载:

  若下载遇到问题,请邮件联系:lispython@gmail.com。谢谢!

  《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区 间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP 考试范围。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。

  《深入浅出统计学》读后感(六):非常适合入门

  前面有一位豆友说这本书非常不适合入门,从我个人感觉,还是一本比较漂亮的入门书。在数据分析那本书的书评里面,我提到两点,一个是简单易懂,一个是系统全面。至少第一点是比较符合的,第二点也差强人意吧。

  这本书的前半部分,一直到第7章吧,对于学过概率的人来说,基本上意义不大。不过对于一些概念,有了重新和深入的理解,比如均值和平均数的差异,贝叶斯方法用条件概率树来解释确实一目了然,容易理解。

  真正收获比较大的是第二部分,虽然里面提到的各种分布:几何、二项、泊松、正态,以及抽样统计、置信区间,假设检验等各个概念前几天看别的统计学书的时候也看过,也大概知道怎么算(虽然基本都用SPSS算的),但是个人通过这本书里面的动动脑、动动笔里面的内容一路根着做下来,对于统计这个事情本身有一个比较全面系统的理解。

  书的主要内容,目录体现得很明显了。我个人理解的统计这个事情主要有以下几点:

  1 我们对于世界和事物是难以看到本质的。(透过现象看到本质只是一种美好的愿望)

  2 在信息无法全面掌握的情况下,我们可以根据获得的部分数据来猜测事情背后的原因。

  3 一般来说,对于大量的总体数据,可能遵守二项、泊松、正态等分布,在遵守这些分布的情况下,我们可以计算一些概率或者事情的可能。

  4 那么对于猜测的规律是不是靠谱,或者我们作出的结论是否可行,可以采用假设检验来一定程度上进行检验。

  5 除了单变量的以外,我们还可以关注多个数据间的关系(线性回归)。

  6 非线性关系以及更多(附录)。

  这本书最不如深入浅出数据分析的地方在于,那本书把故事写了悬疑故事,这本书把故事讲成了数字游戏。没有剧烈的剧情冲突,没有一波三折的故事情节,用什么来吸引观众呢?(好像这里不是讨论写小说:)

  《深入浅出统计学》读后感(七):钱,我来啦!

  这老话说的好啊,“女怕嫁错郎,男怕入错行”。还有“一如侯门深似海,从此君王不早朝”。说的是什么意思呢?就是说,现在流的汗,都是当初做决定时脑子里进的水。因此,在我们做决定的时候,千万别喝水。

  以上纯属瞎扯下面说些正经的。

  但开篇说的这些其实是感慨工作以及学习。大学毕业工作时恰好所在的软件项目是与数据统计挖掘相关的,相关性还很强。以致于后来在一个项目的实施过程中,直接全面的涉及到了一个标准数据挖掘咨询工作的所有环节。从此对数据挖掘着迷了。不仅是因为第一次亲身体会到海量数据背后蕴含的巨大商业价值,更是因为这四两拨千斤的知识竟然能赚如此多的钱!两个人花了半个月时间就卷走了客户几十万的合同,妈妈咪呀。有幸的是,我全程参与了这一件工作。当然,只是工作,跟钱没关系……从此这个项目就在我的脑子里面一遍一遍的循环播放。这个项目向我揭示了一种可能。那就是如此高端的咨询工作并不是如想象中的高深艰难。相反,它实用,有针对性,在使用当中存在较高的普遍性和重复性。因此,我也能做。从此以后我便投入了更多的注意力在这一领域。经营分析、数据挖掘、统计学等等等等,尽管它们有很多标签,但我知道,它们的目的是一样的,发现数据背后的秘密。于是我决定,朝着这个目标,开始进发。同时,钱是这个宝藏的伴生矿。哈哈。

  但是,我需要从零开始。因为所有的这一切都是以统计学为基础的,而我那点点可怜的统计学知识早就还给了大学老师了。而本书,《深入浅出统计学》,给了我从零开始的可能性。当我拿到这本足足有600多页的大部头时,我还是有些担心的。担心自己没有坚持的毅力。因为先前就有过一次败在一部名叫《数据挖掘导论》的大部头面前。不过幸运的是,本书不是一本读起来很艰涩的书。它起步低,我想有初中的数据知识就可以开始了;趣味足,将要讲的知识恰当地放入一些简单实际的实例中;展开缓,让你在进取的过程中并不会意识到台阶的存在;条理强,在讲述的过程中逻辑清晰,目标明确;手段多,怪招用尽就是想让你记住一些基本的概念和公式;有成就,你总是能基于刚刚学到的东西马上解决掉一个之前不久提出的问题;编排好,全书在用一种循环滚动的方式将问题与知识交叉提出展现,就像用松子和坚果来引诱读者继续下去。所以,这是我最开心的一次学习经历。尽管如此,我还是用了四五个月的时间才认真读完……感觉离金山好远啊。

  认真研究你会发现,这本书涵盖了数据挖掘的一些领域,比如描述、预测。这很重要,因为在大多数情况下,数据分析工作是以描述开始,预测结尾的。而统计学可以应用的领域甚至比计算机还要高。因此,即时我们不需要考虑将工作投入到这个方向,我们也会在当前所处的工作生活环境中,因为知道那么一点点统计学知识而显得聪明那么一点点。我想说的是,统计学是一门实用的学科,值得任何人去学习。在此强烈推荐,从本书开始。

  《深入浅出统计学》读后感(八):深入浅出统计学-书评

前言

  道德经云:”道生一,一生二,二生三,三生万物“。 学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

  笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标

  目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余

  目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件

  目标三:为读者搭建从“理论”到“实践"的桥梁

  注意: 本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》

概述

你的“对象” 是谁?

  此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。

  一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

  二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。

  因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给 “爱人” 画肖像

  从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。

  看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

  ----------------------------------------------------------------------------------------------------------------------------

第一部分: 对“数据”的描述性分析

  数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:

一、集中趋势量度---为这批数据找到它们的“代表”

  均值(μ)

  公式:

  均值的局限性

  均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ; 例如下面一组数据就不太适合用均值来代表

  这5个人的年龄均值是:31.2岁

  很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???

  中位数

  中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

  中位数的局限

  回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

  那么我们在看一下下面一组数据,中位数的表现又如何?

  中位数:45

  这组数据的中位数为:45,但是中位数45并不能代表这组数据。

  因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

  众数

  众数是样本观测值在频数分布表中频数最多的那一组的组中值。

  平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

二、 分散性与变异性的量度

  (全距,迷你距,四分位数,标准差,标准分)

  全距=max-min

  全距也叫“极差”极差。 它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

  全距的局限性

  全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

  四分位数

  所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。

  Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

  Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

  Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

  迷你距 也叫“四分位距”

  迷你距。 它是一组数据中较小四分位数与较大四分位数之差。

  即: 迷你距= 上四分位数 - 下四分位数

  迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

  全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?

  我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

  方差

  方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

  标准差

  标准差为方差的开方。

  通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?

  标准分---表征了距离均值的标准差的个数

  标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。

  标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。

第一部分小节

  1. 描述一批数据,通过集中趋势分析,找出其“代表值” ; 通过分散和变异性的描述,查看这批数据的分散程度。

  2. 集中趋势参数: 均值,中位数,众数

  3. 分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分

  -----------------------------------------------------------------------------------------------------------------------------------

第二部分: 关于“事件”的研究分析 ---概率论

一、一个事件的情况

  为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。

  事件 --- 有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。

  概率 --- 每一种结果发生的可能性。 所有结果的可能性相加等于1,也就是必然!!!

  概率分布 --- 我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。

  概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布

  期望 --- 表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)

  公式:

  方差--- 表征了事件不同结果之间的差异或分散程度。

  公式:

二、细说分布

  理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。

  因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。

“离散型”数据和“连续性”数据差异

  在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?

  离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。

  连续数据: 一个串儿,一个串儿的数据就是连续型数据。

  好啦,开个玩笑!!!别打我,下面分享干货!!!

  其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。 判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。

  举个例子

  人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。

  对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。

  清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。

离散型分布

  离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。

连续型分布

  连续型分布本质上就是求连续的一个数据段概率分布。

正态分布

  代表式:

  f(x)----是该关于事件X的概率密度函数

  μ --- 均值

  σ^2 ---方差

  σ ---标准差

  绿色区域的面积 ---该区间段的概率

正态分布概率的求法

  tep1 --- 确定分布和范围 ,求出均值和方差

  tep2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)

  tep3 ---查表找概率

离散型分布 → 正态分布 (离散分布转化为正态分布)

  精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)

三、多个事件的情况 --- “概率树”和“贝叶斯定理”

  多个事件就要探讨事件和事件之间的关系

  对立事件---如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件

  穷尽事件---如何A和B为穷尽事件,那么A和B的并集为1

  互斥事件---如何A和B为互斥事件,那么A和B没有任何交集

  独立事件---如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

  例子: 10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。

  相关事件---如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

  例子: 10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。

  条件概率(条件概率,概率树,贝叶斯公式)

  条件概率代表:已知B事件发生的条件下,A事件发生的概率

概率树 --- 一种描述条件概率的图形工具。

  假设有个甜品店,顾客买甜甜圈的概率是3/4 ; 不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。

  从图中我们可以发现以下两个信息

  1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件

  2. 概率树每个层级分支的概率和都是1

贝叶斯公式 ----提供了一种计算逆条件概率的方法

  贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

第二部分小节

  1. 事件,概率,概率分布之间的关系

  2. 期望,方差的意义

  3. 连续型数据和离散型数据之间的区别和联系

  4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布

  5. 离散分布和正态分布可以转化

  6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式

  -----------------------------------------------------------------------------------------------------------------------------------

第三部分: 关于“小样本”预测“大总体”

  现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

一、抽取样本

  总体:你研究的所有事件的集合

  样本:总体中选取相对较小的集合,用于做出关于总体本身的结论

  偏倚:样本不能代表目标总体,说明该样本存在偏倚

  简单随机抽样: 随机抽取单位形成样本。

  分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样

  系统抽样: 选取一个参数K,每到第K个抽样单位,抽样一次。

二、预测总体(点估计预测,区间估计预测)

点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

  场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。

  (1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受)

  (2)总体方差 估计总体方差

  场景2: 已知总体,研究抽取样本的概率分布

  比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。

  举个栗子: 已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

  样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。

  中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则的分布近似正态分布。

区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。

  举个栗子: 今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?

如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)

求置信区间简便公式(直接上皂片)

  关于C值参数: 置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58

待补充知识一(t分布)

  我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。 若样本量不够大呢? 这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。

待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。

  卡方分布的定义

  若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

  卡方分布的应用场景

  用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;

  用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:

三、验证结果(假设检验)

  假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误

  第一类错误: 拒绝了一个正确的假设,错杀了一个好人

  第二类错误: 接收了一个错误的假设,放过了一个坏人

第三部分小节

  1. 无偏抽样

  2. 点估计量预测(已知样本预测总体,已知总体预测样本)

  3. 区间估计量预测(求置信区间)

  4. 假设检验

  -----------------------------------------------------------------------------------------------------------------------------------

第四部分: 相关与回归(y=ax+b)

  这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。

  散点图:显示出二变量数据的模式

  相关性:变量之间的数学关系。

  线性相关性:两个变量之间呈现的直线相关关系。

  最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)

  误差平方和SSE:

  线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b

  斜率a公式:

  公式:

  相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)

  r公式:

  -----------------------------------------------------------------------------------------------------------------------------------

结束语

  笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。 笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。

  笔者水平有限,概念理解有偏差的地方欢迎批评指正。

  -----------------------------------------------------------------------------------------------------------------------------------

参考书

  《深入浅出---统计学》 作者:Dawn Griffiths

评价:

[匿名评论]登录注册

评论加载中……