pyspark-机器学习实战:预测婴儿出生率(一)使用MLlib库


机器学习是通过算法对训练数据构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据的过程。简单点讲,机器学习就是通过一定的模型,让计算机可以从大量的数据中学习到相关的知识

PySpark-机器学习实战:建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量(使用ML库)


分类和回归ML库在Spark的帮助下,从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine

爬虫入门(这玩意儿懂的都懂)


第一章:爬虫原理和数据爬取1.1 通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Sea

机器学习难吗?那必然难啊!!!


机器学习第一章数据挖掘数据挖掘概念数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息,从数据中发现有用的信息,从而帮助我们做出决策数据挖掘做什么:1预测和描述数据,预测的计算机和事件过程被称为监督学习:从标记的训练数据来推断一个功能的机器学习任务描述则被通常称为无监督学习:根据位置样本决绝模式

python数据清洗(numpy+pandas)


第一章:数据清洗常用工具1.numpy常用数据结构常用清洗工具:目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的 函数,提高数据清洗的效率nu

python入门笔记

python 

python程序语法:程序的格式框架:缩进严格注释:#单行注释''' 多行注释'''命名保留字:​变量:表示数据值​命名:大小写字母,数字,下划线,和汉字等字符及组合​大小写敏感,首字母不能是数字,不和保留字相同​保留字(33个,也叫关键字)数据类型:​字符串:两侧有单引号和双引号,使用[]获取字符