Opencv从入门到放弃---1.图像基本操作(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))


数据读取-图像cv2.IMREAD_COLOR:彩色图像cv2.IMREAD_GRAYSCALE:灰度图像import cv2 #opencv读取的格式是BGRimport matplotlib.pyplot as pltimport numpy as np %matplotlib inline i

hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取

hadoop 

首先了解TFIDFTF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Docum

pyspark-sparksql练习


1.实验数据说明:Student字段说明:字段名类型备注snoint学号sclassint班级号snameDate姓名sgenderint性别sageint年龄Teacher字段说明:字段名类型备注tnoint教工号tnameint姓名tsexint性别tageint年龄Course字段说明:字段名

pyspark-通过协同过滤算法推荐电影


数据集是Movielens官网的ml-100k数据,下载地址https://grouplens.org/datasets/movielens/用jupyter实现比较好from pyspark.sql import SparkSessionuser_df=spark.read.text('data/

pyspark-通过kmeans分析出租车数据并调用百度API进行可视化


(1)数据准备采用数据为出租车载客时的GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。CSV(Comma-Separated Values) 即逗号分隔值,文件以文本的方式存储表格数据(包含数字和文本)。其中每一行代表一条记录,每条记录被逗号分隔为字段,并且每条记录都有

pyspark-机器学习实战:预测婴儿出生率(二)使用ML库


在上一文中,主要对Spark MLlib机器学习库使用流程进行了介绍。从搭建环境开始,然后加载数据,探索数据,直到进行模型的训练与评估,最终进行未知数据的预测,即预测婴儿生存机会本文则来介绍如何使用ML机器学习库来实战ML!同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。**

pyspark-机器学习实战:预测婴儿出生率(一)使用MLlib库


机器学习是通过算法对训练数据构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据的过程。简单点讲,机器学习就是通过一定的模型,让计算机可以从大量的数据中学习到相关的知识

PySpark-机器学习实战:建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量(使用ML库)


分类和回归ML库在Spark的帮助下,从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine

Git快速入门分布式版本管理——以经理和员工角度学习


1 git安装配置1.1 安装当前ubuntu镜像中已经安装好了git,以下步骤可以跳过安装sudo apt-get install git安装成功后,运行如下命令git1.2 配置在ubuntu的命令行中,修改某台机器的git配置修改为注册github时的邮箱,填写用户名,要求组员的用户名不能重复

爬虫入门(这玩意儿懂的都懂)


第一章:爬虫原理和数据爬取1.1 通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Sea