云计算_分布式概念
云计算_分布式概念
什么是分布式?
分布式的意思就是多台机器,不同组件分布在一个机器
和集群的区别
集群和分布式的相同点都是多台机器,不同点就是相同组件分布在一组机器上面
大数据分析的过程
- 收集数据
- 从无到有的数据,也就是说从0到1的数据,比如人们所说的传感器,测量天气数据
- 传输的数据,这个数据分为四大类,分别为日志数据,爬虫数据,数据库数据,还有一种忘了哈
- 处理数据
- 处理缺失值
- 处理异常值
- 数据分析
- 这个过程有数据挖掘什么的啦,数据挖掘听起来好牛逼的样子,其实也就是那么回事,总归还是属于一种数据分析,换句话说就是从大量的数据中搞出有用的信息,前提是不知道这个数据有没有用,就是这么个意思。
- 可视化数据
- 这个其实没什么好讲的,就是数据可视化展示,就是对上面的说明和总结
- 写总结报告
- 这个呢其实就是给群众们看的,今天上面看到一个新闻标题非常的有意思,哈哈哈,就是有那么一点猎奇的心理,标题是这么写的,阿里云数据显示:胸大的女人容易败家。听到这我也不知道为什么哈,就是有点想笑
分布式技术
负载均衡
这个就像是好兄弟,有难一起抗一样,举个实际的例子,比如你用浏览器访问百度的时候,北京和上海的用户,使用的其实是不同的服务器,但是页面一定是一摸一样,其实两个用户都让浏览器干相同的活,这个其实就是集群啦
故障转移
这个我感觉还是听起来有点别扭,其实这个意思就是,当一台服务器挂了,备份的一台服务器顶上,当然如果有条件,备份的越多越好,就好像是打征地战一样,挂了一个再顶一个,维持火力的稳定。
伸缩性
这个举个例子就是,当你在双十一的时候是不是喜欢买买买,是不是这样的老实说,这个时候我们其实就需要多台服务器啦,当遇上冷淡的季节的时候,这个时候我们其实就不需要那么多服务器,是不是扔掉就可以了,这样是不是会造成浪费,哈哈哈不会,现在都不用自己买服务器放到你身边了,现在可以租用云服务器,要的话就拿着用,不要就扔掉哈哈哈。
Hadoop
Hadoop历史架构
历史版本大概就分为三步走,1.0就是HDFS负责存储,Mapreduce负责计算和资源管理调度,2.0就是HDFS还是负责存储,唯一的变化就是资源管理和调度由YARN来做了,Mapreduce主要负责的就是计算,这样分工明确其实挺好的,3.0就是对各个部分的一些优化.
Hadoop的意义
侠义来说,Hadoop只是一个服务类软件,广义来说Hadoop其实就是一个生态圈。
Hadoop的优点
Hadoop其实非常好的一点就是能够为各大厂商服务,服务几乎任意对象,不管你运行的是上面程序,java,python,都能够运行,也就是它的一个通用性,受到广泛的青睐。
Hadoop的部署模式
单机模式
一台机器一个进程,一个java进程,所有的角色都在上面运行,其实这样看起来挺烦的啦,都跟着抢一个进程来用
伪分模式
无非就是还是同样一台机器上面,运行多个进程,然后不同角色会被分配到不同进程。
集群模式
这个就是多台机器了,不同角色分布到不同的机器上面
HA高可用
这个就是可维护性了,意思也就是说,能够处理单点故障的问题,要是坏了,直接换一个顶替呗,重点是要保持数据的同步性哦。