云计算_分布式概念

什么是分布式?

分布式的意思就是多台机器，不同组件分布在一个机器

和集群的区别

集群和分布式的相同点都是多台机器，不同点就是相同组件分布在一组机器上面

大数据分析的过程

收集数据
1. 从无到有的数据，也就是说从0到1的数据，比如人们所说的传感器，测量天气数据
2. 传输的数据，这个数据分为四大类，分别为日志数据，爬虫数据，数据库数据，还有一种忘了哈
处理数据
1. 处理缺失值
2. 处理异常值
数据分析
1. 这个过程有数据挖掘什么的啦，数据挖掘听起来好牛逼的样子，其实也就是那么回事，总归还是属于一种数据分析，换句话说就是从大量的数据中搞出有用的信息，前提是不知道这个数据有没有用，就是这么个意思。
可视化数据
1. 这个其实没什么好讲的，就是数据可视化展示，就是对上面的说明和总结
写总结报告
1. 这个呢其实就是给群众们看的，今天上面看到一个新闻标题非常的有意思，哈哈哈，就是有那么一点猎奇的心理，标题是这么写的，阿里云数据显示：胸大的女人容易败家。听到这我也不知道为什么哈，就是有点想笑

分布式技术

负载均衡

这个就像是好兄弟，有难一起抗一样，举个实际的例子，比如你用浏览器访问百度的时候，北京和上海的用户，使用的其实是不同的服务器，但是页面一定是一摸一样，其实两个用户都让浏览器干相同的活，这个其实就是集群啦

故障转移

这个我感觉还是听起来有点别扭，其实这个意思就是，当一台服务器挂了，备份的一台服务器顶上，当然如果有条件，备份的越多越好，就好像是打征地战一样，挂了一个再顶一个，维持火力的稳定。

伸缩性

这个举个例子就是，当你在双十一的时候是不是喜欢买买买，是不是这样的老实说，这个时候我们其实就需要多台服务器啦，当遇上冷淡的季节的时候，这个时候我们其实就不需要那么多服务器，是不是扔掉就可以了，这样是不是会造成浪费，哈哈哈不会，现在都不用自己买服务器放到你身边了，现在可以租用云服务器，要的话就拿着用，不要就扔掉哈哈哈。

Hadoop

Hadoop历史架构

历史版本大概就分为三步走，1.0就是HDFS负责存储，Mapreduce负责计算和资源管理调度，2.0就是HDFS还是负责存储，唯一的变化就是资源管理和调度由YARN来做了,Mapreduce主要负责的就是计算，这样分工明确其实挺好的，3.0就是对各个部分的一些优化.

Hadoop的意义

侠义来说，Hadoop只是一个服务类软件，广义来说Hadoop其实就是一个生态圈。

Hadoop的优点

Hadoop其实非常好的一点就是能够为各大厂商服务，服务几乎任意对象，不管你运行的是上面程序，java,python，都能够运行，也就是它的一个通用性，受到广泛的青睐。

Hadoop的部署模式

单机模式

一台机器一个进程，一个java进程，所有的角色都在上面运行，其实这样看起来挺烦的啦，都跟着抢一个进程来用

伪分模式

无非就是还是同样一台机器上面，运行多个进程，然后不同角色会被分配到不同进程。

集群模式

这个就是多台机器了，不同角色分布到不同的机器上面

HA高可用

这个就是可维护性了，意思也就是说，能够处理单点故障的问题，要是坏了，直接换一个顶替呗，重点是要保持数据的同步性哦。