跳到主要内容

02、Kubernetes - 实战:Pod(k8s最小单元)概念及网络通讯方式

Pod概念及网络通讯方式

什么是Pod?

Pod是Kubernetes的最小单元。

一个Pod是一组紧密相关的容器,是一起运行在同一个工作节点上,以及同一个Linux命名空间中。每个Pod就像是一个独立的逻辑机器,拥有自己的IP、主机名、进程等,运行一个独立的应用程序。

Pod是逻辑主机,一个Pod中的所有的容器都运行在同一个逻辑机器上,其他Pod中的容器,即使运行在用一个工作节点上,也会出现在不同的节点上。即一个Pod包含多个容器时,那些容器总是运行在同一个工作节点上,一个Pod决不能跨多个工作节点

例如:

 

Pod和容器概念的区分

为什么k8s会使用Pod为最小单元,而不是Docker容器

1、更利于扩展

k8s不仅仅支持Docker容器,也支持rkt甚至用户自定义容器。Kubernetes不依赖于底层某一种具体的规则去实现容器技术,而是通过CRI这个抽象层操作容器,这样就会需要Pod这样一个东西,Pod内部再管理多个业务上紧密相关的用户业务容器,就会更有利用业务扩展Pod而不是容器。

2、更容易定义一组容器的状态

如果没有Pod,我们直接使用一组容器去跑一个业务,那么其中一个或若干个容器出现问题,我们如何去定义这一组容器的状态呢?通过Pod我们就很容易解决,一组业务容器跑在同一个Pod中,这个Pod会有一个pause容器,这个容器跟其他的业务容器都没有关系,以这个pause容器状态来代表Pod的状态。

3、利用容器间文件共享,以及通信

pause容器有一个IP地址和一个存储卷,Pod中的其他容器共享pause容器的IP地址和存储,这样就达到了文件共享和通信。

Pod与容器的区别 Pod是指一组容器,可以指多个或一个,容器只能代表一个。

Pod的类型

自主式Pod:指定调度到某节点,如节点down,Pod无法自动恢复

控制器管理的Pod:诸多控制器类型,看下边详解

控制器类型及作用

1、 ReplicationController;

用来确保容器应用的副本数始终保持在用户定义的副本数,即如果有容器异常退出,会自动创建新的Pod来代替;而如果异常多出来的容易也会自动回收。在新版本的k8s中建议使用ReplicaSet来代替它

2、 ReplicaSet;

其跟ReplicationController没有什么本质区别,只是名字不一样,并且ReplicaSet支持集合式的selector(支持根据条件批量删除或创建)

3、 Deployment(推荐);

虽然ReplicaSet可以独立使用,但一般还是建议使用Deployment来自动管理ReplicaSet,这样就无需担心跟其他机制的不兼容问题(比如ReplicaSet不支持rolling-update滚动更新但Deployment支持)

典型的应用场景包括:

定义Deployment来创建Pod和ReplicaSet

滚动升级和回滚应用

扩容和缩容

暂停和继续Deployment

滚动更新流程

 

4、 HPA(HorizontalPodAutoScale);

Horizontal Pod AutoScaling 仅适用于Depolyment和ReplicaSet,在V1版本中仅支持根据Pod的CPU利用率扩缩容,在vlalpha版本中,支持根据内存和用户自定义的metric扩缩容

5、 StatefullSet;

StatefullSet是为了解决有状态服务的问题(对应Depolyment和ReplicaSets是为无状态服务而设计),其应用场景包括:

稳定的持久化储存,即Pod重新调度后还能访问到相同的持久化数据,基于PVC来实现

稳定的网络标志,即Pod重新调度其PodName和HostName不变,基于Headless Service(即没有Cluster IP 的 Service)来实现

有序部署,有序扩展,即Pod是有顺序的,在部署或者扩展的时候还要依据定义的顺序依次进行(即从0到N-1,在下一个Pod运行之前所有的Pod必须都是Running和Ready状态),基于init containers来实现

有序收缩,有序删除(从N-1到0)

6、 DaemonSet;

DaemonSet确保全部(或者一些)Node上运行一个Pod的副本。当有Node加入集群时,也会为它们新增一个Pod。当有Node从集群中移除时,这些Pod也会被回收。删除DaemonSet会删除它创建的所有Pod

典型用法

运行集群存储daemon,例如在每个Node上运行glusterd、ceph

在每个Node上运行日志收集daemon,例如Logstash、Fluentd

在每个Node上运行监控daemon,例如Prometheus Node Exporter

7、 Job、CronJob(类似于Linux的at和crontab);

Job负责批处理任务,即仅执行一次任务,它保证批处理任务的一个或多个Pod成功结束

Cron Job管理基于时间的Job,即

在给定时间点仅运行一次

周期性的给定时间点运行

不同情况下网络通信方式

1、 同一个Pod内部通讯:;

同一个Pod共享同一个网络命名空间(pause容器),同一个Linux协议栈

2、 Pod1至Pod2;

Pod1与Pod2不在同一台主机,Pod的地址是与docker0在同一个网段的,但docker0网段与宿主机网卡是两个完全不同的IP网段,并且不同的Node之间的通信只能通过宿主机的物理网卡进行,将Pod的IP和所在Node的IP关联起来,通过这个关联让Pod可以互相访问,使用的是Flannel网络规划服务如下图:

 

etcd在Flannel中的作用:

存储管理Flannel可分配的IP地址段资源

监控ETCD中每个Pod的实际地址,并在内存中建立维护Pod节点路由器

Pod1与Pod2在同一台机器中,由docker0网桥直接转发请求至Pod2

3、 Pod至Service的网络;

目前基于性能考虑,全部用iptables(旧版本)和LVS(新版本)维护和转发

4、 Pod到外网;

Pod向外网发送请求,查找路由表,转发数据包到宿主机网卡,宿主机网卡完成路由选择后,iptables执行Masquerade(SNAT),把源地址更改为宿主机网卡地址,向外网发送请求

5、 外网访问Pod;

通过Service网络,nodeport 类型