1. 关于epoll

epoll是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率,因为它会复用文件描述符集合来传递结果而不用迫使开发者每次等待事件之前都必须重新准备要被侦听的文件描述符集合,另一点原因就是获取事件的时候,它无须遍历整个被侦听的描述符集,只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。

目前epoll是linux大规模并发网络程序中的热门首选模型。

epoll除了提供select/poll那种IO事件的水平触发(Level Triggered)外,还提供了边沿触发(Edge Triggered),这就使得用户空间程序有可能缓存IO状态,减少epoll_wait/epoll_pwait的调用,提高应用程序效率。

 

2. epoll API介绍

 

2.1 创建epoll实例:epoll_create

#include <sys/epoll.h>
int epoll_create(int size);

参数:size : 自从linux2.6.8之后,size参数是被忽略的。随便写一个数,必须大于0。

返回值:
-1 : 失败
> 0 : 用于操作epoll实例的文件描述符

功能:在内核中创建一个新的epoll实例,并返回一个操纵该epoll的文件描述符,这个文件描述符和真正的文件没有关系,仅仅是为了后续调用epoll而创建的。该函数调用后在内核中创建了一个存储事件的数据结构,这个数据结构中有两个比较重要的子结构,一个是需要检测的文件描述符的信息(使用红黑树实现),还有一个是就绪列表,存放检测到数据发送改变的文件描述符信息(使用双向链表实现),关于epoll更详细的内部实现在这里不详细讨论。

 

2.2 注册epoll的监听事件:epoll_ctl

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
功能:向内核中的epoll实例中添加、修改、移除事件。epoll和select的一个显著区别就在这里:select是在监听事件时告诉内核要监听什么类型的事件,而epoll是在这里先注册要监听的事件类型,然后再调用epoll_wait监听。

参数:

epfd : epoll实例对应的文件描述符
op : 要进行什么操作
EPOLL_CTL_ADD: 添加
EPOLL_CTL_MOD: 修改
EPOLL_CTL_DEL: 删除
fd : 要检测的文件描述符
event : 检测文件描述符什么事件,这里涉及到epoll_event,定义如下:

struct epoll_event {
	uint32_t events; /* Epoll events */
	epoll_data_t data; /* User data variable */
};

typedef union epoll_data {
	void *ptr;
	int fd;
	uint32_t u32;
	uint64_t u64;
} epoll_data_t;

这里我们只需要关注两个字段即可:events和data.fd:

其中events表示要检测的事件,有以下选择:
EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里。

其中data.fd表示该事件对应的socket的文件描述符。

返回值:

成功,返回发送变化的文件描述符的个数 > 0
失败 -1

 

2.3 监听事件:epoll_wait

int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

功能:等待已注册的事件发生,返回事件的数目,并将已触发的事件写入events数组(第二个参数)中。

参数:

epfd : epoll实例对应的文件描述符
events : 传出参数,保存了发送了变化的文件描述符的信息,需要调用者先创建好
maxevents : 第二个参数结构体数组的大小
timeout : 阻塞时间
0 : 不阻塞
-1 : 阻塞,直到检测到fd数据发生变化,解除阻塞
> 0 : 阻塞的时长(毫秒)
返回值:

成功,返回发送变化的文件描述符的个数 > 0
失败 -1

 

3. 示例程序

/*用epoll实现一个简单的服务器-客户端通信*/

#include <stdio.h>
#include <unistd.h>
#include <arpa/inet.h>
#include <stdlib.h>
#include <pthread.h>
#include <strings.h>
#include <sys/epoll.h>


// 设定一个服务器端口号
#define SERV_IP "127.0.0.1"
#define SERV_PORT 9999

int main()
{
    int lfd = socket(AF_INET, SOCK_STREAM, 0);

    struct sockaddr_in serv_addr;
    serv_addr.sin_family = AF_INET;
    serv_addr.sin_port = htons(SERV_PORT); // 注意转化成网络字节序
    inet_pton(AF_INET, SERV_IP, &serv_addr.sin_addr.s_addr); // 注意转化成网络字节序
    bind(lfd, (struct sockaddr*)&serv_addr, sizeof(serv_addr));

    listen(lfd, 128);

    int epfd = epoll_create(100); // 内核创建epoll实例

    struct epoll_event epev;
    epev.events = EPOLLIN;        // 要检测lfd的读事件
    epev.data.fd = lfd;
    // 注册了对lfd的监听,此后如果不删除这个注册信息,每次调用epoll_wait都将监听lfd的读事件(也就是客户端的连接)
    epoll_ctl(epfd, EPOLL_CTL_ADD, lfd, &epev); 

    struct epoll_event epevs[1024]; // 用作epoll_wait的第二个参数(传出参数) 

    while(1) {
        int ret = epoll_wait(epfd, epevs, 1024, -1); // 监听已注册的事件,最后一个参数-1表示阻塞等待
        if(ret == -1) {
            perror("epoll_wait error");
            exit(-1);
        }

        // 一旦走到这里说明解除了阻塞,就是指epoll监测到了事件的发生,遍历每个事件:
        for(int i = 0; i < ret; ++i) {

            int curfd = epevs[i].data.fd; // 表示当前触发的事件对应的fd

            if(curfd == lfd) { // 如果监听到lfd的读事件了,说明有一个新客户端建立连接
                struct sockaddr_in clie_addr;
                int clie_addr_len = sizeof(clie_addr); 
                int cfd = accept(lfd, (struct sockaddr*)&clie_addr, &clie_addr_len);

                char clie_IP[BUFSIZ];
                printf("Client IP: %s, client port: %d connected\n", 
                    inet_ntop(AF_INET, &clie_addr.sin_addr.s_addr, clie_IP, sizeof(clie_IP)),
                    ntohs(clie_addr.sin_port));

                epev.events = EPOLLIN;        // 要检测cfd的读事件
                epev.data.fd = cfd;
                epoll_ctl(epfd, EPOLL_CTL_ADD, cfd, &epev); // 把对该cfd的读事件监听注册上,以后epoll会同时监听lfd和cfd

            } else {   // 说明检测到的是某个cfd的读事件,读该客户端传来的数据
                char buf[BUFSIZ] = {0};
                int len = read(curfd, buf, sizeof(buf));
                if(len > 0) {
                    // 小写转大写
                    int i;
                    for(i = 0; i < len; ++i) {
                        if(buf[i] >= 'a' && buf[i] <= 'z') {
                            buf[i] -= 32;
                        }
                    }
                    write(curfd, buf, len); // 写回给客户端
                    write(STDOUT_FILENO, buf, len);
                } else if(len == 0) {
                    // 说明读完了,客户端已关闭,此时epoll已经没有必要继续监听该cfd了
                    epoll_ctl(epfd, EPOLL_CTL_DEL, curfd, NULL);
                    close(curfd);
                } else {
                    perror("read error");
                    exit(-1);
                }
            }
        }
    }

    close(lfd);
    close(epfd); // 别忘了关epfd
    return 0;
}

 

4. epoll的两种触发方式

 

EPOLL事件有两种模型:

Edge Triggered (ET) 边缘触发:只有数据到来才触发,不管缓存区中是否还有数据。

假设委托内核检测读事件 -> 检测fd的读缓冲区
读缓冲区有数据 – > epoll检测到了会给用户通知
a.用户不读数据,数据一致在缓冲区中,epoll下次检测的时候就不通知
b.用户只读了一部分数据,epoll不通知
c.缓冲区的数据读完了,不通知

Level Triggered (LT) 水平触发:只要有数据都会触发。

假设委托内核检测读事件 -> 检测fd的读缓冲区
读缓冲区有数据 – > epoll检测到了会给用户通知
a.用户不读数据,数据一直在缓冲区,epoll 会一直通知
b.用户只读了一部分数据,epoll会通知
c.缓冲区的数据读完了,不通知 

 

LT(level – triggered)是缺省的工作方式,并且同时支持 block 和 no-block socket。在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的 fd 进行 IO 操作。如果你不作任何操作,内核还是会继续通知你的。

ET(edge – triggered)是高速工作方式,只支持 no-block socket。在这种模式下,当描述符从未就绪变为就绪时,内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪,并且不会再为那个文件描述符发送更多的就绪通知,直到你做了某些操作导致那个文件描述符不再为就绪状态了。但是请注意,如果一直不对这个 fd 作 IO 操作(从而导致它再次变成未就绪),内核不会发送更多的通知(only once)。

ET 模式在很大程度上减少了 epoll 事件被重复触发的次数,因此效率要比 LT 模式高。epoll工作在 ET 模式的时候,必须使用非阻塞套接口,以避免由于一个文件句柄的阻塞读/阻塞写操作把处理多个文件描述符的任务饿死。

 

原文地址:http://www.cnblogs.com/wxk1213/p/16901923.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性