深入理解HTTP协议及原理分析.docx
- 文档编号:2040052
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:32
- 大小:1.30MB
深入理解HTTP协议及原理分析.docx
《深入理解HTTP协议及原理分析.docx》由会员分享,可在线阅读,更多相关《深入理解HTTP协议及原理分析.docx(32页珍藏版)》请在冰点文库上搜索。
深入理解HTTP协议及原理分析
深入理解HTTP协议及原理分析
HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议。
它可以使浏览器更加高效,使网络传输减少。
它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分容首先显示等。
1.基础概念篇
1.1介绍
HTTP是HyperTextTransferProtocol(超文本传输协议)的缩写。
它的发展是万维网协会(WorldWideWebConsortium)和Internet工作小组IETF(InternetEngineeringTaskForce)合作的结果,(他们)最终发布了一系列的RFC,RFC1945定义了HTTP/1.0版本。
其中最著名的就是RFC2616。
RFC2616定义了今天普遍使用的一个版本——HTTP1.1。
HTTP协议(HyperTextTransferProtocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。
它可以使浏览器更加高效,使网络传输减少。
它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分容首先显示(如文本先于图形)等。
HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服务器模型。
HTTP是一个无状态的协议。
1.2在TCP/IP协议栈中的位置
HTTP协议通常承载于TCP协议之上,有时也承载于TLS或SSL协议层之上,这个时候,就成了我们常说的HTTPS。
如下图所示:
默认HTTP的端口号为80,HTTPS的端口号为443。
1.3HTTP的请求响应模型
HTTP协议永远都是客户端发起请求,服务器回送响应。
见下图:
这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。
HTTP协议是一个无状态的协议,同一个客户端的这次请求和上次请没有对应关系。
1.4工作流程
一次HTTP操作称为一个事务,其工作过程可分为四步:
1)首先客户机与服务器需要建立连接。
只要单击某个超级,HTTP的工作开始。
2)建立连接后,客户机发送一个请求给服务器,请求方式的格式为:
统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的容。
3)服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的容。
4)客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。
如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。
对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。
1.5使用Wireshark抓TCP、http包
打开Wireshark,选择工具栏上的“Capture”->“Options”,界面选择如图1所示:
图1设置Capture选项
一般读者只需要选择最上边的下拉框,选择合适的Device,而后点击“CaptureFilter”,此处选择的是“HTTPTCPport(80)”,选择后点击上图的“Start”开始抓包。
图2选择CaptureFilter
例如在浏览器中打开image.baidu./,抓包如图3所示:
图3抓包
在上图中,可清晰的看到客户端浏览器(ip为192.168.2.33)与服务器的交互过程:
1)No1:
浏览器(192.168.2.33)向服务器(220.181.50.118)发出连接请求。
此为TCP三次握手第一步,此时从图中可以看出,为SYN,seq:
X(x=0)
2)No2:
服务器(220.181.50.118)回应了浏览器(192.168.2.33)的请求,并要求确认,此时为:
SYN,ACK,此时seq:
y(y为0),ACK:
x+1(为1)。
此为三次握手的第二步;
3)No3:
浏览器(192.168.2.33)回应了服务器(220.181.50.118)的确认,连接成功。
为:
ACK,此时seq:
x+1(为1),ACK:
y+1(为1)。
此为三次握手的第三步;
4)No4:
浏览器(192.168.2.33)发出一个页面HTTP请求;
5)No5:
服务器(220.181.50.118)确认;
6)No6:
服务器(220.181.50.118)发送数据;
7)No7:
客户端浏览器(192.168.2.33)确认;
8)No14:
客户端(192.168.2.33)发出一个图片HTTP请求;
9)No15:
服务器(220.181.50.118)发送状态响应码200OK
……
1.6头域
每个头域由一个域名,冒号(:
)和域值三部分组成。
域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。
在抓包的图中,No14点开可看到如图4所示:
图4http请求消息
回应的消息如图5所示:
图5http状态响应信息
1.6.1host头域
Host头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。
HTTP/1.1请求必须包含主机头域,否则系统会以400状态码返回。
图5中host那行为:
1.6.2Referer头域
Referer头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。
他也允许废除的或错误的连接由于维护的目的被追踪。
如果请求的uri没有自己的uri地址,Referer不能被发送。
如果指定的是部分uri地址,则此地址应该是一个相对地址。
在图4中,Referer行的容为:
1.6.3User-Agent头域
User-Agent头域的容包含发出请求的用户信息。
在图4中,User-Agent行的容为:
1.6.4Cache-Control头域
Cache-Control指定请求和响应遵循的缓存机制。
在请求消息或响应消息中设置Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。
请求时的缓存指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if-cached,响应消息中的指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。
在图5中的该头域为:
1.6.5Date头域
Date头域表示消息发送的时间,时间的描述格式由rfc822定义。
例如,Date:
Mon,31Dec200104:
25:
57GMT。
Date描述的时间表示世界标准时,换算成本地时间,需要知道用户所在的时区。
图5中,该头域如下图所示:
1.7HTTP的几个重要概念
1.7.1连接:
Connection
一个传输层的实际环流,它是建立在两个相互通讯的应用程序之间。
在http1.1,request和reponse头中都有可能出现一个connection的头,此header的含义是当client和server通信时对于长如何进行处理。
在http1.1中,client和server都是默认对方支持长的,如果client使用http1.1协议,但又不希望使用长,则需要在header中指明connection的值为close;如果server方也不想支持长,则在response中也需要明确说明connection的值为close。
不论request还是response的header中包含了值为close的connection,都表明当前正在使用的tcp在当天请求处理完毕后会被断掉。
以后client再进行新的请求时就必须创建新的tcp了。
1.7.2消息:
Message
HTTP通讯的基本单位,包括一个结构化的八元组序列并通过连接传输。
1.7.3请求:
Request
一个从客户端到服务器的请求信息包括应用于资源的方法、资源的标识符和协议的版本号。
1.7.4响应:
Response
一个从服务器返回的信息包括HTTP协议的版本号、请求的状态(例如“成功”或“没找到”)和文档的MIME类型。
1.7.5资源:
Resource
由URI标识的网络数据对象或服务。
1.7.6实体:
Entity
数据资源或来自服务资源的回映的一种特殊表示方法,它可能被包围在一个请求或响应信息中。
一个实体包括实体头信息和实体的本身容。
1.7.7客户机:
Client
一个为发送请求目的而建立连接的应用程序。
1.7.8用户代理:
UserAgent
初始化一个请求的客户机。
它们是浏览器、编辑器或其它用户工具。
1.7.9服务器:
Server
一个接受连接并对请求返回信息的应用程序。
1.7.10源服务器:
Originserver
是一个给定资源可以在其上驻留或被创建的服务器。
1.7.11代理:
Proxy
一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其它客户机建立请求。
请通过可能的翻译在部或经过传递到其它的服务器中。
一个代理在发送请求信息之前,必须解释并且如果可能重写它。
代理经常作为通过防火墙的客户机端的门户,代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。
1.7.12网关:
Gateway
一个作为其它服务器中间媒介的服务器。
与代理不同的是,网关接受请求就好象对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。
网关经常作为通过防火墙的服务器端的门户,网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。
1.7.13通道:
Tunnel
是作为两个连接中继的中介程序。
一旦激活,通道便被认为不属于HTTP通讯,尽管通道可能是被一个HTTP请求初始化的。
当被中继的连接两端关闭时,通道便消失。
当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通讯时通道被经常使用。
1.7.14缓存:
Cache
反应信息的局域存储。
2.协议详解篇
2.1HTTP/1.0和HTTP/1.1的比较
RFC1945定义了HTTP/1.0版本,RFC2616定义了HTTP/1.1版本。
RFC1945下载地址:
RFC2616下载地址:
2.1.1建立连接方面
HTTP/1.0每次请求都需要建立新的TCP连接,连接不能复用。
HTTP/1.1新的请求可以在上次请求建立的TCP连接之上发送,连接可以复用。
优点是减少重复进行TCP三次握手的开销,提高效率。
注意:
在同一个TCP连接中,新的请求需要等上次请求收到响应后,才能发送。
2.1.2Host域
HTTP1.1在Request消息头里头多了一个Host域,HTTP1.0则没有这个域。
Eg:
GET/pub/WWW/TheProject.htmlHTTP/1.1
Host:
.w3.org
可能HTTP1.0的时候认为,建立TCP连接的时候已经指定了IP地址,这个IP地址上只有一个host。
2.1.3日期时间戳
(接收方向)
无论是HTTP1.0还是HTTP1.1,都要能解析下面三种date/timestamp:
Sun,06Nov199408:
49:
37GMT;RFC822,updatedbyRFC1123
Sunday,06-Nov-9408:
49:
37GMT;RFC850,obsoletedbyRFC1036
SunNov608:
49:
371994;ANSIC'sasctime()format
(发送方向)
HTTP1.0要求不能生成第三种asctime格式的date/timestamp;
HTTP1.1则要求只生成RFC1123(第一种)格式的date/timestamp。
2.1.4状态响应码
状态响应码100(Continue)状态代码的使用,允许客户端在发request消息body之前先用requestheader试探一下server,看server要不要接收requestbody,再决定要不要发requestbody。
客户端在Request头部中包含
Expect:
100-continue
Server看到之后呢如果回100(Continue)这个状态代码,客户端就继续发requestbody。
这个是HTTP1.1才有的。
另外在HTTP/1.1中还增加了101、203、205等等性状态响应码
2.1.5请求方式
HTTP1.1增加了OPTIONS,PUT,DELETE,TRACE,CONNECT这些Request方法.
Method="OPTIONS";Section9.2
|"GET";Section9.3
|"HEAD";Section9.4
|"POST";Section9.5
|"PUT";Section9.6
|"DELETE";Section9.7
|"TRACE";Section9.8
|"CONNECT";Section9.9
|extension-method
extension-method=token
2.2HTTP请求消息
2.2.1请求消息格式
请求消息格式如下所示:
请求行
通用信息头|请求头|实体头
CRLF(回车换行)
实体容
其中“请求行”为:
请求行=方法[空格]请求URI[空格]版本号[回车换行]
请求行实例:
Eg1:
GET/index.htmlHTTP/1.1
Eg2:
POST192.168.2.217:
8080/index.jspHTTP/1.1
HTTP请求消息实例:
GET/hello.htmHTTP/1.1
Accept:
*/*
Accept-Language:
zh-cn
Accept-Encoding:
gzip,deflate
If-Modified-Since:
Wed,17Oct200702:
15:
55GMT
If-None-Match:
W/"355000"
User-Agent:
Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)
Host:
192.168.2.162:
8080
Connection:
Keep-Alive
2.2.2请求方法
HTTP的请求方法包括如下几种:
GET
POST
HEAD
PUT
DELETE
OPTIONS
TRACE
CONNECT
2.3HTTP响应消息
2.3.1响应消息格式
HTTP响应消息的格式如下所示:
状态行
通用信息头|响应头|实体头
CRLF
实体容
其中:
状态行=版本号[空格]状态码[空格]原因[回车换行]
状态行举例:
Eg1:
HTTP/1.0200OK
Eg2:
HTTP/1.1400BadRequest
HTTP响应消息实例如下所示:
HTTP/1.1200OK
ETag:
W/"101000"
Last-Modified:
Wed,17Oct200703:
01:
41GMT
Content-Type:
text/html
Content-Length:
158
Date:
Wed,17Oct200703:
01:
59GMT
Server:
Apache-Coyote/1.1
2.3.2http的状态响应码
2.3.2.11**:
请求收到,继续处理
100——客户必须继续发出请求
101——客户要求服务器根据请求转换HTTP协议版本
2.3.2.22**:
操作成功收到,分析、接受
200——交易成功
201——提示知道新文件的URL
202——接受和处理、但处理未完成
203——返回信息不确定或不完整
204——请求收到,但返回信息为空
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件
206——服务器已经完成了部分用户的GET请求
2.3.2.33**:
完成此请求必须进一步处理
300——请求的资源可在多处得到
301——删除请求数据
302——在其他地址发现了请求数据
303——建议客户访问其他URL或访问方式
304——客户端已经执行了GET,但文件未变化
305——请求的资源必须从服务器指定的地址得到
306——前一版本HTTP中使用的代码,现行版本中不再使用
307——申明请求的资源临时性删除
2.3.2.44**:
请求包含一个错误语法或不能完成
400——错误请求,如语法错误
401——未授权
HTTP401.1-未授权:
登录失败
HTTP401.2-未授权:
服务器配置问题导致登录失败
HTTP401.3-ACL禁止访问资源
HTTP401.4-未授权:
授权被筛选器拒绝
HTTP401.5-未授权:
ISAPI或CGI授权失败
402——保留有效ChargeTo头响应
403——禁止访问
HTTP403.1禁止访问:
禁止可执行访问
HTTP403.2-禁止访问:
禁止读访问
HTTP403.3-禁止访问:
禁止写访问
HTTP403.4-禁止访问:
要求SSL
HTTP403.5-禁止访问:
要求SSL128
HTTP403.6-禁止访问:
IP地址被拒绝
HTTP403.7-禁止访问:
要求客户证书
HTTP403.8-禁止访问:
禁止站点访问
HTTP403.9-禁止访问:
连接的用户过多
HTTP403.10-禁止访问:
配置无效
HTTP403.11-禁止访问:
密码更改
HTTP403.12-禁止访问:
映射器拒绝访问
HTTP403.13-禁止访问:
客户证书已被吊销
HTTP403.15-禁止访问:
客户访问许可过多
HTTP403.16-禁止访问:
客户证书不可信或者无效
HTTP403.17-禁止访问:
客户证书已经到期或者尚未生效
404——没有发现文件、查询或URl
405——用户在Request-Line字段定义的方法不允许
406——根据用户发送的Accept拖,请求资源不可访问
407——类似401,用户必须首先在代理服务器上得到授权
408——客户端没有在用户指定的饿时间完成请求
409——对当前资源状态,请求不能完成
410——服务器上不再有此资源且无进一步的参考地址
411——服务器拒绝用户定义的Content-Length属性请求
412——一个或多个请求头字段在当前请求中错误
413——请求的资源大于服务器允许的大小
414——请求的资源URL长于服务器允许的长度
415——请求资源不支持请求项目格式
416——请求中包含Range请求头字段,在当前请求资源围没有range指示值,请求也不包含If-Range请求头字段
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求长。
2.3.2.55**:
服务器执行一个完全有效请求失败
HTTP500-部服务器错误
HTTP500.100-部服务器错误-ASP错误
HTTP500-11服务器关闭
HTTP500-12应用程序重新启动
HTTP500-13-服务器太忙
HTTP500-14-应用程序无效
HTTP500-15-不允许请求global.asa
Error501-未实现
HTTP502-网关错误
2.4使用telnet进行http测试
在Windows下,可使用命令窗口进行http简单测试。
输入cmd进入命令窗口,在命令行键入如下命令后按回车:
telnet.baidu.80
而后在窗口中按下“Ctrl+]”后按回车可让返回结果回显。
接着开始发请求消息,例如发送如下请求消息请求baidu的首页消息,使用的HTTP协议为HTTP/1.1:
GET/index.htmlHTTP/1.1
注意:
copy如上的消息到命令窗口后需要按两个回车换行才能得到响应的消息,第一个回车换行是在命令后键入回车换行,是HTTP协议要求的。
第二个是确认输入,发送请求。
可看到返回了200OK的消息,如下图所示:
可看到,当采用HTTP/1.1时,连接不是在请求结束后就断开的。
若采用HTTP1.0,在命令窗口键入:
GET/index.htmlHTTP/1.0
此时可以看到请求结束之后马上断开。
读者还可以尝试在使用GET或POST等时,带上头域信息,例如键入如下信息:
GET/index.htmlHTTP/1.1
connection:
close
Host:
.baidu.
2.5常用的请求方式
常用的请求方式是GET和POST.
GET方式:
是以实体的方式得到由请求URI所指定资源的信息,如果请求URI只是一个数据产生过程,那么最终要在响应实体中返回的是处理过程的结果所指向的资源,而不是处理过程的描述。
POST方式:
用来向目的服务器发出请求,要求它接受被附在请求后的实体,并把它当作请求队列中请求URI所指定资源的附加新子项,Post被设计成用统一的方法实现下列功能:
1:
对现有资源的解释;
2:
向电子公告栏、新闻组、列表或类似讨论组发信息;
3:
提交数据块;
4:
通过附加操作来扩展数据库。
从上面描述可以看出,Get是向服务器发索取数据的一种请求;而Post是向服务器提交数据的一种请求,要提交的数据位于信息头后面的实体中。
GET与POST方法有以下区别:
(1)在客户端,Get方式在通过URL提交数据,数据在URL中可以看到;POST方式,数据放置在HTMLHEADER提交。
(2)GET方式提交的数据最多只能有1024字节,而POST则没有此限制。
(3)安全性问题。
正如在
(1)中提到,使用Get的时候,参数会显示在地址栏上,而Post不会。
所以,如果这些数据是中文数据而且是非敏感数据,那么使用get;如果用户输入的数据不是中文字符而且包含敏感数据,那么还是使用post为好。
(4)安全的和幂等的。
所谓安全的意味着该操作用于获取信息而非修改信息。
幂等的意味着对同一URL的多个请求应该返回同样的结果。
完整的定义并不像看起来那样严格。
换句话说,GET请求一般不应产生副作用。
从根本上讲,其目标是当用户打开一个时,她可以确信从自身的角度来看没有改变资源。
比如,新闻站
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深入 理解 HTTP 协议 原理 分析