专栏/从浏览器输入http://www.baidu.com,到看到百度主页的过程中到底发生了什么

从浏览器输入http://www.baidu.com,到看到百度主页的过程中到底发生了什么

2021年03月27日 08:01--浏览 · --喜欢 · --评论
儒者人之所需
粉丝:964文章:6

从浏览器输入http://www.baidu.com,到看到百度主页的过程中到底发生了什么?

网络模型

网络的七层协议3

1. 根据网络七层模型,浏览器和服务器都可以认为是应用层的一个应用,所以本质上来说就是从一个应用层到另外一个应用层的过程,在我们这个过程中主要采用的http协议进行通信

网络的七层协议2

HTTP协议(简单介绍)

   HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范
   1. http的请求规范:
       请求行(请求类型,欲访问资源,协议版本)
       请求头(headers,cookies等)
           Host:请求的目的地(主机域名)
           User-Agent:客户端的信息,它是检测浏览器类型的重要信息,由浏览器定义,并且在每个请求中自动发送
       空行 请求头后面必须有一个空行
       请求正文(请求体)(参数)可以为空

DNS解析

1. HTTP协议基于底层的 TCP/IP 协议,所以必须要用 IP 地址建立连接。由于我们在浏览器输入的是域名,所以我们需要把域名转换为IP地址,也就是域名解析(DNS)
2. DNS流程:
   第一步:检查浏览器缓存中是否缓存过该域名对应的IP地址
   第二步:如果在浏览器缓存中没有找到IP,那么将继续查找本机系统(hosts)是否缓存过IP
   第三步:向本地域名解析服务器LDNS发起域名解析的请求
   第四步:向根域名解析服务器发起域名解析请求
   第五步:根域名服务器返回顶级域名解析服务器(gTLD)地址。如.com、.cn、.org,全球只有13台
   第六步:本地域名服务器LDNS向gTLD服务器发起解析请求
   第七步:接受请求的gTLD服务器查找并返回此域名对应的Name Server域名服务器的地址,这个Name Server通常就是用户注册的域名服务器,例如用户在某个域名服务提供商申请的域名,那么这个域名解析任务就由这个域名提供商的服务器来完成
   第八步:Name Server域名服务器会查询存储的域名和IP的映射关系表,在正常情况下都根据域名得到目标IP地址,连同一个TTL值返回给DNS Server域名服务器
     第九步:返回该域名对应的IP和TTL值,LDNS会缓存这个域名和IP的对应关系,缓存时间由TTL值控制
     第十步:把解析的结果返回给用户,用户根据TTL值缓存在本地系统缓存中,域名解析过程结束

   在实际的DNS解析过程中,可能还不止这10步,如Name Server可能有很多级,或者有一个GTM来负载均衡控制,这都有可能会影响域名解析过程。

【转】DNS域名解析过程1

TCP协议

   传输控制协议(英语:Transmission Control Protocol,缩写:TCP)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。在简化的计算机网络OSI模型中,它完成第四层传输层所指定的功能。用户数据报协议(UDP)是同一层内另一个重要的传输协议。
   TCP 报文是 TCP 层传输的数据单元,也称为报文段,结构如下图:

image-20210327104827091

1. 源端口和目的端口:各占2个字节。
     2. 序号:占4字节。序号范围是0~2^32‐1。TCP是面向字节流的,TCP连接中传送的字节流中的每个字节都按顺序编号。整个要传送的字节流的起始序号必须要在连接建立时设置。首部中的序号字段值指的是本报文段所发送的数据的第一个字节的序号。
     3. 确认号:占4个字节,是期望收到对方下一个报文段的第一个数据字节的序号。 若确认号=N,则表明:到序号N‐1为止的所有数据都已正确收到。(建立连接时,确认号等于序号+1,传输数据时等于序号+包大小)
     4. 数据偏移:占4位。指出TCP报文段的数据起始处距离报文段的起始处有多远。这个字段实际上是指出TCP报文段的首部长度。由于首部中还有长度不确定的选项字段,因此数据偏移字段是必要的。单位是32位,也就是4字节,4位二进制最大表示15,所以数据偏移也就是TCP首部最大60字节
     5. 保留:占6位,为将来定义新的用途保留
     6. 标志位字段:占6位,每一个标志位表示一个控制功能,各比特的含义如下:
       1. 紧急URG:占1位,当URG=1时,表明紧急指针字段有效。它告诉系统此报文段中有紧急数据,应尽快传送(相当于高优先级的数据),而不要按原来的排队顺序来传送。例如,已经发送了很长的一个程序在远地的主机上运行。但后来发现了一些问题,需要取消该程序的运行。因此用户从键盘发出中断命令(Control+c)。如果不使用紧急数据,那么这两个字符将存储在接收TCP的缓存末尾。只有在所有的数据被处理完毕后这两个字符才被交付接收方的应用进程。这样做就浪费了许多时间。当URG置为1时,发送应用进程就告诉发送方的TCP有紧急数据要传送。于是发送方TCP就把紧急数据插入到本报文段数据的最前面,而在紧急数据后面的数据仍是普通数据。这时要与首部中紧急指针字段配合使用。
       2. 确认ACK 占1位,仅当ACK=1时确认号字段才有效。当ACK=0时,确认号无效。TCP规定,在连接建立后所有的传送的报文段都必须把ACK置1。
       3. 推送PSH 占1位,当两个应用进程进行交互式的通信时,有时在一端的应用进程希望在键入一个命令后立即就能收到对方的响应。在这种情况下,TCP就可以使用推送操作。这时,发送方TCP把PSH置1,并立即创建一个报文段发送出去。接收方TCP收到PSH=1的报文段,就尽快地交付接收应用进程,而不再等到整个缓存都填满了后向上交付。虽然应用程序可以选择推送操作,但推送还很少使用。
       4. 复位RST 占1位,tcp连接出现严重差错时释放连接,然后重新建立连接。而可以用来拒绝一个非法的报文段或拒绝打开一个连接。当RST=1时,表明TCP连接中出现严重差错(如由于主机崩溃或其他原因),必须释放连接,然后再重新建立运输连接。RST置1还用来拒绝一个非法的报文段或拒绝打开一个连接。
       5. 同步SYN 占1位,在连接建立时用来同步序号。当SYN=1而ACK=0时,表明这是一个连接请求报文段。对方若同意建立连接,则应在相应的报文段中使用SYN=1和ACK=1。因此, SYN置为1就表示这是一个连接请求或连接接受报文。
       6. 终止FIN 占1位,用来释放一个连接。当FIN=1时,表明此报文段的发送方的数据已发送完毕,并要求释放运输连接。    
     7. 窗口,占2字节。窗口值是【0,2^16‐1】之间的整数。窗口指的是发送本报文段的一方的接收窗口(而不是自己的发送窗口)。窗口值告诉对方:从本报文段首部中的确认号算起,接收方目前允许对方发送的数据量。之所以要有这个限制,是因为接收方的数据缓存空间是有限的。总之,窗口值作为接收方让发送方设置其发送窗口的依据。并且窗口值是经常在动态变化着。
     8.检验和:2字节。检验范围包括首部和数据两部分。和UDP用户数据报一样, 在计算校验和时,要在TCP报文段加上12字节的伪首部。
     9.紧急指针:2字节。紧急指针仅在URG=1时才有意义,它指出本报文段中的紧急数据的字节数(紧急数据结束后就是普通数据)。因此,紧急指针指出了紧急数据的末尾在报文段中的位置。当所有紧急数据都处理完时,TCP就告诉应用程序恢复到正常操作。值得注意的是,即使窗口为零时也可发送紧急数据。
     10. 选项(Option):长度不定,但长度必须是 32bits 的整数倍
     11. 数据

建立连接

1. TCP以三次握手的方式建立连接

image-20210327104747113

服务处理请求

1. 服务器接收到请求,根据报头中的content‐type的值来判断如何解析请求的数据(是html,还是img,还是文件下载),然后进行处理,具体的业务逻辑多种多样,但最后必定是拼出一个响应报文发回客户端。

HTTP 响应报文

1. 响应报文由响应头加响应体数据组成,响应头又由状态行和头字段构成。
状态行的结构,有三部分:
   1. 开头的 Version 部分是 HTTP 协议的版本号,通常是 HTTP/1.1,用处不是很大
   2. 后面的 Reason 部分是原因短语,是状态码的简短文字描述,例如“OK”“Not Found”等等,也可以自定义。但它只是为了兼容早期的文本客户端而存在,提供的信息很有限,目前的大多数客户端都会忽略它。
   3. 所以,状态行里有用的就只剩下中间的状态码(Status Code)了。它是一个十进制数字,以代码的形式表示服务器对请求的处理结果。

   要注意,它的名字是”状态码“而不是”错误码“。也就是说,它的含义不仅是错误,更重要的意义在于表达 HTTP 数据处理的“状态”,客户端可以依据代码适时转换处理状态,例如继续发送请求、切换协议,重定向跳转等,有那么点 TCP 状态转换的意思。

   头字段常见的有以下几个:
   Allow,Content-Encoding,Content-Length,Content-Type,Set-Cookie

img

状态码

   状态码目前 RFC 标准里规定的状态码是三位数,所以取值范围就是从 000 到 999。
   但如果把代码简单地从 000 开始顺序编下去就显得有点太“low”,不灵活、不利于扩展,所以状态码也被设计成有一定的格式。
   RFC 标准把状态码分成了五类,用数字的第一位表示分类,而 0~99 不用,这样状态码的实际可用范围就大大缩小了,由 000~999 变成了 100~599。
   这五类的具体含义是:
       1××:提示信息,表示目前是协议处理的中间状态,还需要后续的操作;
       2××:成功,报文已经收到并被正确处理;
       3××:重定向,资源位置发生变动,需要客户端重新发送请求;
       4××:客户端错误,请求报文有误,服务器无法处理;
       5××:服务器错误,服务器在处理请求时内部发生了错误。
       具体状态码的含义可以看下面的附录1

浏览器接受响应

1. 浏览器接收到响应以后,根据响应类型判断出后面的数据应该是html文档格式,按照以下方式进出渲染
   1. 解析html 生成dom树
   2. 解析css 生成css对象模型cssom
   3. 利用dom和cssom构建渲染树
   4. 浏览器根据渲染树把页面绘制到屏幕上

关闭连接

1. 在HTTP/1.0中,默认使用的是短连接。也就是说,浏览器和服务器每进行一次HTTP操作,就建立一次连接,但任务结束就中断连接。如果客户端浏览器访问的某个HTML或其他类型的 Web页中包含有其他的Web资源,如JavaScript文件、图像文件、CSS文件等;当浏览器每遇到这样一个Web资源,就会建立一个HTTP会话。
   但从 HTTP/1.1起,默认使用长连接,用以保持连接特性。使用长连接的HTTP协议,会在响应头有加入这行代码:
   Connection:keep-alive
   在使用长连接的情况下,当一个网页打开完成后,客户端和服务器之间用于传输HTTP数据的 TCP连接不会关闭,如果客户端再次访问这个服务器上的网页,会继续使用这一条已经建立的连接。Keep-Alive不会永久保持连接,它有一个保持时间,可以在不同的服务器软件(如Apache)中设定这个时间

2. 以四次挥手的方式关闭连接

image-20210327104734514

附录1

1××
   1××类状态码属于提示信息,是协议处理的中间状态,实际能够用到的时候很少。我们偶尔能够见到的是“101 Switching Protocols”。它的意思是客户端使用 Upgrade 头字段,要求在 HTTP 协议的基础上改成其他的协议继续通信,比如 WebSocket。而如果服务器也同意变更协议,就会发送状态码 101,但这之后的数据传输就不会再使用 HTTP 了。

2××
   2××类状态码表示服务器收到并成功处理了客户端的请求,这也是客户端最愿意看到的状态码。
       1. “200 OK”是最常见的成功状态码,表示一切正常,服务器如客户端所期望的那样返回了处理结果,如果是非 HEAD 请求,通常在响应头后都会有 body 数据。
       2. “204 No Content”是另一个很常见的成功状态码,它的含义与“200 OK”基本相同,但响应头后没有 body 数据。所以对于 Web 服务器来说,正确地区分 200 和 204 是很必要的。
       3. “206 Partial Content”是 HTTP 分块下载或断点续传的基础,在客户端发送“范围请求”、要求获取资源的部分数据时出现,它与 200 一样,也是服务器成功处理了请求,但 body 里的数据不是资源的全部,而是其中的一部分。状态码 206 通常还会伴随着头字段“Content-Range”,表示响应报文里 body 数据的具体范围,供客户端确认,例如“Content-Range: bytes 0-99/2000”,意思是此次获取的是总计 2000 个字节的前 100 个字节。

3××
   3××类状态码表示客户端请求的资源发生了变动,客户端必须用新的 URI 重新发送请求获取资源,也就是通常所说的“重定向”,包括著名的 301、302 跳转。
       1. “301 Moved Permanently”俗称“永久重定向”,含义是此次请求的资源已经不存在了,需要改用新的 URI 再次访问。
           与它类似的是“302 Found”,曾经的描述短语是“Moved Temporarily”,俗称“临时重定向”,意思是请求的资源还在,但需要暂时用另一个 URI 来访问。
           301 和 302 都会在响应头里使用字段 Location 指明后续要跳转的 URI,最终的效果很相似,浏览器都会重定向到新的 URI。两者的根本区别在于语义,一个是“永久”,一个是“临时”,所以在场景、用法上差距很大。
         比如,你的网站升级到了 HTTPS,原来的 HTTP 不打算用了,这就是“永久”的,所以要配置 301 跳转,把所有的 HTTP 流量都切换到 HTTPS。再比如,今天夜里网站后台要系统维护,服务暂时不可用,这就属于“临时”的,可以配置成 302 跳转,把流量临时切换到一个静态通知页面,浏览器看到这个 302 就知道这只是暂时的情况,不会做缓存优化,第二天还会访问原来的地址。
       2. “304 Not Modified” 是一个比较有意思的状态码,它用于 If-Modified-Since 等条件请求,表示资源未修改,用于缓存控制。它不具有通常的跳转含义,但可以理解成“重定向已到缓存的文件”(即“缓存重定向”)。301、302 和 304 分别涉及了 HTTP 协议里重要的“重定向跳转”和“缓存控制”,在之后的课程中我还会细讲。

4××
   4××类状态码表示客户端发送的请求报文有误,服务器无法处理,它就是真正的“错误码”含义了。
   1. “400 Bad Request”是一个通用的错误码,表示请求报文有错误,但具体是数据格式错误、缺少请求头还是 URI 超长它没有明确说,只是一个笼统的错误,客户端看到 400 只会是“一头雾水”“不知所措”。所以,在开发 Web 应用时应当尽量避免给客户端返回 400,而是要用其他更有明确含义的状态码。
   2. “403 Forbidden”实际上不是客户端的请求出错,而是表示服务器禁止访问资源。原因可能多种多样,例如信息敏感、法律禁止等,如果服务器友好一点,可以在 body 里详细说明拒绝请求的原因,不过现实中通常都是直接给一个“闭门羹”。
   4. “404 Not Found”可能是我们最常看见也是最不愿意看到的一个状态码,它的原意是资源在本服务器上未找到,所以无法提供给客户端。但现在已经被“用滥了”,只要服务器“不高兴”就可以给出个 404,而我们也无从得知后面到底是真的未找到,还是有什么别的原因,某种程度上它比 403 还要令人讨厌。
   4××里剩下的一些代码较明确地说明了错误的原因,都很好理解,开发中常用的有:
       405 Method Not Allowed:不允许使用某些方法操作资源,例如不允许 POST 只能 GET;
       406 Not Acceptable:资源无法满足客户端请求的条件,例如请求中文但只有英文;
       408 Request Timeout:请求超时,服务器等待了
       409 Conflict:多个请求发生了冲突,可以理解为多线程并发时的竞态;
       413 Request Entity Too Large:请求报文里的 body 太大;
       414 Request-URI Too Long:请求行里的 URI 太大;
       429 Too Many Requests:客户端发送了太多的请求,通常是由于服务器的限连策略;
       431 Request Header Fields Too Large:请求头某个字段或总体太大;

5××
   5××类状态码表示客户端请求报文正确,但服务器在处理时内部发生了错误,无法返回应有的响应数据,是服务器端的“错误码”。
   1. “500 Internal Server Error”与 400 类似,也是一个通用的错误码,服务器究竟发生了什么错误我们是不知道的。不过对于服务器来说这应该算是好事,通常不应该把服务器内部的详细信息,例如出错的函数调用栈告诉外界。虽然不利于调试,但能够防止黑客的窥探或者分析。
   2. “501 Not Implemented”表示客户端请求的功能还不支持,这个错误码比 500 要“温和”一些,和“即将开业,敬请期待”的意思差不多,不过具体什么时候“开业”就不好说了。
   3. “502 Bad Gateway”通常是服务器作为网关或者代理时返回的错误码,表示服务器自身工作正常,访问后端服务器时发生了错误,但具体的错误原因也是不知道的。
   4. “503 Service Unavailable”表示服务器当前很忙,暂时无法响应服务,我们上网时有时候遇到的“网络服务正忙,请稍后重试”的提示信息就是状态码 503。503 是一个“临时”的状态,很可能过几秒钟后服务器就不那么忙了,可以继续提供服务,所以 503 响应报文里通常还会有一个“Retry-After”字段,指示客户端可以在多久以后再次尝试发送请求。

更多内容欢迎关注我的个人公众号“韩哥有话说”,100G人工智能学习资料,大量后端学习资料。

投诉或建议

玻璃钢生产厂家成都玻璃钢造型定制玻璃钢装饰厂家直销哈密玻璃钢前台厂盘锦玻璃钢天花吊顶批发中山玻璃钢花盆生产厂家菏泽玻璃钢茶几厂自贡玻璃钢花槽定做鹰潭玻璃钢休闲椅厂家毕节不锈钢家具襄阳玻璃钢花池厂家直销惠州玻璃钢餐桌椅加工黑河玻璃钢人物雕塑多少钱梅州不锈钢家具厂家玉林玻璃钢设备外壳多少钱襄阳玻璃钢树池生产厂家孝感玻璃钢花盆制造信阳玻璃钢制品制造贺州玻璃钢浮雕定做四平玻璃钢休闲椅生产厂家杭州玻璃钢花池制作嘉兴玻璃钢树池坐凳公司孝感商业美陈哪家好崇左玻璃钢卡通雕塑价格鄂州玻璃钢花钵海东玻璃钢公仔雕塑多少钱邯郸玻璃钢垃圾桶公司龙岩玻璃钢装饰工程加工阳江玻璃钢花钵批发大同玻璃钢树池公司天水玻璃钢造型生产厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化