X

曜彤.手记

随记,关于互联网技术、产品与创业

吉 ICP 备10004938号

《HTTP 权威指南》读书笔记(第 7-15、20 章)


书接上回,第 7-15、20 章的笔记。

第 7 章 - 缓存

  1. (Page:170)缓存解决的问题:
  1. (Page:183)缓存处理流程图:

  1. (Page:185)设置缓存过期日期与使用期:服务器用以下首部来指定响应资源的有效期,一旦已缓存文档过期,缓存就必须与服务器进行核对,询问文档是否修改过(服务器再验证)。若修改过,则需要获取一份新鲜的副本。
  1. (Page:186)HTTP 协议要求行为正确的缓存返回下列内容之一:
  1. (Page:186)服务器再验证:
  1. (Page:191)缓存控制:

第 8 章 - 集成点:网关、隧道及中继

  1. (Page:208)网关

  1. (Page:215)CGI(Common Gateway Interface)模型:

  1. (Page:215)Web 服务(独立的 Web 应用程序)可以用 XML 通过 SOAP(Simple Object Access Protocol,简单对象访问协议)来交换信息。
  2. (Page:217Web 隧道

  1. (Page:222)中继:是没有完全遵循 HTTP 规范的简单 HTTP 代理。负责处理 HTTP 中建立连接的部分,然后对字节进行盲转发。

第 9 章 - Web 机器人

  1. (Page:227)通常,机器人的根集(起始 URL 集合)可以从包含一些大的流行 Web 站点的集合开始。大部分搜索引擎使用的爬虫,都为用户提供了向根集中提交新页面或无名页面的方式。
  2. (Page:230)可以使用 “Bloom Filter(布隆过滤器)”来快速检查爬虫是否已经访问过一个 URL。它是一种多哈希函数映射的快速查找算法。
  3. (Page:233)避免爬虫陷入循环和重复抓取的几种方式:
  1. (Page:236)机器人实现要支持 Host 首部,以针对虚拟主机的多域名,防止待请求域名与实际响应域名两者关系对应错误
  2. (Page:240)拒绝机器人访问标准robots.txt
# this robots.txt file allows Slurp & Webcrawler to crawl
# the public parts of our site, but no other robots...

User-Agent: slurp  # 大小写无关,可以与任何机器人名的子字符串匹配;
User-Agent: webcrawler
Disallow: /private

User-Agent: *
Disallow:   # 大小写敏感;空字符可以进行通配;
  1. (Page:249)HTML 页面可以通过添加 robot-control 元标签来控制机器人对该 HTML 页面的访问
<!-- 忽略文档 -->
<meta name="robots" content="noindex" />
<!-- 不要爬取该页面上的任何外链 -->
<meta name="robots" content="nofollow" />
<!-- 可以索引该页面 -->
<meta name="robots" content="index" />
<!-- 可以爬取该页面上的任何外链 -->
<meta name="robots" content="follow" />
<!-- 等于 index、follow -->
<meta name="robots" content="all" />
<!-- 等于 noindex、nofollow -->
<meta name="robots" content="none" />
<!-- 告诉机器人或搜索引擎在指定天数后重访页面 -->
<meta name="revisit-after" content="10 days" />

第 10 章 - HTTP NG

(略)

  1. (Page:273)可用于承载用户信息的 HTTP 首部:

  1. (Page:274)客户端 IP 地址:
  1. (Page:275)基于 HTTP 首部的登录:

  1. (Page:277)胖 URL
  1. (Page:278)Cookie
  1. (Page:291)Cookie 潜在安全问题:

第 12 章 - 基本认证机制

  1. (Page:295)HTTP 基本认证流程:

  1. (Page:299)代理认证:

  1. (Page:300)基本认证的安全缺陷

第 13 章 - 摘要认证

  1. (Page:305)基本流程:

  1. (Page:312)预授权:

(本章其他内容略)

第 14 章 - 安全 HTTP

  1. (Page:325)基本结构:

  1. (Page:330)常用的对称加密算法:DES、Triple-DES、RC2、RC4。
  2. (Page:334)数字签名:用加密系统对报文进行“签名”(加了密的校验和),以说明是谁编写的报文,同时证明报文未被篡改过
  3. (Page:336)数字证书:包含了由某个受信组织担保的用户或公司的相关信息。所有这些信息都是由一个官方的“证书颁发机构”以数字方式签发的,比如:

- 基于 X.509 证书的服务器认证

  1. (Page:341SSL 握手

第 15 章 - 实体和编码

  1. (Page:359)用于描述实体的首部字段:
  1. (Page:366)多部分表单提交
  1. (Page:367)多部分范围响应
  1. (Page:369)内容编码
  1. (Page:371)传输编码

- 分块编码

  1. (Page:375)内容编码与传输编码相结合:

  1. (Page:380)范围请求

  1. (Page:382)差异编码:通过交换对象改变的部分而非完整的对象来优化传输性能(实现复杂,且优化效果并不明显)。

第 20 章 - 重定向与负载均衡

  1. (Page:472)通用的重定向方法:



这是文章底线,下面是评论
  暂无评论,欢迎勾搭 :)