技术文章

解锁网站加速密码：探秘网站缓存

网站缓存是什么

确博建站

网站缓存，简单来说，就是将网站中的一些数据（如网页、图片、脚本、样式表等）临时存储在特定的存储介质中，当用户再次请求相同的数据时，可以直接从缓存中获取，而不必重新从原始服务器获取。这就好比在你家附近设置了一个小型仓库，你经常需要的物品就放在这个仓库里，当你需要时，不用再跑到远处的大仓库去取，直接从附近的小仓库拿就行，大大节省了时间和精力。

网站缓存对于提升网站性能有着至关重要的作用。它就像是网站的 “加速器”，能够显著提高网站的访问速度。在互联网时代，用户的耐心是有限的，如果一个网站加载速度过慢，很可能导致用户直接离开，转而访问其他网站。而通过缓存技术，当用户再次访问网站时，能够快速获取所需数据，减少等待时间，提升用户体验。此外，缓存还能减轻服务器的负载压力。服务器就像一个忙碌的工人，每次处理用户请求都需要消耗一定的资源。如果大量请求都需要服务器重新生成数据，服务器的负担会很重。而有了缓存，对于那些频繁访问的数据，服务器无需重复处理，降低了服务器的处理压力，使其能够更高效地处理其他重要任务。同时，缓存还可以降低带宽成本，减少数据传输量，为网站运营者节省开支。

网站缓存如何工作

缓存工作机制

网站缓存的工作机制涉及多个环节。当用户首次访问网站的某个页面时，浏览器会向服务器发送请求，服务器接收到请求后，会处理请求并返回相应的数据，这些数据包括网页内容、图片、脚本等。同时，服务器会在响应头中添加一些缓存相关的信息，如 Cache-Control、Expires 等字段，用于指示浏览器如何缓存这些数据。

浏览器在接收到服务器返回的数据和缓存信息后，会根据这些信息来决定是否缓存数据以及缓存的时长。如果服务器设置了允许缓存，浏览器会将数据存储在本地的缓存中，缓存的存储位置一般分为内存缓存和磁盘缓存。内存缓存速度快，但容量有限，适合存储频繁访问且体积较小的资源，如脚本、字体和图片等；磁盘缓存容量较大，可以存储更多的资源，像 HTML 文档、CSS 样式表、JavaScript 脚本以及图片等静态资源通常会存储在磁盘缓存中，但访问速度稍逊于内存缓存。当用户再次访问相同的页面或资源时，浏览器会首先检查本地缓存中是否存在该资源的缓存。如果存在缓存，浏览器会根据缓存标识（如缓存的过期时间、ETag 等）判断缓存是否过期。如果缓存未过期，浏览器会直接从本地缓存中加载资源，不再向服务器发送请求，这大大加快了页面的加载速度；如果缓存已过期，浏览器会向服务器发送请求，验证资源是否有更新。服务器会根据浏览器发送的验证信息（如 If-Modified-Since、If-None-Match 等字段）来判断资源是否有变化。如果资源没有变化，服务器会返回 304 状态码，告知浏览器可以继续使用本地缓存；如果资源有变化，服务器会返回新的资源，浏览器会更新本地缓存。

除了浏览器缓存，还有服务器端缓存和 CDN 缓存。服务器端缓存是将数据缓存到服务器的内存或磁盘中，当有相同的请求到达服务器时，服务器可以直接从缓存中获取数据并返回给客户端，减少数据库查询等操作，提高服务器的响应速度。CDN 缓存则是利用分布在各地的节点服务器，将网站的静态资源缓存到离用户更近的节点上。当用户请求这些资源时，CDN 节点会直接返回缓存的资源，而无需经过源服务器，进一步减少了数据传输的距离和时间，提升了用户访问网站的速度。

缓存控制头详解

在 HTTP 响应头中，有多个字段用于控制缓存行为，其中 Cache-Control 和 Expires 是两个重要的字段。

Cache-Control 是 HTTP/1.1 中用于控制缓存的主要字段，它提供了丰富的指令来定义缓存策略。常见的取值及含义如下：

public：表示所有内容都将被缓存，不仅客户端浏览器可以缓存，代理服务器等中间缓存也可以缓存。例如，一个网站的公共图片资源设置为 public，那么在经过的代理服务器和用户浏览器中都可以被缓存，后续的请求可以直接从缓存中获取，减少了重复的数据传输。

private：意味着所有内容只有客户端可以缓存，代理服务器不能缓存。比如用户个人的订单页面等私有信息，设置为 private 可以保证这些信息不会被代理服务器缓存，提高了数据的安全性和隐私性。

no-cache：客户端会缓存内容，但每次使用缓存时需要经过协商缓存来验证决定是否真正使用。也就是说，浏览器在使用缓存前会向服务器发送请求，验证缓存是否过期或资源是否有更新。例如，对于一些经常更新的新闻页面，可以设置为 no-cache，保证用户每次访问时都能获取到最新的内容，同时又利用了缓存减少了部分数据传输。

no-store：所有内容都不会被缓存，无论是强制缓存还是协商缓存都不使用。这适用于一些敏感信息，如包含用户密码等重要数据的页面，确保这些信息不会被存储在任何缓存中，保障数据的安全性。

max-age=xxx：表示缓存内容将在 xxx 秒后失效。例如，设置 max-age=3600，说明该资源在 3600 秒（1 小时）内是有效的，在这期间再次请求该资源，浏览器会直接从缓存中获取。

Expires 是 HTTP/1.0 控制网页缓存的字段，其值为服务器返回该请求的结果缓存的到期时间，是一个绝对的 GMT 时间。例如，Expires: Thu, 01 Dec 2022 16:00:00 GMT，表示在这个时间之前，客户端可以直接使用缓存结果。然而，由于它依赖于客户端和服务器的时间同步，如果两者时间存在误差，可能会导致缓存失效不准确的问题，所以在 HTTP/1.1 中逐渐被 Cache-Control 替代。当 Cache-Control 和 Expires 同时存在时，Cache-Control 的优先级更高，浏览器会优先根据 Cache-Control 的设置来处理缓存。

网站缓存的类型

浏览器缓存

浏览器缓存是网站缓存中最贴近用户端的一种缓存方式，它将用户访问过的网页资源存储在本地，以便在用户再次访问同一网页时可以直接从本地加载，而不需要再次从服务器请求数据，从而提高页面加载速度，降低服务器压力和带宽消耗。浏览器缓存主要分为以下几种类型：

强缓存：强缓存是指浏览器直接从本地缓存中获取资源，而不和服务器进行交互。当浏览器请求一个资源时，如果该资源在强缓存有效期内，浏览器会直接使用本地缓存的资源，不会向服务器发送请求。常见的强缓存控制头有Expires和Cache-Control。Expires指定资源的过期时间，是一个绝对时间点，例如Expires: Wed, 21 Oct 2023 07:28:00 GMT，表示在这个时间之前，浏览器可以直接使用缓存结果。但它依赖于客户端和服务器的时间同步，如果两者时间存在误差，可能会导致缓存失效不准确的问题。Cache-Control则更为灵活，常用的属性有max-age，以秒为单位指定资源的有效期，例如Cache-Control: max-age=31536000表示资源在 31536000 秒（1 年）内有效。当Expires和Cache-Control同时存在时，浏览器会优先使用Cache-Control 。强缓存适用于长期不会变的静态资源，比如网站的图标、字体文件等，通过设置较长的强缓存时间，可以让用户在后续访问时快速加载这些资源，提升加载速度。

协商缓存：协商缓存是在缓存过期后，浏览器发送请求到服务器，由服务器根据请求头中的特定字段判断资源是否更新。如果资源未更新，服务器返回 304 状态码，浏览器继续使用本地缓存；如果资源已更新，服务器返回新的资源内容。实现协商缓存主要通过 HTTP 头部的Last-Modified / If-Modified-Since和ETag / If-None-Match字段。Last-Modified是服务器在响应中返回资源的最后修改时间，If-Modified-Since是浏览器在请求中携带上次的Last-Modified值，服务器根据此值判断资源是否更新。ETag是服务器为资源生成的唯一标识（一般是哈希值），If-None-Match是浏览器在请求中携带上次的ETag值，服务器根据此值判断资源是否更新。当Last-Modified和ETag同时存在时，浏览器会优先使用ETag 。协商缓存适用于频繁更新的资源，比如用户头像、需要实时性的数据如价格信息等，通过与服务器协商，可以确保用户获取到最新的资源。

启发式缓存：当服务器响应中没有明确的缓存策略时，浏览器会根据特定规则进行缓存，通常基于响应头中的Last-Modified字段，缓存时间通常为(Date - Last-Modified) * 10% 。

本地存储缓存：使用 Web Storage API（localStorage和sessionStorage）进行缓存。localStorage提供持久化的本地存储，除非被清除，否则数据将一直存在；sessionStorage为每个给定的源（协议 + 域名 + 端口）提供一个独立的存储区域，该存储区域在页面会话期间可用。

预加载缓存：这是一种主动缓存策略，它允许开发者指定在页面加载过程中应该预先加载和缓存的资源。可以通过 HTML 的<link>标签或 HTTP 头部来实现，例如<link rel="preload" href="style.css" as="style"> 。

服务器端缓存

服务器端缓存是将数据缓存到服务器的内存或磁盘中，当有相同的请求到达服务器时，服务器可以直接从缓存中获取数据并返回给客户端，减少数据库查询等操作，提高服务器的响应速度。常见的服务器端缓存类型有：

页面缓存：将整个页面的 HTML 内容缓存起来。当用户请求该页面时，服务器直接从缓存中返回页面，而不需要重新生成。例如，对于一些内容更新频率较低的新闻页面、产品介绍页面等，使用页面缓存可以大大提高响应速度。以一个电商网站的商品详情页为例，如果该商品的信息很少变动，将商品详情页进行页面缓存，当用户频繁访问该页面时，服务器可以快速从缓存中取出页面返回给用户，减少了重复生成页面的时间和资源消耗。

数据缓存：缓存数据库查询结果、计算结果等数据。比如，在一个论坛网站中，对于热门帖子的回复数量统计，每次用户访问帖子页面时都去数据库查询统计会消耗较多资源，将这个统计结果进行数据缓存，下次用户访问时直接从缓存中获取，提高了数据获取的效率。数据缓存可以减轻数据库的压力，提高应用程序的性能。

对象缓存：缓存应用程序中的对象，如 Java 中的 Java 对象、PHP 中的类实例等。在一个基于 Java 开发的电商应用中，将用户购物车对象进行缓存，当用户在浏览商品过程中频繁操作购物车时，服务器可以直接从缓存中获取和更新购物车对象，而不需要每次都从数据库中读取和保存，提升了用户操作的响应速度。

代理缓存

代理缓存是指由代理服务器下载并存储的页面，这些页面可以被多次访问。代理服务器作为一个中间节点，为多个用户提供服务，通过缓存机制，能够有效减少同一网站相同页面的重复请求。当一个用户通过代理服务器请求某个页面时，如果该页面已经被缓存，则代理服务器可以直接将缓存版本提供给用户，从而加快响应速度。对于一些高流量的网络门户，如美国在线（AOL）和 CompuServe，它们会预先缓存流行站点的内容，以便更快地向用户提供服务。例如，白宫等热门网站的内容通常会被放置在一个本地服务器上，以提高访问效率。

代理缓存的工作原理如下：

首次请求：当客户端首次请求一个资源时，请求会通过代理服务器转发至目标服务器。目标服务器处理完请求后将响应返回给代理服务器，代理服务器不仅将响应传递给客户端，还会根据特定的缓存策略决定是否将该响应保存在本地缓存中。

后续请求：对于后续来自相同或不同客户端对同一资源的请求，若该资源仍处于缓存有效期内且符合缓存条件，代理服务器可以直接使用其缓存的数据来响应请求，无需再次访问目标服务器。

缓存更新：代理服务器会定期检查缓存的有效性，或者当有新的请求到来时，它可能会向源服务器发送条件请求（例如带有If-Modified-Since或ETag的 HTTP 请求头），以确认缓存的内容是否仍然有效。如果源服务器指示缓存依然有效（如返回 304 Not Modified 状态码），则代理服务器继续使用缓存；否则，它会获取最新版本并更新缓存。

代理缓存具有以下优点：

加速访问速度：通过本地化地提供经常被请求的资源，减少了往返延迟，让用户能够更快地获取到所需内容。

降低带宽消耗：减少了重复的数据传输量，节省了带宽资源，对于一些流量较大的网站或网络环境，可以有效降低运营成本。

减轻服务器压力：降低了对原始服务器的直接请求数量，有助于提高服务器性能和稳定性，使原始服务器能够处理更多其他重要的任务。

提高可用性：即使原始服务器暂时不可用，只要缓存中的副本还有效，就可以继续为用户提供服务，提升了服务的可靠性。

网站缓存的优势

加快网页加载速度

缓存能够显著加快网页的加载速度。在用户访问网站时，每一个网页元素，如图片、脚本、样式表等，都需要通过网络请求从服务器获取。如果没有缓存，每次访问都要进行这些请求，而网络传输存在延迟，特别是在网络状况不佳时，延迟会更加明显，导致页面加载缓慢。而有了缓存，当用户再次访问相同的页面或资源时，浏览器可以直接从本地缓存中获取这些资源，无需再次向服务器发送请求。这大大减少了网络请求的次数和数据传输量，使得页面能够快速加载，用户无需长时间等待。例如，一个包含多个图片和脚本的新闻网站，首次访问时可能需要花费数秒来加载所有资源，但在设置了合理的缓存策略后，用户再次访问该网站时，大部分资源可以从缓存中快速获取，页面加载时间可能缩短至不到 1 秒，大大提升了用户体验。

减轻服务器负担

缓存可以有效减轻服务器的负担。服务器就像一个忙碌的工厂，处理用户请求需要消耗计算资源、内存、CPU 等。如果大量用户同时访问网站，每个用户的每一次请求都需要服务器重新处理和生成数据，服务器的负载压力会非常大。而缓存技术的应用，使得对于那些频繁访问的静态资源（如图片、样式表等）以及一些不经常变动的页面内容，服务器无需重复处理。当缓存命中时，服务器直接返回缓存中的数据，而不需要再次执行复杂的数据库查询、页面渲染等操作。以一个电商网站为例，在促销活动期间，可能会有大量用户访问商品详情页。如果没有缓存，服务器需要不断地从数据库中查询商品信息、处理图片等，容易造成服务器负载过高甚至崩溃。而通过设置页面缓存和数据缓存，服务器可以快速响应这些请求，将更多的资源用于处理其他关键业务，如订单处理、用户认证等，提高了服务器的整体性能和稳定性。

节省带宽资源

缓存有助于节省带宽资源，降低网站运营成本。带宽就像是网络传输的高速公路，数据在这条公路上传输需要消耗一定的资源。每次用户从服务器获取数据，都会占用一定的带宽。如果大量用户频繁地请求相同的数据，就会导致带宽的大量消耗。而缓存的存在减少了数据的重复传输。当用户从缓存中获取资源时，不需要再次从服务器下载相同的数据，从而降低了网络流量。对于一些大型网站，特别是包含大量图片、视频等大文件的网站，缓存节省的带宽资源非常可观。比如，一个视频分享网站，如果没有缓存，大量用户观看同一个热门视频时，会不断地从服务器下载视频文件，消耗大量的带宽。而通过 CDN 缓存，将视频文件缓存到离用户更近的节点，用户可以从这些节点获取视频，减少了对源服务器的带宽压力，为网站运营者节省了大量的带宽费用。

如何设置网站缓存

利用 CDN 缓存静态内容

利用 CDN（内容分发网络）缓存静态内容是提升网站性能的重要手段之一。CDN 通过在全球各地部署大量的节点服务器，构建起一个庞大的分布式网络。当用户请求网站的静态资源（如图片、CSS 文件、JavaScript 文件等）时，CDN 会根据用户的地理位置、网络状况等因素，智能地选择离用户最近的节点服务器来提供服务。

以腾讯云 CDN 为例，设置过程如下：首先，在腾讯云官网注册并登录账号，进入 CDN 服务控制台。然后，点击 “创建加速域名”，在弹出的设置窗口中，填写需要加速的域名以及相关的配置信息，如源站类型（可以是 IP 地址、域名等）和源站地址，这些信息将用于 CDN 与源服务器进行通信获取资源。配置完成后，需要修改 DNS 解析，将域名的 DNS 解析指向腾讯云 CDN 分配的 CNAME 地址，这样用户的访问请求就会被重定向到 CDN 节点。在 CDN 控制台中，还可以根据资源的更新频率和访问量，设置合理的缓存时间和缓存策略，例如对于更新频率较低的图片资源，可以设置较长的缓存时间（如 7 天或 30 天），以减少回源请求，提高访问速度；对于更新相对频繁的 CSS 文件，可以根据实际情况设置较短的缓存时间（如 1 小时或 1 天）。通过以上步骤，CDN 就可以将网站的静态资源缓存到离用户更近的节点上，当用户再次请求这些资源时，能够快速从 CDN 节点获取，减少网络传输延迟，提高用户访问速度。

在 Web 应用框架中实现缓存

在 Web 应用框架中实现缓存可以有效提高应用程序的性能。以 Django 框架为例，Django 提供了丰富的缓存支持，包括内存缓存、文件系统缓存、数据库缓存以及第三方缓存（如 Redis 缓存）等多种方式。

如果使用内存缓存，在 Django 的配置文件 settings.py 中，添加如下配置：

CACHES = {

'default': {

'BACKEND': 'django.core.cache.backends.locmem.LocMemCache',

'LOCATION': 'unique-snowflake',

}

这里使用了 Django 内置的内存缓存后端django.core.cache.backends.locmem.LocMemCache，LOCATION参数是一个唯一标识，用于区分不同的缓存实例。

在视图函数中，可以使用缓存装饰器cache_page来缓存整个页面。例如：

from django.views.decorators.cache import cache_page

@cache_page(60 * 15) # 缓存15分钟

def my_view(request):

# 视图函数的逻辑

pass

上述代码将my_view视图函数的响应结果缓存 15 分钟，在这 15 分钟内，当有相同的请求到达时，Django 会直接从缓存中返回页面，而不需要重新执行视图函数的逻辑，大大提高了响应速度。

如果要缓存数据库查询结果，可以在模型层进行操作。例如，假设我们有一个Article模型，获取文章列表时希望缓存查询结果：

from django.core.cache import cache

from.models import Article

def get_article_list():

cache_key = 'article_list'

articles = cache.get(cache_key)

if not articles:

articles = Article.objects.all()

cache.set(cache_key, articles, 60 * 10) # 缓存10分钟

return articles

在上述代码中，首先尝试从缓存中获取文章列表，如果缓存中不存在，则从数据库中查询，然后将查询结果存入缓存，并设置缓存有效期为 10 分钟，下次再调用该函数时，如果缓存未过期，就可以直接从缓存中获取文章列表，减少了数据库查询次数。

配置缓存头

配置缓存头是控制网站缓存策略的关键步骤，通过合理设置缓存头，可以精确地控制浏览器和中间缓存服务器如何缓存资源。在 HTTP 响应头中，Cache-Control和Expires是两个主要用于控制缓存的字段。

对于不经常更新的静态资源，如网站的图标文件favicon.ico，可以设置较长的缓存时间。在服务器配置中，添加如下响应头设置：

<FilesMatch "/.(ico)$">

Header set Cache-Control "public, max-age=31536000"

</FilesMatch>

上述 Apache 配置表示对于所有的ico文件，设置Cache-Control头为public, max-age=31536000，public表示所有内容都将被缓存，包括浏览器和中间缓存服务器；max-age=31536000表示缓存有效期为 31536000 秒（即 1 年），这样在一年内，用户再次访问该图标文件时，浏览器会直接从本地缓存中获取，无需向服务器发送请求。

对于一些动态生成的内容，如新闻详情页面，虽然内容更新相对频繁，但也可以适当设置缓存。可以使用协商缓存策略，通过设置Last-Modified和ETag头来实现。例如在 Python 的 Flask 框架中：

from flask import Flask, make_response

import hashlib

app = Flask(__name__)

@app.route('/news/<int:news_id>')

def news_detail(news_id):

# 获取新闻数据

news = get_news(news_id)

response = make_response(news.content)

# 设置Last-Modified头

last_modified = news.updated_at.strftime('%a, %d %b %Y %H:%M:%S GMT')

response.headers['Last-Modified'] = last_modified

# 计算ETag

etag = hashlib.md5(news.content.encode()).hexdigest()

response.headers['ETag'] = etag

return response

在上述代码中，首先获取新闻数据，然后创建响应对象。通过news.updated_at获取新闻的更新时间，并设置为Last-Modified头的值；通过对新闻内容进行 MD5 哈希计算生成ETag值，并设置到响应头中。当浏览器再次请求该新闻页面时，会在请求头中携带If-Modified-Since（值为上次的Last-Modified）和If-None-Match（值为上次的ETag），服务器根据这些值判断新闻内容是否有更新，如果未更新则返回 304 状态码，告知浏览器继续使用本地缓存，从而实现协商缓存。

总结网站缓存的重要性

网站缓存是提升网站性能的关键技术，它通过将数据临时存储在特定介质中，减少了数据的重复获取和处理，从多个方面为网站带来显著优势。无论是加快网页加载速度，让用户能够快速获取所需信息，提升用户体验；还是减轻服务器负担，使服务器能够更高效地运行；亦或是节省带宽资源，降低运营成本，缓存都发挥着不可或缺的作用。对于网站开发者和运营者来说，深入理解网站缓存的原理、类型和设置方法，合理利用缓存技术，根据网站的实际需求和特点，选择合适的缓存策略和工具，是优化网站性能、提升用户满意度、增强网站竞争力的重要举措。在不断发展的互联网环境中，持续关注和优化网站缓存，将为网站的稳定运行和良好发展提供有力支持。

tag:确博日志