程序员社区

系统设计中需要了解的缓存技术

系统设计中需要了解的缓存技术插图
数据中心

原文地址

摘要

你有没有注意到,如果你在一个网速很慢的环境下浏览网站,页面的文本加载比图片加载更快。然而,你稍后再访问同一网站时,你会发现页面加载速度很快。当你访问一个全新的网站,它需要比经常访问的网站(如Facebook或亚马逊)更多的加载时间。你知道为什么会这样吗?答案是缓存。

系统设计中需要了解的缓存技术插图1
低网速下加载Instagram页面

上图是我的Instagram页面在网速慢的情况下的样子。正如您所看到的,显示了文本数据,而您无法看到图像,因为页面仍在加载。

提供用户最佳体验是提高留存率和用户粘性的关键。当今世界竞争激烈,由于糟糕的用户体验,业务受到影响。想象你正在一个视频网站上看你最喜欢的电视剧,但是视频一直在缓冲。你会在这样的网站上继续看吗?‘

缓存:其工作原理是“局部性引用”。缓存充当数据的本地存储,以加快查找或检索速度。缓存的主要目标是减少读延迟并提高应用程序的吞吐量。下一节我们看一个现实生活中的缓存案例类比。

缓存的现实类比

假设你每天都做晚餐。你需要不同的原料,蔬菜,香料等来准备食物。但是你每天都会去超市买菜吗?那太麻烦,太耗时了。所以,你会首先检查你的厨房或冰箱里有没有这些材料。这样就避免了去超市的麻烦。

系统设计中需要了解的缓存技术插图2
冰箱就像蔬菜的缓存

在这里,你的冰箱就像一个缓存或本地蔬菜商店。使用缓存的最大好处是节省时间,你可以快速准备你的食物。

缓存工作原理

后端应用程序通常将数据存储在数据库中。当客户端要获取任何数据时,应用程序通过查询数据库,获取数据,并将其返回给用户。数据库服务器作为一个单独的进程运行,可以和应用服务器在不同的计算机上运行。

系统设计中需要了解的缓存技术插图3
应用服务器从DB获取数据

从数据库读取数据非常耗时,因为它需要网络传输和从文件系统获取数据的IO操作。如果数据存储在缓存中,读取操作将会非常快。当客户机重复请求相同的数据时,从缓存中获取数据比从数据库中获取数据更有意义。

例如:如果一条twitter被广泛传播,所有的客户端都会试图获取同一条推文的数据。由于twitter有数百万用户,使用缓存将避免对数据库的数百万次调用。

此外,缓存还减少了数据库的负载。如果在缓存中读到数据,将省去数据库调用,从而减少数据库的压力。简单地说,可以将缓存看作存储键值对的哈希表。从缓存读取数据的过程如下图所示:

系统设计中需要了解的缓存技术插图4
从Cache读取数据的过程

缓存的核心概念

TTL存活时间

缓存容量有限制的。必须清除缓存中应用服务器不再使用的条目。例如视频应用Netflix,服务器将把用户最常观看或最热门的视频缓冲到缓存中。它不需要存储收视率随着时间的推移而下降的视频。

数据淘汰策略

根据应用程序访问数据的方式,缓存可能在某个时间点被填满。因此,我们需要想出一种策略来从缓存中删除数据,腾出空间用于存储将来更有可能被访问的数据。

有多个缓存回收策略,比如:LRU (最近最少使用)、LFU (最不频繁的使用)、MRU (最近使用)等。这些策略使用预定义的逻辑从缓存中淘汰数据。我们将在下一节中讨论上述每一项。

LRU最近最少使用

此策略从缓存中删除最近使用最少的数据。一旦缓存满了,最近最少使用的数据就会从缓存中删除,最近读取的数据会添加到缓存中。

你可以想象Facebook在缓存中存储名人的照片。关注者的数据访问模式是对最近的照片感兴趣。当缓存满了,它将剔除最早添加的照片。

LFU最不经常使用的

此策略从缓存中删除最近使用最少的条目。一旦缓存满了,最不经常使用的条目就会从缓存中删除,最近访问的条目会添加到缓存中。

当你在发短信的时候输入任何一个单词,你的手机输入法就会推荐你选择多个单词,而不是输入整个单词。在内部,你的手机软件维护了一个缓存,包含了你输入的所有单词及其频率。

系统设计中需要了解的缓存技术插图5
手机软件推荐单词补全

缓存稍后将删除使用频率最低的单词。如果多个单词之间存在关联,那么最近最少使用的单词将被排除。在上面的例子中,如果你开始使用“feature”,“features”,“feather”等词,它就会停止向你推荐“feat”这个词(因为它会从缓存中被删除)。

MRU最近最频繁使用

在MRU中,最近使用的条目被删除,而旧的条目则优先保存在缓存中。如果数据访问模式是用户不太可能查看最近访问过的条目,则使用该策略来淘汰数据。让我们看一个例子。

系统设计中需要了解的缓存技术插图6
类似探探APP

上图是一种约会应用,通常会缓存用户的所有潜在匹配对象。当用户左右滑动个人资料时,应用程序不应该再次向用户推荐相同的资料。如果再次推荐,将导致糟糕的用户体验。有必要将最近阅读过的个人资料剔除。即应用程序必须从缓存中删除已经被用户刷过的数据。

缓存类型

直写式高速缓存

顾名思义,数据首先写入缓存,然后写入数据库。这种方式确保了缓存中的数据和数据库中的数据之间的一致性。在缓存上完成的每一次读都是最近一次写入的数据。

系统设计中需要了解的缓存技术插图7
直写式缓存

然而,这种方法的缺点是应用程序写延迟增加。这种方法不适用于写比较多的系统。对于那些将数据持久化到数据库后需要频繁地重新读取数据的应用程序来说,这中方式是非常有用的。写时延可能会受到影响,但读时延和一致性会降低。

回写式高速缓存

从上面可以看出,直写式缓存不适用于大量写操作的系统,因为延迟可能会增加。另一种方法是先将数据写入缓存,并将数据标记为已修改数据(稍后在DB中更新)。

系统设计中需要了解的缓存技术插图8
回写式高速缓存

使用异步作业可以定期读取缓存中所有修改过的条目,并在数据库中更新对应值。这种方法既不会影响读也不会影响写延迟。唯一的缺点是,由于缓存和DB之间的数据同步,会有延迟。由于数据库是数据的唯一来源,任何从数据库读取的应用程序都可能读取到旧数据。

像Youtube这样的网站使用回写式缓存来存储视频的观看次数。如果为每一个视频的每次观看而去更新数据库代价是很大的。将数据写入缓存,然后在数据库中同步是一个更好的解决方案。回写式缓存的使用可以降低读写时延。

Write Around缓存

一般后端应用程序会重读最常被读过的数据。在这种情况下,write around缓存被派上用场了。

系统设计中需要了解的缓存技术插图9
write around 缓存

在这个策略中,数据库更新时不写入缓存。这避免了将不会被重新读取的数据加载到缓存。否则应用程序查询最近访问过的数据,就会导致缓存命中率下降。

分布式系统中使用的缓存示例

下面是开源缓存产品列表:

  • Redis
  • Memcached
  • VoltDB
  • Aerospike DBS
  • Apache Ignite

参考文献

  • List of In-memory databases
  • What is Caching?
  • Distributed Caching
  • Types of Caches
  • Tinder image
  • Cover image
赞(0) 打赏
未经允许不得转载:IDEA激活码 » 系统设计中需要了解的缓存技术

一个分享Java & Python知识的社区