Inverted File Index¶

约 1029 个字 9 张图片预计阅读时间 5 分钟

当我们使用网页搜索时，搜索引擎会快速地从大量网页中找到与查询相关的内容。这是如何做到的呢？

倒排索引示例¶

倒排索引

影响倒排索引的一个因素就是停止词的存在。某些情况下，一些常见词在文档和用户需求进行匹配时价值并不大，需要彻底从词汇表中去除。这些词称为停用词（stop word）。

常见的停用词

然而，有时去除停用词也不是一个好选择。例如，短语查询President of the United States显然比"President" and "United States"搜索更加准确。

词条化是将文本分解为单独的词语或词组的过程。这个过程对于构建倒排索引至关重要，因为它决定了索引的粒度和准确性。

词条化示例

假设我们有以下文本：

The quick brown fox jumps over the lazy dog.

经过词条化处理后，我们得到以下词条：

[The, quick, brown, fox, jumps, over, the, lazy, dog]

在词条化过程中，我们需要考虑以下几个方面：

词条化工具

有许多现成的工具和库可以帮助实现词条化，例如NLTK（Natural Language Toolkit）和SpaCy。这些工具提供了丰富的功能，可以根据不同的需求进行定制。

例题

T1T2T3T4T5T6T7

解析

这是 term-partitioned 策略。

解析

解析

这句话的意思是：在评估机场安检中的爆炸物检测时，精确率比召回率更重要。

解析

wu

解析

准确理解什么是准确率什么是召回率即可。

解析

爱用用，不用滚。用户友好什么的，不存在的（bushi）

解析

\(\text{recall}=\frac{4000}{4000+8000}=33\%\)

暂时没什么要写了，等以后想到吧。