# Retrievers

retriever是一个接口，它可以给定的查询返回相关的文档。它接受一个字符串查询作为输入，并返回一个`Document`列表作为输出。
LangChain提供的Retrievers如下：
https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/#advanced-retrieval-types

LangChain社区也提供了很多的Retrieves，如下：
https://python.langchain.com/v0.1/docs/integrations/retrievers/

LangChain中Retrievers的代码定义在`langchain-guide/lib/python3.11/site-packages/langchain_community/vectorstores/__init__.py`中

In [1]:
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader(
    web_paths=("https://daliuchen.github.io/langchain-guide/intro.html",)
)
loader.load()

USER_AGENT environment variable not set, consider setting it to identify your requests.


[Document(page_content='\n\n\n\n\n\n欢迎来到我的langchain的学习手册 — langchan study guide\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nSkip to main content\n\n\nBack to top\n\n\n\n\n\n\n\n\n\n\nCtrl+K\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n                    欢迎来到我的langchain的学习手册\n                \n\n\n\nhappy path\nLangChain Expression Language\nPrompt templates\nExample selectors\nOutput parsers\nRAG检索增强\nRetrievers\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nRepository\n\n\n\n\n\n\nOpen issue\n\n\n\n\n\n\n\n\n\n\n\n\n\n.md\n\n\n\n\n\n\n\n.pdf\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n欢迎来到我的langchain的学习手册\n\n\n\n\n Contents \n\n\n\n欢迎来到我的langchain的学习手册\nlangchain总述\n一句话说清\n是什么？\n特点\n整体架构\n\n\n\n\n\n\n\n\n\n\n欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，l

## 向量存储检索器

构建向量数据库，存储数据

In [2]:
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(texts, embeddings)
print(db)

<langchain_community.vectorstores.chroma.Chroma object at 0x117c8cbd0>


构建retriever查询

In [3]:
retriever = db.as_retriever()
# 默认使用的相似性计算
retriever.invoke("LangChain的特点")

[Document(page_content='欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，\n有很多好用的东西，方便我们开发LLM的应用程序\n\n\n是什么？#\n\n基于大语言模型的开发框架（LLM）\n大语言模型的一站式开发框架\n\n特点#\n\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）', metadata={'language': 'en', 'source': 'https://daliuchen.github.io/langchain-guide/intro.html', 'title': '欢迎来到我的langchain的学习手册 — langchan study guide'}),
 Document(page_content='next\nhappy path\n\n Contents\n  \n\n\n欢迎来到我的langchain的学习手册\nlangchain总述\n一句话说清\n是什么？\n特点\n整体架构\n\n\nBy liuchen\n\n\n    \n      © Copyright 2023.', metadata={'language': 'en', 'source': 'https://daliuchen.github.io/langchain-guide/intro.html', 'title': '欢迎来到我的langchain的

默认采用相似性来计算，可以修改为使用MMR来计算,并且规定只返回一条，设置相似性得分， 大于0.5的 才是符合条件的

In [4]:
retriever = db.as_retriever(search_type="mmr",search_kwargs={"k": 1,"score_threshold":0.8})
retriever.invoke("LangChain的特点")

Number of requested results 20 is greater than number of elements in index 4, updating n_results = 4


[Document(page_content='欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，\n有很多好用的东西，方便我们开发LLM的应用程序\n\n\n是什么？#\n\n基于大语言模型的开发框架（LLM）\n大语言模型的一站式开发框架\n\n特点#\n\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）', metadata={'language': 'en', 'source': 'https://daliuchen.github.io/langchain-guide/intro.html', 'title': '欢迎来到我的langchain的学习手册 — langchan study guide'})]

## MultiQueryRetriever

这是检索优化的方式，上面的retriever存在一个问题，检索不准确，这里的优化方式是通过LLM，将单一的搜索，拓展为多个维度的搜索。提高了搜索的精度，并且会将搜索到的结果合并在一起。

In [5]:

from langchain.retrievers.multi_query import MultiQueryRetriever, DEFAULT_QUERY_PROMPT
from langchain_openai import ChatOpenAI

question = "LangChain的特点是什么"
llm = ChatOpenAI(temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=db.as_retriever(), llm=llm
)
print(retriever_from_llm)

retriever=VectorStoreRetriever(tags=['Chroma', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.chroma.Chroma object at 0x117c8cbd0>) llm_chain=PromptTemplate(input_variables=['question'], template='You are an AI language model assistant. Your task is \n    to generate 3 different versions of the given user \n    question to retrieve relevant documents from a vector  database. \n    By generating multiple perspectives on the user question, \n    your goal is to help the user overcome some of the limitations \n    of distance-based similarity search. Provide these alternative \n    questions separated by newlines. Original question: {question}')
| ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x1272524d0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x13670a310>, temperature=0.0, openai_api_key=SecretStr('**********'), openai_api_base='https://ai-yyds.com/v1', openai_proxy='')
| LineListOutputParser()


从上面可以看到，它是需要和模型做交互的，下面是他的promot

In [6]:
# 下面是他的promot
print(DEFAULT_QUERY_PROMPT.template)

You are an AI language model assistant. Your task is 
    to generate 3 different versions of the given user 
    question to retrieve relevant documents from a vector  database. 
    By generating multiple perspectives on the user question, 
    your goal is to help the user overcome some of the limitations 
    of distance-based similarity search. Provide these alternative 
    questions separated by newlines. Original question: {question}


In [7]:
# Set logging for the queries
import langchain
langchain.debug=True
# 查询
unique_docs = retriever_from_llm.invoke(question)
len(unique_docs) # 查找到了四个文档

[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "LangChain的特点是什么"
}
[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:RunnableSequence > prompt:PromptTemplate] Entering Prompt run with input:
[0m{
  "question": "LangChain的特点是什么"
}
[36;1m[1;3m[chain/end][0m [1m[retriever:Retriever > chain:RunnableSequence > prompt:PromptTemplate] [1ms] Exiting Prompt run with output:
[0m[outputs]
[32;1m[1;3m[llm/start][0m [1m[retriever:Retriever > chain:RunnableSequence > llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: You are an AI language model assistant. Your task is \n    to generate 3 different versions of the given user \n    question to retrieve relevant documents from a vector  database. \n    By generating multiple perspectives on the user question, \n    your goal is to help the user overcome some of the limitations \n    of distance-based similarity searc

4

## 内容压缩检索器

在检索的过程中，面临一个问题：数据有很多，一次查询可能会查出很多无关的数据，即使调整查询的score和方式也不能满足，不可能最少化的通过检索来找出想要的数据（信息密度太低），如果将整个文档全部塞给LLM，LLM生成的响应可能也有很多无用的话，甚至只是将你塞给他的数据，复述一遍，并且这还会花费很多的token。

Contextual compression 就是解决了这个问题，这个想法很简单：不要返回检索到的原始数据，而是根据查询的上下文压缩文档，只返回相关的信息。这里的“压缩”指的是对单个文档内容进行压缩，同时也可以整体过滤掉一些文档。
在LangChain里面`ContextualCompressionRetriever`要配合`Filter使用`，不同的`Filter`有不同的内容处理方式。

In [8]:
# Helper function for printing docs
def pretty_print_docs(docs):
    print(
        f"\n{'-' * 100}\n".join(
            [f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
        )
    )
    
#   retriever 用户还是上面的  
retriever = Chroma.from_documents(texts, OpenAIEmbeddings()).as_retriever(search_kwargs={'k': 2})
docs = retriever.invoke("LangChain的特点是什么？")
pretty_print_docs(docs)

Document 1:

欢迎来到我的langchain的学习手册#
langchain最近很火热，在这里记录我对langchain的学习。
欢迎大家一块添砖加瓦


langchain总述#
langchain官网：
https://python.langchain.com/v0.2/docs/introduction/

一句话说清#
在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，
有很多好用的东西，方便我们开发LLM的应用程序


是什么？#

基于大语言模型的开发框架（LLM）
大语言模型的一站式开发框架

特点#

简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。
提供了一站式的开发框架，包括开发，部署，观测
简化了llm应用生命周期阶段，包括

开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。
生产：LangSmith可以检查、监控和评估chain。
部署：LangServe可以将chain暴露给外部服务来使用（API）
----------------------------------------------------------------------------------------------------
Document 2:

欢迎来到我的langchain的学习手册#
langchain最近很火热，在这里记录我对langchain的学习。
欢迎大家一块添砖加瓦


langchain总述#
langchain官网：
https://python.langchain.com/v0.2/docs/introduction/

一句话说清#
在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，
有很多好用的东西，方便我们开发LLM的应用程序


是什么？#

基于大语言模型的开发框架（LLM）
大语言模型的一站式开发框架

特点#

简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。
提供了一站式的开发框架，包括开发，部署，观测
简化了ll

### 内容提取Filter(LLMChainExtractor)

In [9]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI

llm = OpenAI(temperature=0)


compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "LangChain的特点是什么？"
)
pretty_print_docs(compressed_docs)

[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "LangChain的特点是什么？",
  "context": "欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，\n有很多好用的东西，方便我们开发LLM的应用程序\n\n\n是什么？#\n\n基于大语言模型的开发框架（LLM）\n大语言模型的一站式开发框架\n\n特点#\n\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）"
}
[32;1m[1;3m[llm/start][0m [1m[retriever:Retriever > chain:LLMChain > llm:OpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Given the following question and context, extract any part of the context *AS IS* that is relevant to answer the question. If none of the context is relevant return NO_OUTPU

从上面的执行过程可以看到，它会将每个搜索到的文档，和原始的问题，传递给LLM做汇总和内容整理。


### 内容相关Filter(LLMChainFilter)

将找到的每一个文档的内容和原始的问题，传递给LLM，让LLM来决定两者是否有关，没有关系的文档直接过滤掉，有关系的直接返回，并且不会对文档的内容做提取

In [10]:
from langchain.retrievers.document_compressors import LLMChainFilter

_filter = LLMChainFilter.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=_filter, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "LangChain的有什么组件？"
)
pretty_print_docs(compressed_docs)

[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "LangChain的有什么组件？",
  "context": "欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，\n有很多好用的东西，方便我们开发LLM的应用程序\n\n\n是什么？#\n\n基于大语言模型的开发框架（LLM）\n大语言模型的一站式开发框架\n\n特点#\n\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）"
}[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "LangChain的有什么组件？",
  "context": "欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction

### EmbeddingsFilter

上面的几个Filter，是要和LLM做交互的，虽然返回的内容精简了不少，但是花费一点都没有少。EmbeddingsFilter提供了一种便宜快速的选项，在从向量数据量中查找到数据后，对于每个文档再次Embedding，对query也再次Embedding，在计算一次相似度，只有满足的才能返回。

In [11]:
from langchain.retrievers.document_compressors import EmbeddingsFilter
from langchain_openai import OpenAIEmbeddings


embeddings = OpenAIEmbeddings()
retriever = db.as_retriever(search_kwargs={'k': 2})
embeddings_filter = EmbeddingsFilter(embeddings=embeddings, similarity_threshold=0.76)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=embeddings_filter, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "LangChain的特点是什么"
)
pretty_print_docs(compressed_docs)

Document 1:

欢迎来到我的langchain的学习手册#
langchain最近很火热，在这里记录我对langchain的学习。
欢迎大家一块添砖加瓦


langchain总述#
langchain官网：
https://python.langchain.com/v0.2/docs/introduction/

一句话说清#
在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，
有很多好用的东西，方便我们开发LLM的应用程序


是什么？#

基于大语言模型的开发框架（LLM）
大语言模型的一站式开发框架

特点#

简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。
提供了一站式的开发框架，包括开发，部署，观测
简化了llm应用生命周期阶段，包括

开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。
生产：LangSmith可以检查、监控和评估chain。
部署：LangServe可以将chain暴露给外部服务来使用（API）
----------------------------------------------------------------------------------------------------
Document 2:

欢迎来到我的langchain的学习手册#
langchain最近很火热，在这里记录我对langchain的学习。
欢迎大家一块添砖加瓦


langchain总述#
langchain官网：
https://python.langchain.com/v0.2/docs/introduction/

一句话说清#
在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，
有很多好用的东西，方便我们开发LLM的应用程序


是什么？#

基于大语言模型的开发框架（LLM）
大语言模型的一站式开发框架

特点#

简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。
提供了一站式的开发框架，包括开发，部署，观测
简化了ll

### 组合Filter(DocumentCompressorPipeline)
一个组合各个Filter的Pipeline，在下面的例子中，从向量数据库中查出来原始的文档后，首先使用`CharacterTextSplitter`对文档做切分，按照`\n`,之后使用`EmbeddingsRedundantFilter`剔除掉重复的文档，在使用`EmbeddingsFilter`做相似性查找，在使用`LLMChainExtractor`做内容提取和压缩。

In [12]:
from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_text_splitters import CharacterTextSplitter

splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0, separator="\n")
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings)
relevant_filter = EmbeddingsFilter(embeddings=embeddings, similarity_threshold=0.76)

pipeline_compressor = DocumentCompressorPipeline(
    transformers=[splitter,redundant_filter,relevant_filter]
)


compression_retriever = ContextualCompressionRetriever(
    base_compressor=pipeline_compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "LangChain的特点是什么"
)
pretty_print_docs(compressed_docs)

Document 1:

大语言模型的一站式开发框架
特点#
简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。
提供了一站式的开发框架，包括开发，部署，观测
简化了llm应用生命周期阶段，包括
开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。
生产：LangSmith可以检查、监控和评估chain。
部署：LangServe可以将chain暴露给外部服务来使用（API）
----------------------------------------------------------------------------------------------------
Document 2:

欢迎来到我的langchain的学习手册#
langchain最近很火热，在这里记录我对langchain的学习。
欢迎大家一块添砖加瓦
langchain总述#
langchain官网：
https://python.langchain.com/v0.2/docs/introduction/
一句话说清#
在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，
有很多好用的东西，方便我们开发LLM的应用程序
是什么？#
基于大语言模型的开发框架（LLM）


上面没有添加压缩，下面增加压缩

In [13]:
compressor_fitler = LLMChainExtractor.from_llm(llm)
pipeline_compressor = DocumentCompressorPipeline(
    transformers=[splitter,redundant_filter,relevant_filter,compressor_fitler]
)


compression_retriever = ContextualCompressionRetriever(
    base_compressor=pipeline_compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "LangChain的特点是什么"
)
pretty_print_docs(compressed_docs)

[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "LangChain的特点是什么",
  "context": "大语言模型的一站式开发框架\n特点#\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）"
}
[32;1m[1;3m[llm/start][0m [1m[retriever:Retriever > chain:LLMChain > llm:OpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Given the following question and context, extract any part of the context *AS IS* that is relevant to answer the question. If none of the context is relevant return NO_OUTPUT. \n\nRemember, *DO NOT* edit the extracted parts of the context.\n\n> Question: LangChain的特点是什么\n> Context:\n>>>\n大语言模型的一站式开发框架\n特点#\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（A

## 自定义
在自定义的时候要实现`BaseRetriever`接口，并且实现两个方法
- `_get_relevant_documents`
- `_aget_relevant_documents`
在这里做一个字符串查询

In [14]:
from typing import List

from langchain_core.callbacks import CallbackManagerForRetrieverRun
from langchain_core.documents import Document
from langchain_core.retrievers import BaseRetriever


class ToyRetriever(BaseRetriever):
    
    documents: List[Document]
    
    def _get_relevant_documents(
        self, query: str, *, run_manager: CallbackManagerForRetrieverRun
    ) -> List[Document]:
        """Sync implementations for retriever."""
        matching_documents = []
        for document in self.documents:
            if query.lower() in document.page_content.lower():
                matching_documents.append(document)
        return matching_documents

In [15]:
from langchain_core.documents import Document
documents = [
    Document(
        page_content="今天的天气真好",
        metadata={"type": "dog", "trait": "loyalty"},
    ),
    Document(
        page_content="南京市的天气正好",
        metadata={"type": "cat", "trait": "independence"},
    ),
    Document(
        page_content="南京是今天下雨了，天气真好",
        metadata={"type": "fish", "trait": "low maintenance"},
    )
]
retriever = ToyRetriever(documents=documents)
datas = retriever.invoke("南京")
print(datas)

[Document(page_content='南京市的天气正好', metadata={'type': 'cat', 'trait': 'independence'}), Document(page_content='南京是今天下雨了，天气真好', metadata={'type': 'fish', 'trait': 'low maintenance'})]


## Long-Context Reorder（重排文档顺序）

一般来说，一次对话，包含10个或者更多检索到的文档的时候，性能会显著下降，模型会忽略提供的文档。
处理这个问题的方式是：将排序到的文档后重新排序，来避免性能下降

In [16]:
from langchain_community.document_transformers import LongContextReorder

retriever = db.as_retriever(search_kwargs={'k': 3})
documents = retriever.invoke("LangChain的特点是什么")
reordering = LongContextReorder()
reordering.transform_documents(documents) # 在这个方法里面重新排序文章

[Document(page_content='欢迎来到我的langchain的学习手册#\nlangchain最近很火热，在这里记录我对langchain的学习。\n欢迎大家一块添砖加瓦\n\n\nlangchain总述#\nlangchain官网：\nhttps://python.langchain.com/v0.2/docs/introduction/\n\n一句话说清#\n在和LLM交互的时候，首先需要写prompt，在调用LLM提供的API，解析输出。这里面就有三步，langchain将这三步抽象简化，并且提供了很多组件，他有强大的社区，\n有很多好用的东西，方便我们开发LLM的应用程序\n\n\n是什么？#\n\n基于大语言模型的开发框架（LLM）\n大语言模型的一站式开发框架\n\n特点#\n\n简化了大语言模型开发的难度，将和模型交互的各个阶段做抽象组合。\n提供了一站式的开发框架，包括开发，部署，观测\n简化了llm应用生命周期阶段，包括\n\n开发：Langchain提供了很多的组件，模块来构建应用程序，并且有有强大的社区生态。\n生产：LangSmith可以检查、监控和评估chain。\n部署：LangServe可以将chain暴露给外部服务来使用（API）', metadata={'language': 'en', 'source': 'https://daliuchen.github.io/langchain-guide/intro.html', 'title': '欢迎来到我的langchain的学习手册 — langchan study guide'}),
 Document(page_content='next\nhappy path\n\n Contents\n  \n\n\n欢迎来到我的langchain的学习手册\nlangchain总述\n一句话说清\n是什么？\n特点\n整体架构\n\n\nBy liuchen\n\n\n    \n      © Copyright 2023.', metadata={'language': 'en', 'source': 'https://daliuchen.github.io/langchain-guide/intro.html', 'title': '欢迎来到我的langchain的

## 多向量检索器（MultiVector Retriever）

LLM开发的一个重点是检索到文档的相似度越高越好，对于一个文档，他的向量越多越好，这样他被查找到的可能性就越大，有下面的三种方式可以做到

1. Smaller chunks
2. Summary
3. Hypothetical Queries)

下面有详细的介绍

In [17]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

loaders = [
    WebBaseLoader(web_path="https://blog.csdn.net/daliucheng/article/details/136160807"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
docs = text_splitter.split_documents(docs)
for item in docs:
    print(len(item.page_content))

9893
5746


### Smaller chunks

将文档切分为小块，查找的时候通过小块查找，返回的时候会将小块所关联的父文档返回，在下面的例子中
上面加载了文档，切分为了两个文档，之后遍历每个文档，将它切分为400个字符的的小块，做Embedding操作。
在搜索到结果之后，会返回每个小文档的父文档。

In [18]:
from langchain.retrievers import MultiVectorRetriever
from langchain_core.stores import InMemoryByteStore

# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings()
)
# 最终，父文档会存储在这里，通过uuid来标识，每个子文档中的metadata中都有一个doc_id的key，关联到父文档
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
import uuid

doc_ids = [str(uuid.uuid4()) for _ in docs]

In [19]:
# The splitter to use to create smaller chunks
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

In [20]:
sub_docs = []
for i, doc in enumerate(docs):
    _id = doc_ids[i]
    _sub_docs = child_text_splitter.split_documents([doc])
    for _doc in _sub_docs:
        _doc.metadata[id_key] = _id
    sub_docs.extend(_sub_docs)

In [21]:
# 将子文档存储在向量数据库中
retriever.vectorstore.add_documents(sub_docs)
# 将父文档存储起来
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [22]:
# 通过这种方式，直接查找的是分割出来的小文档
len(retriever.vectorstore.similarity_search("WebDriver是什么"))

4

In [23]:
# 通过它，返回的子文档关联的父文档,返回的是第一个文档
len(retriever.invoke("WebDriver是什么")[0].page_content)

9893

### 汇总总结（Summary）

In [24]:
import uuid

from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
"".strip()
chain = (
    {"doc": lambda x: x.page_content.strip().replace("\n","").replace("\t","").replace(" ","")}
    | ChatPromptTemplate.from_template("总结下面文档的内容:\n\n{doc}")
    | ChatOpenAI(max_retries=0)
    | StrOutputParser()
)
# 先对每个文章做总结
summaries = chain.batch(docs, {"max_concurrency": 5})

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc>] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc>] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] Entering Chain run with input:
[0m[inputs]
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] [0ms] Exiting Chain run with output:
[0m{
  "output": "CDP和Chrome_chromedevtoolsprotocol-CSDN博客CDP和Chromedaliucheng已于 2024-02-1900:07:33 修改阅读量1.7k收藏21点赞数27分类专栏：自动化测试文章标签：chrome自动化pythonnode.js于 2024-02-1823:45:32 首次发布版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原

In [25]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings())
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
print(summaries)
for item in summaries:
    print(len(item))
doc_ids = [str(uuid.uuid4()) for _ in docs]

['该文档总结了CDP和ChromeDevToolsProtocol（CDP）以及WebDriverProtocol之间的区别和联系。CDP和WebDriverProtocol是用于自动化浏览器的两个主要协议，大多数的浏览器自动化工具都是基于其中之一来实现的。WebDriverProtocol是一个用于控制浏览器的远程控制接口，而ChromeDevToolsProtocol是一个基于Chromium的浏览器的调试协议。通过这两种协议，可以通过代码来控制浏览器，完成浏览器的自动化行为。文中还介绍了Puppeteer和Playwright这两个工具，它们不依赖于WebDriver，而是直接通过ChromeDevToolsProtocol与浏览器通信，从而更加灵活和稳定地控制浏览器。最后，文中还提到了一些关于使用ChromeDevToolsProtocol的注意事项和建议，以及一些相关的资源链接。', '这篇文档介绍了如何设置Chrome浏览器的二进制文件位置，添加启动参数和扩展应用。同时还展示了如何使用Node.js和`chrome-remote-interface`模块与ChromeDevToolsProtocol交互来读取和修改本地存储(`localStorage`)的值。文档中提供了一个简单的示例代码，但强调了在实际使用中需要对错误进行适当处理以确保程序的稳定性和可靠性。']
399
191


In [26]:
# 遍历总结，生成总结docs，key还是uuid
summary_docs = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(summaries)
]

In [27]:
# 向量化总结
retriever.vectorstore.add_documents(summary_docs)
# 存储原始文档的映射关系
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [28]:
sub_docs = vectorstore.similarity_search("WebDriver是什么")
for item in sub_docs:
    print(len(item.page_content)) # 从输出的文档长度看，就是上面总结的文档

Number of requested results 4 is greater than number of elements in index 2, updating n_results = 2


399
191


In [29]:
retrieved_docs = retriever.invoke("WebDriver是什么")
print(len(retrieved_docs[0].page_content))

Number of requested results 4 is greater than number of elements in index 2, updating n_results = 2


9893


### 假设性查询(Hypothetical Queries)

利用LLM来生成一系列的提问，对这些问题做Embedding。

In [30]:
# 定义输出结构
functions = [
    {
        "name": "hypothetical_questions",
        "description": "生成的假设性问题",
        "parameters": {
            "type": "object",
            "properties": {
                "questions": {
                    "type": "array",
                    "items": {"type": "string"},
                },
            },
            "required": ["questions"],
        },
    }
]

In [31]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = (
    {"doc": lambda x: x.page_content}
    # Only asking for 3 hypothetical questions, but this could be adjusted
    | ChatPromptTemplate.from_template(
        "生成一个包含3个假设性问题的列表，中文回答，这些问题可以通过下面的文档来回答：\n\n{doc}"
    )
    # 给openAI绑定了工具
    | ChatOpenAI(max_retries=0, model="gpt-4").bind(
        functions=functions, function_call={"name": "hypothetical_questions"}
    )
    | JsonKeyOutputFunctionsParser(key_name="questions")
)

In [32]:
chain.invoke(docs[0])

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc>] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] Entering Chain run with input:
[0m[inputs]
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] [0ms] Exiting Chain run with output:
[0m{
  "output": "CDP和Chrome_chrome devtools protocol-CSDN博客\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nCDP和Chrome\n\n\n\n\n\ndaliucheng\n\n已于 2024-02-19 00:07:33 修改\n\n\n阅读量1.7k\n\n\n\n收藏\n\n                              21\n                          \n\n\n\n\n点赞数\n                            27\n                        \n\n\n\n\n\n\n分类专栏：\n自动化测试\n文章标签：\nchrome\n自动化\npython\nnode.js\n\n\n于 2024-02-18 23:45:32 首次发布\n\n

['什么是 WebDriver Protocol 和 Chrome DevTools Protocol (CDP)？',
 'WebDriver Protocol 和 Chrome DevTools Protocol (CDP) 相比，各自有什么优缺点？',
 '什么是 Puppeteer 和它的工作原理是什么？']

In [33]:
# 将所有的文档都执行此操作，生成提问
hypothetical_questions = chain.batch(docs, {"max_concurrency": 5})

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc>] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc>] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] Entering Chain run with input:
[0m[inputs]
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<doc> > chain:RunnableLambda] [1ms] Exiting Chain run with output:
[0m{
  "output": "CDP和Chrome_chrome devtools protocol-CSDN博客\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nCDP和Chrome\n\n\n\n\n\ndaliucheng\n\n已于 2024-02-19 00:07:33 修改\n\n\n阅读量1.7k\n\n\n

In [34]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="hypo-questions", embedding_function=OpenAIEmbeddings()
)
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]

In [35]:
question_docs = []
for i, question_list in enumerate(hypothetical_questions):
    question_docs.extend(
        [Document(page_content=s, metadata={id_key: doc_ids[i]}) for s in question_list]
    )
    
retriever.vectorstore.add_documents(question_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))
# 这只能找到相关的问题
sub_docs = vectorstore.similarity_search("CDP是什么")
# 找到原文
retrieved_docs = retriever.invoke("CDP是什么")

## Self-querying

他可以将自然语句，通过LLM结构化做结构化查询，然后在应用于向量存储，这个可以提高查询的相似性还可以应用元数据中的过滤器。所以，查询效率高

下面的链接列举出了相关的self query
https://python.langchain.com/v0.1/docs/integrations/retrievers/self_query/

流程如下：
![](../resource/img_8.png)


In [39]:
from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

# mock了文档，
docs = [
    Document(
        page_content=" 肖申克的救赎 The Shawshank Redemption (1994) ",
        metadata={"year": 1994, "rating": 9.7, "director": "弗兰克·德拉邦特"},
    ),
    Document(
        page_content=" 霸王别姬 (1993) ",
        metadata={"year": 1993, "director": "陈凯歌", "rating": 9.6},
    ),
    Document(
        page_content=" 阿甘正传 Forrest Gump (1994) ",
        metadata={"year": 1994, "director": "罗伯特·泽米吉斯", "rating": 9.5},
    ),
    Document(
        page_content=" 泰坦尼克号 Titanic (1997) ",
        metadata={"year": 1997, "director": "詹姆斯·卡梅隆", "rating": 9.5},
    ),
    Document(
        page_content=" 这个杀手不太冷 Léon (1994) ",
        metadata={"year": 1994, "director": "吕克·贝松","rating": 9.4},
    )
]
vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())
vectorstore.as_retriever().invoke("杀手")

[Document(page_content=' 这个杀手不太冷 Léon (1994) ', metadata={'director': '吕克·贝松', 'rating': 9.4, 'year': 1994}),
 Document(page_content=' 这个杀手不太冷 Léon (1994) ', metadata={'director': '吕克·贝松', 'rating': 9.4, 'year': 1994}),
 Document(page_content=' 肖申克的救赎 The Shawshank Redemption (1994) ', metadata={'director': '弗兰克·德拉邦特', 'rating': 9.7, 'year': 1994}),
 Document(page_content=' 肖申克的救赎 The Shawshank Redemption (1994) ', metadata={'director': '弗兰克·德拉邦特', 'rating': 9.7, 'year': 1994})]

In [43]:
# 创建self query retriever

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import ChatOpenAI

metadata_field_info = [
    AttributeInfo(
        name="director",
        description="电影的导演",
        type="string",
    ),
    AttributeInfo(
        name="year",
        description="电影上映的年份",
        type="integer",
    ),
    AttributeInfo(
        name="rating", description="电影评分，1到10", type="float"
    ),
]
document_content_description = "杀手"
llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectorstore,
    document_content_description,
    metadata_field_info,
)

In [44]:
# This example only specifies a filter
retriever.invoke("评分大于9的电影")

[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:query_constructor] Entering Chain run with input:
[0m{
  "query": "评分大于9的电影"
}
[32;1m[1;3m[chain/start][0m [1m[retriever:Retriever > chain:query_constructor > prompt:FewShotPromptTemplate] Entering Prompt run with input:
[0m{
  "query": "评分大于9的电影"
}
[36;1m[1;3m[chain/end][0m [1m[retriever:Retriever > chain:query_constructor > prompt:FewShotPromptTemplate] [1ms] Exiting Prompt run with output:
[0m[outputs]
[32;1m[1;3m[llm/start][0m [1m[retriever:Retriever > chain:query_constructor > llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Your goal is to structure the user's query to match the request schema provided below.\n\n<< Structured Request Schema >>\nWhen responding use a markdown code snippet with a JSON object formatted in the following schema:\n\n```json\n{\n    \"query\": string \\ text string to compare to document contents\n    \"filter\": string \\ logical condition statem

[Document(page_content=' 阿甘正传 Forrest Gump (1994) ', metadata={'director': '罗伯特·泽米吉斯', 'rating': 9.5, 'year': 1994}),
 Document(page_content=' 阿甘正传 Forrest Gump (1994) ', metadata={'director': '罗伯特·泽米吉斯', 'rating': 9.5, 'year': 1994}),
 Document(page_content=' 霸王别姬 (1993) ', metadata={'director': '陈凯歌', 'rating': 9.6, 'year': 1993}),
 Document(page_content=' 霸王别姬 (1993) ', metadata={'director': '陈凯歌', 'rating': 9.6, 'year': 1993})]

到此，结束了