检索增强
检索增强生成(RAG)是一种通过结合实时数据检索来增强大语言模型文本生成的技术。它允许模型在生成过程中搜索外部数据库,产生更准确和最新的响应。
RAG几乎每天都会有更新的方法、更好的技术和工具出现,没有完美的解决方案,实时跟进最新的技术,保持学习,才能在RAG领域保持竞争力。
推荐查看arxiv.org、Hugging Face Papers获取最新的RAG技术。
数据入库
文本化
在入库前需要对数据进行清洗。其中数据会出现丢失,例如PDF转为Markdown时会丢失一些信息,例如标题层级、小数点、下划线等。
常见的手段有:MinerU、Markitdown
如果数据非常重要,追求更好的效果可以考虑使用视觉大模型,例如Qwen-VL等。但是成本会升高。
图表中的文本在不用视觉模型的情况下,往往容易丢失信息。有的图表还是漫画这样的非标准字体。
后处理
获取到转换后的文本后,除了常见清洗、去乱码等操作之外,还可以试试:
本地模型摘要总结,将入库的文本总结,这一步可以节省大量存储空间。同时一些转化的错别字在总结时可以被模型自动调整。