产品简介
阿里巴巴通义实验室千寻搜索算法,基于达摩院长期积累的自然语言处理技术,专注企业统一搜索场景,提供精准的多源异构搜索,以PaaS服务形式提供离线数据处理和搜索服务API。同时支持公有云、专有云、 基于云原生的基础架构下混合云 、私有化方式输出。
产品基于自然语言处理、机器学习技术和企业内部知识库,从相关性到认知智能,将语义、知识融入搜索过程和结果,提供高效、高准确率的搜索服务产品,帮助用户搜得到、搜得全、搜得准。面向企业客户,提供交互式多轮对话搜索、通讯录搜索、地址搜索、文档搜索等能力。面向企业和大模型的交互场景,提供检索增强能力。
产品优势
场景化、简单易用
开发者/ISV从0开始搭建搜索全链路门槛较高、有困难,千寻搜索算法针对企业内统一搜索的几大核心场景提供全链路搜索配置引导和默认算法能力支持。
行业领先的算法效果
全自研多语言Query分析能力(分词、NER、纠错、改写、分类等)。全链路算法结合LLM,算法效果驱动,中文多领域Embedding在检索数据集MRR@10表现优异。多路召回加精排相比纯向量检索, MRR@10及Recall显著提升。
灵活的搜索工程框架
支持多数据源;支持离线智能数据处理(文本、文档等)、支持ES等多引擎,系统组件支持模块化(比如搜索引擎兼容等)。
安全、稳定、高鲁棒性
服务稳定运行,并以在线工单等方式提供技术支持,具备完善的故障监控、自动告警、快速定位等一系列故障应急响应机制。基于阿里云的AccessKeyId和AccessKeySecret安全加密对,从访问接口上进行权限控制和隔离,保证用户级别的数据隔离,用户数据安全有保障。
应用场景
搜人
大型企业员工众多,需要多部门协同,可以通过员工姓名或部门等进行人员或部门的精确搜索,以卡片形式展示搜索信息,并可以链接到员工/部门组织架构,帮忙快速查询对应业务人员,提升部门间协同效率。
搜内容
对散落在各业务系统的内容资源和业务资源的全方位、多层面整合,建立全面的知识服务应用体系,结合各部门的需求,满足不同用户差异化的智能检索。
搜应用
大型企业有很多的业务应用和导航链接,通过统一搜索,不同角色可以搜索权限范围内的应用/导航,可以快速链接到对应的应用/导航,帮助提升员工自助效率。
搜地址
提供21级结构化标准地址数据,结合企业自身的地址数据,为企业提供统一标准的地址搜索服务。零售、能源、司法公安等多个行业场景均有强烈诉求。
泛场景基础搜索效果提升
基于达摩院NLP算法能力构建的搜索增强服务,帮助用户针对自有数据快速构建智能搜索服务,支持包括且不限于文本搜索、文档搜索、通讯录搜索、地址搜索等多种不同的搜索场景 。
智能客服助手
结合企业专属知识库,以对话机器人交互方式进行多轮对话问答,完成通识类或企业专属类问题快速解答,避免企业用户多源头人工搜索并总结繁琐流程,有效提升效能。
功能模块
搜索增强
功能简介
搜索增强是基于大规模分布式搜索引擎搭建的,面向企业提供的一站式智能搜索PaaS服务,为企业开发人员提供基础结构、API 和搜索工具。服务集成全自研多语言query分析能力(分词、NER、纠错、改写、分类等),多模型结构的预训练向量表示能力(encoder-only、decoder-only),混合召回和多因子排序能力(文本匹配、深度语义匹配)等,相对比纯向量检索,提升为行业领先搜索效果。
功能优势
优势1:行业领先的Chunk分析及文件解析能力
基于阿里巴巴达摩院自研IDP服务,对于不同格式数据源,进行切片,生成chunk数据,并加入一定量文本理解。
优势2:行业领先的搜索增强算法
全自研多语言Query分析能力,多模型结构的预训练向量表示能力,混合召回和多因子排序能力,多路召回加精排, 相比纯向量检索, MRR@10提升28%,Recall提升21.6%。
应用场景
针对企业泛搜索场景,对大模型进行搜索能力与效果增强。
多轮对话搜索
功能简介
多轮对话搜索是搜索与大模型的结合能力,支持用户基于自己的专有知识库搭建新一代的生成式搜索应用。区别于传统关键词匹配的搜索引擎,生成式搜索支持用户通过对话式交互来清晰地表达意图,并对查询到的知识根据用户意图进行个性化表达,生产更加清晰明确的回复。
功能优势
优势1:创新的对话式交互体验
支持用户以对话的形式来清晰地表达意图。通过多轮次、深度的对话来满足用户的查询需求。
优势2:灵活的智能搜索引擎
支持用户灵活配置索引以及多种召回排序算法,将语义、知识融入搜索过程中,提供高效、高准确率的搜索能力。
优势3:可信的答案回复
内置搜索版通义千问大模型,事实性、可靠性大幅提升。结合用户本地知识库降低答案幻觉。
应用场景
场景1:智能客服助手
集成企业产品信息,帮助处理用户咨询和问题,提高客服效率和用户满意度。
场景2:自然语言企业内部知识库
集成企业内部知识库,帮助员工快速查找所需信息,打造员工专属主力,提高工作效率。
千寻搜索算法原子能力
功能简介
能力1:多轮query改写
对用户输入的原始语句进行算法改写,使得模型更好理解及达到更好搜索召回效果,并支持多轮操作。
能力2:搜索判定
对于用户原始查询语句进行判断,是否需要进行搜索任务来完成查询及回答。
能力3:通用排序模型
对数据元素进行算法排序。
功能优势
行业领先的搜索算法,全自研多语言Query分析能力,多模型结构的预训练向量表示能力,混合召回和多因子排序能力,多路召回加精排, 相比纯向量检索, MRR@10提升28%,Recall提升21.6%。
应用场景
针对企业泛搜索场景,对大模型进行搜索能力与效果增强。
产品如何调用
基本概念
名词 | 描述 |
应用场景 | 搜索应用场景指的是在各种不同环境和情境下,使用搜索技术来查找和获取所需信息的情况。搜索应用场景广泛应用于互联网、移动应用、企业内部系统、智能设备等各个领域。常见的搜索应用场景包括互联网搜索、电子商务搜索、社交媒体搜索等等 |
检索引擎 | 文本检索引擎是一种用于从大量文本数据中快速检索相关信息的软件工具。它能够根据用户的查询词或关键字,从文本数据库中找到相关的文档或记录,并将其按照相关性排序后返回给用户。 |
搜索策略 | 针对特定搜索场景制定的搜索方案、包括查询召回策略、排序策略、业务逻辑筛选等 |
索引 | 检索引擎索引是指将大量文本数据进行结构化存储和标记的过程。在建立索引时,文本检索引擎会对每个文档进行分析和处理,提取出其中的关键词和其他重要信息,并将其存储到索引结构中。索引结构可以是多种形式,如倒排索引、哈希表或B树等。通过索引,检索引擎能够快速定位到包含查询关键词的文档,提高检索效率。索引的建立是文本检索引擎的重要步骤,它直接影响到后续查询处理和结果展示的速度和准确性。 |
索引字段 | 检索引擎索引字段是指在建立索引时,将数据中的特定字段进行提取和存储,以便在后续查询时能够快速定位到相关文档。例如,在电子邮件检索中,可以通过索引字段"发件人"和"收件人"来查找特定的邮件。索引字段的选择和设计需要根据具体应用场景和需求来确定,以提高检索的准确性和效率。合理使用索引字段可以提高检索引擎的性能和用户体验。 |
召回 | 搜索召回是指搜索产品根据用户的查询词,在庞大的数据集中找出与查询相关的文档,一般通过算法模型或规则匹配文档的关键词、标题、内容等信息,以及利用文档的相关性、权重等指标进行排序以提供准确、快速的搜索结果 |
排序 | 对召回结果进行进一步的排序。通过算法、模型或规则,根据文档的相关性、权重、用户反馈等指标,将搜索结果按照一定的顺序返回。搜索排序的目标是提高搜索结果的准。搜索排序算法通常会考虑多个因素,如关键词匹配度、文档的质量、用户偏好等,以提供个性化的搜索结果。 |
数据源 | 提供数据的源点,会根据这些数据来构建私域知识库,用于后续的检索、知识问答 |
大模型 | 大规模预训练语言模型是指使用海量文本数据进行预训练的语言模型。它通过学习大量的语言知识和语境信息,能够生成高质量的文本或提供语义理解。大规模预训练语言模型在自然语言处理任务中展现出强大的能力,如文本生成、机器翻译、问答系统等。然而,这样的模型需要大量的计算资源进行训练和推理,并对数据集的质量和多样性要求较高。大规模预训练语言模型是当前自然语言处理领域的重要研究方向。 |