认知搜索一位消息人士估计,平均每家公司存储数百 TB 的数据,其中绝大多数未被充分利用以获取洞察力。根据 Forrester 的一项调查,公司内部 60% 到 73% 的所有数据从未被分析过以获得更大的趋势。
这就是像 Vectara 这样的搜索引擎可以提供帮助的地方。
VectaraVectara 提供了基于 API 的人工智能搜索技术它声称可以处理任意长度、歧义程度和跨大量多语言文档的语言的查询。
Vectara 让人想起“认知搜索”引擎,例如Amazon Kendra和Microsoft SharePoint Syntex,它们利用企业知识库来拼凑员工问题的答案。对此类搜索技术的需求增长反映了公司在业务过程中必须处理的数据量的增长。
在高层次上,Vectara 允许用户询问有关其公司数据的问题,并返回包含对源数据集的引用的摘要。该平台实时摄取新文档,提供“客户端可配置”的数据保留,使组织能够在索引后丢弃原始文档和文本,这样公司的任何残留数据都不会保留在 Vectara 的搜索索引中。
开源 Haystack“ Haystack 是公司的旗舰开源产品,它的诞生源于在为大型组织构建 NLP 时获得的经验、专业知识和专有技术,以及对可扩展、API 驱动的 NLP 后端应用程序的适当构建块的需求。”
Haystack 允许开发人员为 NLP 用例构建管道。该框架最初是为搜索应用程序创建的,可以为回答特定问题(例如,“为什么初创公司搬到柏林?”)或筛选文档的引擎提供动力。
Haystack 还可以进行“基于知识”的搜索,在具有大量数据的网站或内部 wiki 上查找详细信息。Rusic 表示,Haystack 已被用于自动化金融服务公司的风险管理工作流程,返回诸如“业务前景如何?”之类的查询结果。以及“过去几年的收入是如何演变的?” 其他组织,如 Alcatel-Lucent Enterprise,已经利用 Haystack 推出了向现场技术人员推荐文档的虚拟助手。
“[使用 Deepset Cloud] 开发的所有 NLP 服务都可以在任何终端应用程序中使用,只需集成 API,”Rusic 说。“示例应用程序是 NLP 驱动的企业搜索(想想‘现代谷歌式’搜索)和知识管理。”
TC
Deepset 筹集 1400 万美元帮助公司构建 NLP 应用程序:
milvus为可扩展的相似性搜索构建的向量数据库
