admin管理员组

文章数量:1037775

凌晨3点的深圳会议室:中国AI搜索黑马“博查”,正在用“脏活累活”掏空百度谷歌的护城河

当所有人盯着大模型厂商厮杀时,一家成立仅8个月的杭州公司,正在悄无声息地吃掉AI搜索的底层红利。博查AI——这个在C端几乎无人知晓的名字,却支撑着DeepSeek等头部大模型的联网搜索功能。

截至2025年3月,其搜索API日均调用量已突破3000万次,相当于微软必应国内市场的三分之一体量。这背后是一场关于技术路线、工程能力和商业嗅觉的精准卡位战。

传统搜索引擎只能匹配关键词,但博查的多模态混合搜索+语义排序技术彻底改变了游戏规则。通过跨模态语义理解生成结构化答案。这背后是三个关键技术:

  1. 视频语义切片:抖音短视频会被拆解成场景片段,配合ASR(语音识别)提取关键帧和文本信息,形成可检索的“视频知识图谱”
  2. 跨模态对齐:用CLIP模型将图片/视频特征向量与文本向量映射到同一空间,实现“用文字搜视频”和“用图片搜报告”
  3. 意图路由引擎:基于MoE(混合专家)架构,自动识别搜索意图并分发到通义千问、Kimi等不同领域大模型处理

实测数据显示,多模态搜索使答案准确率提升47%,尤其在电商、短视频、科研领域优势明显。某新能源车企用此技术分析竞品发布会视频,30分钟生成产品参数对比报告,效率提升20倍。

技术内核:多模态AI,“细致入微”的搜索革命

传统搜索引擎给大模型喂的是“大锅饭”——通过关键词匹配抓取海量网页,再由大模型自行消化。这种方式导致两个致命问题:

  • 一是搜索结果里掺杂大量广告、低质SEO内容,影响大模型输出质量;
  • 二是传统PageRank排序机制不符合大模型“语义理解”的进食习惯。

博查的解法是重构整个搜索管道:先用向量+关键词混合检索锁定目标,再用语义重排器给结果“预处理”

具体来说,当用户触发“南极蓝色巨门事件”搜索时,系统会并行启动两套检索机制:关键词模块抓取最新科研报告、社交媒体热词;向量模块则通过语义理解关联卫星图像分析、现场视频解读等内容。召回的结果并非直接丢给大模型,而是经过Semantic Reranker(语义重排器)二次加工——这个基于Transformer架构的排序模型,会对搜索结果进行意图匹配度评分,确保最终输出的前10条结果与问题语义高度契合。实测数据显示,经过语义重排的结果可使大模型生成答案的准确率提升32%,幻觉率下降至4%以下。

更底层的突破在于多模态混合检索体系。博查与字节跳动达成深度合作,独家接入抖音短视频、西瓜视频等内容源。其自研的视频语义切片技术,能将一段3分钟的抖音视频拆解为场景片段、语音文本、背景音乐等结构化数据,形成可检索的“视频知识图谱”。当用户搜索“黄梅戏经典选段”时,系统不仅返回文字版唱词解析,还能直接定位到相关视频的00:23-00:45秒高潮段落。这种跨模态对齐能力,让AI应用在处理短视频营销、热点事件追踪等场景时获得降维优势。

通过博查开放平台,开发者可快速接入三大API:

  1. Web Search API(基础搜索)
  2. AI Search API(带多模态总结)
  3. Agent Search API(领域深度搜索)
代码语言:javascript代码运行次数:0运行复制
import requests
url = ";
headers = {'Authorization': 'Bearer YOUR_KEY'}
data = {"query": "Multi Agent架构", "freshness": "oneYear"}
response = requests.post(url, headers=headers, json=data)
print(response.json()['results'][0]['summary'])

工程护城河:每秒2000次并发背后的“工程创新”

支撑日均3000万次调用的,是一套教科书级的高性能架构。在数据层,近百亿网页(含抖音短视频)采用LSM-Tree结构分片存储在300多个节点,通过增量更新机制实现毫秒级数据同步——这意味着当某个电商平台调价后,相关商品信息最快5分钟就能进入检索库。计算层则部署了自研的“凌云”语义排序模型,该模型通过FPGA加速卡实现单次推理能耗降低60%,响应时间控制在80ms以内。

最值得关注的是服务层的异步IO管道设计。传统搜索引擎采用串行处理模式,网络请求、数据解析、结果排序等环节必须依次进行,容易在高峰期形成阻塞。博查将整个流程拆解为独立线程,通过非阻塞式通信实现并行处理。在2024年“双十一”压力测试中,该系统成功扛住每秒2000次并发请求(相当于同时处理2000个用户搜索),且99.9%的请求延迟低于100ms。这种工程能力直接转化为商业竞争力——某跨境电商接入博查API后,其竞品价格监控系统的数据更新频率从每小时1次提升至每分钟1次。

合规红利:中国式AI搜索的生存法则

在国内做搜索服务,合规不是成本而是核心竞争力。博查构建了三重防护机制:

  • 内容过滤引擎实时扫描违规信息,对金融数据、个人隐私等敏感内容自动脱敏;
  • 涉及政策类查询时,系统优先返回政府官网、新华社等白名单信源,在测试中搜索“党员活动方案”返回结果里权威网站占比达73%,远高于传统搜索引擎。
  • 数据不出境架构——所有服务器部署在火山引擎华东节点,企业调用API需完成实名认证并签署数据安全协议。这种“带镣铐跳舞”的能力,让其成为钉钉、腾讯元器等政企平台的首选搜索服务商。

生态暗战:0.02元/次的“价格屠刀”,致敬DeepSeek

价格战是博查撕开市场的另一把利器。其搜索API定价0.02元/次,不到微软必应同规格服务的三分之一。这种激进策略背后是成本控制的极致追求:通过动态MoE(混合专家)架构动态分配算力,简单查询路由到13B小模型处理,复杂任务才启用70B大模型,使得单位调用成本降低58%。价格优势直接拉动客户增长——DeepSeek爆火后,博查企业客户数量激增50%,目前服务近3万家泛B端客户,涵盖新能源车企、投行、MCN机构等场景。

更隐秘的布局在于插件生态。开发者只需5行代码就能在扣子、钉钉等平台接入博查搜索插件,这种“预装式”合作让技术渗透变得无感却高效。某网红机构利用其视频搜索API开发的“抖音热榜分析机器人”,通过实时抓取Top100短视频的BGM、运镜模式和弹幕情感,将热点发现效率提升6倍。这些看似零散的生态合作,正在编织一张覆盖AI应用毛细血管的搜索网络。

未来变量:当搜索变成免费基础设施

博查CTO翁柔莹近期透露“未来搜索可能免费”,这暗示着更宏大的战略意图。参考云计算发展路径,当搜索成为AI时代的水电煤,靠API调用收费的商业模式必然让位于生态价值捕获。已有迹象显示,其正在测试搜索信用分体系——根据结果准确性动态调整服务优先级,这实则是为构建搜索质量评估标准埋下伏笔。更值得关注的是自研凌云70B模型的进展,该模型支持千亿token级长文本处理,或将重新定义复杂任务搜索的边界。

在这场无声的底层革命中,博查验证了一个残酷真相:AI时代最稳固的商业模式,或许不是创造智能,而是成为智能体连接现实的必经通道。当大模型厂商在参数竞赛中烧钱时,搜索层玩家正在用工程化能力闷声修筑护城河。

当所有人在追逐大模型时,博查证明了:在AI时代,最赚钱的不是挖金矿的人,而是卖铲子的

现在,这把铲子已经摆在开发者面前。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-11,如有侵权请联系 cloudcommunity@tencent 删除数据搜索百度模型视频

凌晨3点的深圳会议室:中国AI搜索黑马“博查”,正在用“脏活累活”掏空百度谷歌的护城河

当所有人盯着大模型厂商厮杀时,一家成立仅8个月的杭州公司,正在悄无声息地吃掉AI搜索的底层红利。博查AI——这个在C端几乎无人知晓的名字,却支撑着DeepSeek等头部大模型的联网搜索功能。

截至2025年3月,其搜索API日均调用量已突破3000万次,相当于微软必应国内市场的三分之一体量。这背后是一场关于技术路线、工程能力和商业嗅觉的精准卡位战。

传统搜索引擎只能匹配关键词,但博查的多模态混合搜索+语义排序技术彻底改变了游戏规则。通过跨模态语义理解生成结构化答案。这背后是三个关键技术:

  1. 视频语义切片:抖音短视频会被拆解成场景片段,配合ASR(语音识别)提取关键帧和文本信息,形成可检索的“视频知识图谱”
  2. 跨模态对齐:用CLIP模型将图片/视频特征向量与文本向量映射到同一空间,实现“用文字搜视频”和“用图片搜报告”
  3. 意图路由引擎:基于MoE(混合专家)架构,自动识别搜索意图并分发到通义千问、Kimi等不同领域大模型处理

实测数据显示,多模态搜索使答案准确率提升47%,尤其在电商、短视频、科研领域优势明显。某新能源车企用此技术分析竞品发布会视频,30分钟生成产品参数对比报告,效率提升20倍。

技术内核:多模态AI,“细致入微”的搜索革命

传统搜索引擎给大模型喂的是“大锅饭”——通过关键词匹配抓取海量网页,再由大模型自行消化。这种方式导致两个致命问题:

  • 一是搜索结果里掺杂大量广告、低质SEO内容,影响大模型输出质量;
  • 二是传统PageRank排序机制不符合大模型“语义理解”的进食习惯。

博查的解法是重构整个搜索管道:先用向量+关键词混合检索锁定目标,再用语义重排器给结果“预处理”

具体来说,当用户触发“南极蓝色巨门事件”搜索时,系统会并行启动两套检索机制:关键词模块抓取最新科研报告、社交媒体热词;向量模块则通过语义理解关联卫星图像分析、现场视频解读等内容。召回的结果并非直接丢给大模型,而是经过Semantic Reranker(语义重排器)二次加工——这个基于Transformer架构的排序模型,会对搜索结果进行意图匹配度评分,确保最终输出的前10条结果与问题语义高度契合。实测数据显示,经过语义重排的结果可使大模型生成答案的准确率提升32%,幻觉率下降至4%以下。

更底层的突破在于多模态混合检索体系。博查与字节跳动达成深度合作,独家接入抖音短视频、西瓜视频等内容源。其自研的视频语义切片技术,能将一段3分钟的抖音视频拆解为场景片段、语音文本、背景音乐等结构化数据,形成可检索的“视频知识图谱”。当用户搜索“黄梅戏经典选段”时,系统不仅返回文字版唱词解析,还能直接定位到相关视频的00:23-00:45秒高潮段落。这种跨模态对齐能力,让AI应用在处理短视频营销、热点事件追踪等场景时获得降维优势。

通过博查开放平台,开发者可快速接入三大API:

  1. Web Search API(基础搜索)
  2. AI Search API(带多模态总结)
  3. Agent Search API(领域深度搜索)
代码语言:javascript代码运行次数:0运行复制
import requests
url = ";
headers = {'Authorization': 'Bearer YOUR_KEY'}
data = {"query": "Multi Agent架构", "freshness": "oneYear"}
response = requests.post(url, headers=headers, json=data)
print(response.json()['results'][0]['summary'])

工程护城河:每秒2000次并发背后的“工程创新”

支撑日均3000万次调用的,是一套教科书级的高性能架构。在数据层,近百亿网页(含抖音短视频)采用LSM-Tree结构分片存储在300多个节点,通过增量更新机制实现毫秒级数据同步——这意味着当某个电商平台调价后,相关商品信息最快5分钟就能进入检索库。计算层则部署了自研的“凌云”语义排序模型,该模型通过FPGA加速卡实现单次推理能耗降低60%,响应时间控制在80ms以内。

最值得关注的是服务层的异步IO管道设计。传统搜索引擎采用串行处理模式,网络请求、数据解析、结果排序等环节必须依次进行,容易在高峰期形成阻塞。博查将整个流程拆解为独立线程,通过非阻塞式通信实现并行处理。在2024年“双十一”压力测试中,该系统成功扛住每秒2000次并发请求(相当于同时处理2000个用户搜索),且99.9%的请求延迟低于100ms。这种工程能力直接转化为商业竞争力——某跨境电商接入博查API后,其竞品价格监控系统的数据更新频率从每小时1次提升至每分钟1次。

合规红利:中国式AI搜索的生存法则

在国内做搜索服务,合规不是成本而是核心竞争力。博查构建了三重防护机制:

  • 内容过滤引擎实时扫描违规信息,对金融数据、个人隐私等敏感内容自动脱敏;
  • 涉及政策类查询时,系统优先返回政府官网、新华社等白名单信源,在测试中搜索“党员活动方案”返回结果里权威网站占比达73%,远高于传统搜索引擎。
  • 数据不出境架构——所有服务器部署在火山引擎华东节点,企业调用API需完成实名认证并签署数据安全协议。这种“带镣铐跳舞”的能力,让其成为钉钉、腾讯元器等政企平台的首选搜索服务商。

生态暗战:0.02元/次的“价格屠刀”,致敬DeepSeek

价格战是博查撕开市场的另一把利器。其搜索API定价0.02元/次,不到微软必应同规格服务的三分之一。这种激进策略背后是成本控制的极致追求:通过动态MoE(混合专家)架构动态分配算力,简单查询路由到13B小模型处理,复杂任务才启用70B大模型,使得单位调用成本降低58%。价格优势直接拉动客户增长——DeepSeek爆火后,博查企业客户数量激增50%,目前服务近3万家泛B端客户,涵盖新能源车企、投行、MCN机构等场景。

更隐秘的布局在于插件生态。开发者只需5行代码就能在扣子、钉钉等平台接入博查搜索插件,这种“预装式”合作让技术渗透变得无感却高效。某网红机构利用其视频搜索API开发的“抖音热榜分析机器人”,通过实时抓取Top100短视频的BGM、运镜模式和弹幕情感,将热点发现效率提升6倍。这些看似零散的生态合作,正在编织一张覆盖AI应用毛细血管的搜索网络。

未来变量:当搜索变成免费基础设施

博查CTO翁柔莹近期透露“未来搜索可能免费”,这暗示着更宏大的战略意图。参考云计算发展路径,当搜索成为AI时代的水电煤,靠API调用收费的商业模式必然让位于生态价值捕获。已有迹象显示,其正在测试搜索信用分体系——根据结果准确性动态调整服务优先级,这实则是为构建搜索质量评估标准埋下伏笔。更值得关注的是自研凌云70B模型的进展,该模型支持千亿token级长文本处理,或将重新定义复杂任务搜索的边界。

在这场无声的底层革命中,博查验证了一个残酷真相:AI时代最稳固的商业模式,或许不是创造智能,而是成为智能体连接现实的必经通道。当大模型厂商在参数竞赛中烧钱时,搜索层玩家正在用工程化能力闷声修筑护城河。

当所有人在追逐大模型时,博查证明了:在AI时代,最赚钱的不是挖金矿的人,而是卖铲子的

现在,这把铲子已经摆在开发者面前。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-11,如有侵权请联系 cloudcommunity@tencent 删除数据搜索百度模型视频

本文标签: 凌晨3点的深圳会议室中国AI搜索黑马“博查”,正在用“脏活累活”掏空百度谷歌的护城河