亚博Zendesk Federated Search允许最终用户查看帮助中心搜索结果中的内容,这些内容存在于帮助中心的外部,例如外部知识库、学习管理软件、博客和网站页面。亚博官方app您可以使用Zendesk联邦搜索API或搜索爬虫来实现联邦搜索。亚博
搜索爬虫可以在帮助中心的搜索设置中使用,它允许您在帮助中心中实现联邦搜索,而无需开发人员资源(参见亚博电脑端设置搜索爬虫).您可以使用本文对在应用程序中设置搜索爬虫时可能遇到的爬虫设置和页面错误进行故障排除。
本文包含以下主题:
爬虫设置错误
当搜索爬虫由于域所有权验证或站点地图处理中的错误而无法成功运行时,会生成爬虫设置错误。爬虫安装错误会生成一个电子邮件通知,该通知发送给在搜索爬虫安装期间配置的爬虫所有者。
无法验证域所有权
搜索爬虫每次运行时都会尝试验证域名所有权,这可能需要长达24小时的时间。虽然如果域验证失败,会通过电子邮件通知爬虫所有者,但您可以在编辑搜索爬虫页面上立即测试验证。看到管理搜索爬虫。
要排除域验证错误,请验证以下内容:
- 你的网站的主页(也被称为索引或根页)是公开的。该页面不应该有任何用户登录、密码、IP限制或其他身份验证要求。
- 您已经从您的爬虫实现了正确的标记。它是免费的拼写错误,并在<头部>部分实现的网站的主页,你想要抓取。域验证标签应该始终放在网站的主页上,即使您的爬虫被配置为抓取页面的子集。您可以编辑爬虫查看当前域验证信息。看到管理搜索爬虫。注意:您可以为同一域中的不同爬虫提供多个验证标记。
例子
title
无法处理站点地图
搜索爬虫使用的站点地图定义在履带的设置每次运行。如果站点地图无法处理,爬虫所有者将收到一封电子邮件通知,爬虫将不会运行。如果出现这种情况,请验证以下内容:
- 搜索爬虫指向正确的站点地图URL,并且可以成功地找到它。您可以编辑爬虫来查看当前站点地图的URL。看到管理搜索爬虫。
- 站点地图是公开提供的。该页面不应受到任何用户登录、密码、IP限制或其他身份验证的限制。
- 的XML URL站点地图Sitemaps XML协议。
记录错误
当没有设置错误时,会发生记录错误,但搜索爬虫无法成功抓取和索引爬虫站点地图中定义的页面(请参阅设置搜索爬虫).当出现记录错误时,将向爬虫所有者发送电子邮件通知,其中包含指向CSV文件的链接,该文件列出了受影响的页面及其相关错误。
未检测到区域设置
错误“语言环境未检测到”表示搜索爬虫无法检测到任何语言环境,或者检测到的语言环境与任何当前帮助中心语言环境不匹配。
为了确定记录的区域设置,爬虫会尝试以下方法。第一个成功的策略确定了记录的区域设置。
- 从标记中的lang属性提取区域设置
- 从Content-Language标头中提取区域设置
- 从标记提取区域设置
- 对内容进行文本分析(CLD - Compact Language Detection)
"Locale not detected"错误是由以下问题之一引起的:
- 识别的区域设置或语言与您帐户中任何帮助中心中配置的区域设置或语言不匹配。要查看在您的帐户中的每个帮助中心中配置了哪些语言,请参见配置帮助中心以支持多种语言。中所配置语言的区域设置代码亚博Zendesk语言支持的产品。
- 搜索爬虫无法确定区域设置或语言。
要解决此问题,请验证以下内容:
- html标记中的lang属性匹配来自帮助中心的区域设置。
- HTTP Content-Language头匹配来自帮助中心的区域设置。
- 在http-equiv属性中设置了Content-Language的元元素与来自帮助中心的语言环境相匹配。
看到了解搜索爬虫的区域设置。
未检测到标题
错误“标题未检测到”表示搜索爬虫无法检测到记录的标题。搜索爬虫使用以下方法来确定记录的标题:
- 提取
标签的内容 - 提取
标签的内容
- 从标签中提取文本内容。
第一个成功的策略确定了记录的区域设置。如果前两种方法之一成功,爬虫将提取内容的前255个字符编入索引,作为记录标题。如果这些策略不能确定标题,则不索引该记录。
要解决此问题,请确保受影响的页面具有上面列出的标记之一。
尸体未找到
错误“正文未找到”表示搜索爬虫无法检测到页面的正文。要解决此错误,请确保使用
标记正确地标记了受影响的页面。HTTP[状态码]
如果一条记录的CSV中的错误码字段包含HTTP和状态码,则意味着该页无法被索引,因为该页无法被访问。如果页面可以成功索引(HTTP 2xx),您将不会收到HTTP状态码错误。
最常见的错误代码是:
- 404 -未找到页面-该页面不存在或已移动到另一个URL。要解决此问题,请确保爬虫正在使用的站点地图是当前的,并且站点地图指向现有页面。
- 403 -禁止—由于某些访问控制机制,如未登录或IP地址限制,爬虫无法访问该页面。要解决此问题,请验证以下内容:
- 您已将搜索爬虫用户代理Zend亚博esk/External-Content添加到允许列表中。
- 您想要索引的页面是可公开访问的,因为爬虫程序无法抓取访问受限的页面。如果您想要抓取和索引的页面不能公开访问,那么您应该使用联邦搜索(外部内容)API探索对它们进行索引。看到设置Zendesk联邦搜索AP亚博I。
- 5xx -服务器错误-网页无法抓取,由于一个服务器错误。该站点可能暂时不可用。要解决此问题,请访问出现此错误的一个或多个页面,以确保网站正常运行。如果站点不能正常运行,请联系站点管理员。当错误修复后,等待爬虫在其常规节奏内再次运行(每12-24小时)。
无效的URL域
错误“无效URL域”表示站点地图中列出的页面的URL不在您配置的域上履带的设置。
要解决此问题,请验证触发错误的页面的域是否与为搜索爬虫定义的域相同。如果站点地图中链接的页面指向的页面托管在与爬虫安装期间配置的域名不同的域名上,您可以执行以下操作之一:
为受影响的页面设置一个新的搜索爬虫
将页面从外部域移动到为搜索爬虫配置的域。
待定
错误"Undetermined"可能由以下一种或多种原因引起:
- 您已超出实例的外部记录限制-搜索爬虫有一个50,000条外部记录的限制。如果超过了50,000条外部记录的限制,那么超过该限制的最新外部记录将不会被索引或更新。要查看爬虫使用的外部记录的数量,请查看搜索爬虫信息。看到管理搜索爬虫。要解决此问题,您可以执行以下一项或多项操作:
- 该页面正在使用JavaScript位置重定向—搜索爬虫不观察JavaScript位置重定向。如果页面使用JavaScript位置重定向,则爬虫无法到达页面的内容。
要解决此问题,请执行以下操作之一:
- 确保站点地图直接指向您想要索引的页面。
- 实现HTTP重定向。
4评论
如果我们有Locale not Detected错误,但我们的页面有明确的标题with,我们该怎么办朗= "在“在里面?”
苏珊·罗素我们也遇到过类似的问题,这是因为“en”不是官方支持的语言代码。在Ze亚博ndesk中,语言可以是en-US或en-GB。看到亚博Zendesk语言支持的产品。在我们将文档中的“en”更改为“en- us”之后,它可以索引内容并且不再遇到“Locale not detected”错误。希望这也能帮助你解决问题!
我们正在遇到一个问题,域名是正确的,设置正确(匹配正在抓取的url),但仍然得到一个无效的url域错误。还有人遇到过这个问题吗?
我注意到你们的一个管理员提交了一个类似的问题。为了解决这个问题,请记下那张票。
干杯!
请登录留下评论。