从日志文件中提取数据 最后

这意味着您可以通过将 Logflare 配置为不发送 PII(例如 IP 地址)并使用 SQL 查询从 BigQuery 中删除 PII 来避免 PII 问题。 2. 验证 Googlebot 保存日志文件(使用 Logflare 或其他方法)。接下来,您需要从要分析的确切用户代理中提取日志。在大多数情况下,这 将是Googlebot 。 在此之前,还有一个障碍需要克服。 许多机器人会冒充 Googlebot 来穿过您的防火墙(如果您有防火墙)。此外,一些审核工具也会执行相同的操作,以准确反映站点返回给用户代理的内容。如果您的服务器向 Googlebot 返回不同的 HTML(例如,如果您设置 < ),则这一点至关重要。ai=1>动态渲染。 不使用 Logflare 如果您不使用 Logflare,识别 Googlebot 需要进行反向 DNS 查找以确认请求来自 Google。 Google 在此处提供了手动验证 Googlebot 的便捷指南。 这可以通过使用反向 IP 查找工具 并检查返回的域名一次性完成。 但是,您需要立即对日志文件中的所有行执行此操作。您还需要从Google 提供的 列表中匹配您的 IP 地址。 最简单的方法是使用第三方托管服务器防火墙规则集来阻止假冒机器人(导致日志文件中的假冒 Googlebot 较少或没有)。Nginx 的一个流行版本是“ Nginx Ultimate Bad Bot Blocker ”。 另外 值得注意的是, Googlebot IP 列表中的所有 IPV4 地址均以“66”开头。

 

虽然不是 100% 准确

但您也可以在分析日志中的数据时通过过滤以“6”开头的 IP 地址来检查 Googlebot。 我正在使用 Cloudflare/Logflare Cloudflare 的 Pro 计划(目前每月 20 美元)包含内置防火墙功能,可以阻止虚假的 Googlebot 请求访问您的网站。 Cloudflare 默认情况下禁用 芬码列表 这些功能,但您可以通过转至防火墙 > 防火墙找到它们。管理规则 > 启用 Cloudflare Specials > 选 芬兰 WhatsApp 号码列表 择高级。 接下来,将搜索类型从“描述”更改为“ID”并搜索“100035”。 Cloudflare 提供了阻止虚假搜索机器人的选项列表。当您将相关请求设置为“阻止”时,Cloudflare 可确保来自搜索机器人用户代理的所有请求都是合法的,并保持您的日志文件干净。 我能够访问日志文件,并发现它们准确地反映了真实的 Googlebot 请求。 我们建议您首先分析 Google 表格或 Excel 中的日志文件,因为您可能熟悉电子表格,并且更容易与其他来源(例如网站抓取)交叉分析日志文件。 没有一种正确的方法可以做到这一点。您可以使用: grep 斯普伦克 日志 Io ELK堆栈 您还可以在 Data Studio 报告中执行此操作。虽然 Data Studio 对于监控一段时间内的数据很有用,但 Google Sheets/Excel 更适合在技术审核期间进行一次性分析。 打开 BigQuery 并导航到您的项目/数据集。 选择“查询”下拉列表以在新选项卡中打开。 查询下拉列表中出现两个选项:新选项卡或拆分选项卡 接下来,您需要编写 SQL 来提取要分析的数据。执行此操作的一个简单方法是首先复制查询的 FROM 部分的内容。 您可以将其添加到我创建的以下查询中。查询选择对 SEO 目的的日志文件分析有用的所有数据列。它还仅检索来自 Googlebot 和 Bingbot 的数据。 边注。如果您想分析其他机器人,只需在 WHERE 语句中添加另一个 OR req_headers.user_agent LIKE ‘%bot_name%’ 即可。您还可以通过更新 WHERE DATE(timestamp) >= “2022-03-03” 行来轻松更改开始日期。

 

选择顶部的运行

WhatsApp 号码

然后选择保存您的结果。 接下来,将数据保存到 Google Drive 中的 CSV 中(这是最好的选择,因为文件大小会很大)。 BigQuery 运行作业并保存文件后,在 Google 表格中打开它。 4. 添加到 Google 表格 我们先来进行一些分析。我们建议使用 Google 表格模 印度 电话号码列表 板。不过,我会解释我所做的事情。如果您愿意,您可以自己创建报告。 这是我的模板。 该模板包含两个用于复制和粘贴数据的数据选项卡以及一个 Google Sheets QUERY 功能旁注。如果您想查看设置后运行的报告的外观,请选择每个表中的第一个单元格。 首先,复制 BigQuery 的导出输出并将其粘贴到“数据 – 日志文件”选项卡中。 请注意,工作表末尾添加了几列(深灰色),以使分析更容易(例如机器人名称和第一个 URL 目录)。

Leave a comment

Your email address will not be published. Required fields are marked *