在调用Links API之前 , 将xxx API代码添加在一起 , 如下所示:
www.Apple.com%2F?Cols = 103616137253&AccessID = xxx_ACCESS_ID&过期= 1560586149&Signature = <xxx_SECRET_KEY> 结果:
- http://lsapi.xxxx.com/linkscape/url-metrics/“ class =” redactor-autoparser-object“> http://lsapi.sxxxx.com/linksc ... – API的URL
- http%3A%2F%2F www.apple.com.tw%2F –我们要获取数据的编码URL
- Cols = 103616137253 –上表中的Moz API代码总和
- AccessID = xxx_ACCESS_ID – 访问ID的编码版本(可在您的API帐户中找到)
- Expires = 1560586149 –查询超时-设置为未来几分钟
- Signature= <xxx_SECRET_KEY> – 访问ID的编码版本(在您的API帐户中找到)
数组 ( [ut] =>apple [uu] => <a href=https://www.isolves.com/it/wlyx/SEO/2019-12-04/"http://www.apple.com/" class="redactor-autoparser-object"> www.apple.com/ [ueid] => 13078035 [uid] => 14632963 [uu] => www.apple.com/ [ueid] => 13078035 [uid] => 14632963 [umrp] => 9 [umrr] => 0.8999999762 [fmrp] => 2.602215052 [fmrr] => 0.2602215111 [us] => 200 [upa] => 90 [pda] => 100 ) 有关使用PHPPerl , Python , Ruby和JAVAscript查询数据的一个很好的起点 , 请参阅Github上的此存储库。我选择使用PHP 。
使用PHP和MySQL收集数据
现在我们有了Google自定义搜索引擎和某 API , 几乎可以捕获数据了 。Google和某工具通过JSON格式响应请求 , 因此许多流行的编程语言都可以查询 。除了我选择的语言PHP外 , 我还将Google和xxx的结果都写到了数据库中 , 并为此选择了MySQL Community Edition。也可以使用其他数据库 , 例如Postgres , Oracle , Microsoft SQL Server等 。这样做可以使用SQL(结构化查询语言)以及其他语言(例如R)进行数据的持久性和即席分析 。后来) 。创建用于保存Google搜索结果的数据库表(带有用于排名 , URL等的字段)和用于保存xxx数据字段(ueid , upa , uda等)的表之后 , 我们就可以设计数据收集计划了 。
Google使用自定义搜索引擎提供了足够的配额 (每天使用相同的Google开发者控制台密钥进行多达1亿次查询) , 但是某些工具免费API的有上限 , 如果需要高级的就要购买了 。根据计划和方案的不同 , 当我只是在探索免费选项时 , 我设计了代码 , 以在2页的SERP(每页10个结果)中收集125个Google查询 , 使我能够保持在2500行的配额之内 。至于哪些搜索可以触发Google , 有很多资源可供使用 。我选择使用Mondovo , 因为它们提供了许多类别的列表 , 每个列表最多500个单词 , 对于实验来说足够了 。
我还引入了一些PHP帮助程序类以及我自己的数据库I / O和HTTP代码 。
总之 , 使用的主要PHP构建块和源是:
- Google自定义搜索引擎– Ash Kiswany使用Jacob Fogg的 PHP界面编写了Google自定义搜索的出色文章;
- Mozscape API –如前所述 , 该用于在Github上访问Moz的PHP实现是一个很好的起点 。
- 网站搜寻器和HTTP –在Purple Toolz , 我们有自己的搜寻器PurpleCerzBot , 它使用Curl作为HTTP和此简单html DOM解析器 ;
- 数据库I / O – PHP对MySQL具有出色的支持 , 我将这些教程打包为类 。
使用SQL和R分析数据
现在该看看我们所拥有的 。有时这称为数据争用。我使用一种称为R的免费统计编程语言以及一种称为R Studio的开发环境(编辑器) 。
R因为它是开源的 , 并且它具有许多第三方库 , 这使其非常通用并且适合此类工作 。
现在 , 我有几个数据库表 , 其中包含我在SERPS的2页上的125个搜索词查询的结果(即 , 每个搜索词有20个排名的URL) 。两个数据库表保存Google结果 , 另一个表保存Moz数据结果 。要访问这些数据库 , 我们需要做一个数据库INNER JOIN , 我们可以通过将RMySQL软件包与R一起使用来轻松完成数据库 。这是通过在R的控制台中键入“ install.packages('RMySQL')”来完成的 , 其中包括“库(RMySQL)”位于我们R脚本顶部 。
然后 , 我们可以执行以下操作来连接并将数据获取到名为“ theResults”的R数据帧变量中 。
推荐阅读
- 使用google-perftools优化nginx内存管理提升性能
- dfs,bfs 一文搞懂深度优先搜索、广度优先搜索
- 净水器滤芯大全 小米净水器滤芯能回收再利用吗
- 黑客神技,漏洞利用“tomcat代码执行漏洞”
- 老实人混职场不想被利用,乖乖学会这五件事,让小人打脸掉价
- 茶叶渣可以做哪些再利用
- 站长做SEO的注意了,头条搜索站长平台正式上线
- 云南省古茶树保护与利用实验研究取得阶段性成果
- 2019年google网站优化规则介绍
- Google 是如何做 Code Review 的?| 原力计划