利用Google搜索与某开放 API工具结合做免费SEO分析( 三 )


 
library(RMySQL)# INNER JOIN the two tablestheQuery <- " SELECT A.*, B.*, C.* FROM ( SELECTcseq_search_id FROM cse_query ) A -- Custom Search Query INNER JOIN ( SELECTcser_cseq_id, cser_rank, cser_url FROM cse_results ) B -- Custom Search Results ON A.cseq_search_id = B.cser_cseq_id INNER JOIN ( SELECT * FROM moz ) C -- Moz Data Fields ON B.cser_url = C.moz_url ;"# [1] Connect to the database# Replace USER_NAME with your database username# Replace PASSword with your database password# Replace MY_DB with your database nametheConn <- dbConnect(dbDriver("MySQL"), user = "USER_NAME", password = "PASSWORD", dbname = "MY_DB")# [2] Query the database and hold the resultstheResults <- dbGetQuery(theConn, theQuery)# [3] Disconnect from the databasedbDisconnect(theConn)NOTE:注意:我有两个表来保存Google自定义搜索引擎数据 。一种保存Google查询中的数据(cse_query) , 另一种保存结果(cse_results) 。
现在我们可以使用R的全部统计功能开始争吵 。
让我们从一些总结开始 , 以便对数据有所了解 。我经历的过程在每个字段中基本上都是相同的 , 因此让我们说明并使用Moz的“ UEID”字段(指向URL的外部所有者链接的数量) 。通过在RI中键入以下内容 , 可以得到以下内容:
 
> summary(theResults$moz_ueid) Min. 1st Qu. Median Mean 3rd Qu. Max.0 1 20 14709 182 2755274 > quantile(theResults$moz_ueid, probs = c(1, 5, 10, 25, 50, 75, 80, 90, 95, 99, 100)/100) 1% 5% 10% 25% 50% 75% 80% 90% 95% 99% 100%0.0 0.0 0.0 1.0 20.0 182.0 337.2 1715.2 7873.4 412283.4 2755274.0 观察这一点 , 您会发现数据由于中位数与均值的关系而偏斜(很大) , 而中位数与均值之间的关系被较高四分位数范围内的值(超过观测值的75%的值)拉动 。但是 , 我们可以将其绘制成R中的箱形图 , 其中每个X值都是从Google自定义搜索位置1-20开始按等级排列的UEID分布 。
请注意 , 我们在y轴上使用了对数刻度 , 以便我们可以显示变化范围很大的所有值!

利用Google搜索与某开放 API工具结合做免费SEO分析

文章插图
 
由Google排名得出的 UEID R中的箱须图(注:对数刻度)
箱形图和晶须图很棒 , 因为它们在其中显示了大量信息(请参见R中的geom_boxplot函数) 。紫色方框区域表示四分位间距(IQR) , 它是观测值的25%到75%之间的值 。每个“方框”中的水平线代表中间值(订购时中间的那一条) , 而从方框延伸的线(称为“晶须”)代表1.5x IQR 。晶须外的点称为“异常值” , 并显示每个等级的观察值集的范围 。尽管有对数刻度 , 但我们可以看到中值从排名10上升到排名1明显 , 表明股权链接的数量可能是Google的排名因素 。让我们用密度图进一步探索它 。
密度图非常类似于分布(直方图) , 但显示的是平滑线而不是条形图 。与直方图非常相似 , 密度图的峰值显示了数据值集中的位置 , 可以在比较两个分布时提供帮助 。在下面的密度图中 , 我将数据分为两类:(i)排名1-10的SERP第1页上显示的结果为粉红色;以及 (ii)在SERP第2页上显示的结果为蓝色 。我还绘制了两种分布的中位数 , 以帮助说明Page 1和Page 2之间的结果差异 。
 
利用Google搜索与某开放 API工具结合做免费SEO分析

文章插图
 
从这两个密度图得出的结论是 , 第1页SERP结果比第2页结果具有更多的外部股权反向链接(UEID) 。您还可以在下面看到这两个类别的中值 , 清楚地显示了第1页(38)的值远大于第2页(11)的值 。因此 , 我们现在有一些数字可用于反向链接的SEO策略 。
 
# Create a factor in R according to which SERP page a result (cser_rank) is on> theResults$rankBin <- paste("Page", ceiling(theResults$cser_rank / 10))> theResults$rankBin <- factor(theResults$rankBin)# Now report the medians by SERP page by calling ‘tapply’> tapply(theResults$moz_ueid, theResults$rankBin, median) Page 1 Page 238 11 由此 , 我们可以推断出股权反向链接(UEID)很重要 , 如果我根据此数据为客户提供建议 , 我想说他们应该寻求38个以上基于股权的反向链接 , 以帮助他们进入SERP的第1页 。当然 , 这是一个有限的样本 , 需要更多的研究 , 需要考虑更大的样本和其他排名因素 , 但是您可以理解 。


推荐阅读