甜腻的嘴角|用开源搜索引擎定制你的互联网( 二 )
对等搜索引擎如何工作YaCy 是一个开源的分布式搜索引擎 。 它是用 Java 编写的 , 因此可以在任何平台上运行 , 并且可以执行 Web 爬网、索引和搜索 。 这是一个对等(P2P)网络 , 因此每个运行 YaCy 的用户都将努力地不断跟踪互联网的变化情况 。 当然 , 没有单个用户能拥有整个互联网的完整索引 , 因为这将需要一个数据中心来容纳 , 但是该索引分布在所有 YaCy 用户中且是冗余的 。 它与 BitTorrent 非常相似(因为它使用分布式哈希表 DHT 来引用索引条目) , 只不过你所共享的数据是单词和 URL 关联的矩阵 。 通过混合哈希表返回的结果 , 没人能说出谁搜索了哪些单词 , 因此所有搜索在功能上都是匿名的 。 这是用于无偏见、无广告、未跟踪和匿名搜索的有效系统 , 你只需要使用它就加入了它 。
搜索引擎和算法索引互联网的行为是指将网页分成单个单词 , 然后将页面的 URL 与每个单词相关联 。 在搜索引擎中搜索一个或多个单词将获取与该查询关联的所有 URL 。 YaCy 客户端在运行时也是如此 。
客户端要做的另一件事是为你的浏览器提供搜索界面 。 你可以将 Web 浏览器指向 localhost:8090 来搜索 YaCy , 而不是在要搜索时导航到谷歌 。 你甚至可以将其添加到浏览器的搜索栏中(取决于浏览器的可扩展性) , 因此可以从 URL 栏中进行搜索 。
YaCy 的防火墙设置首次开始使用 YaCy 时 , 它可能运行在“初级”模式下 。 这意味着你的客户端爬网的站点仅对你可用 , 因为其他 YaCy 客户端无法访问你的索引条目 。 要加入对等环境 , 必须在路由器的防火墙(或者你正在运行的软件防火墙)中打开端口 8090 , 这称为“高级”模式 。
如果你使用的是 Linux , 则可以在《 使用防火墙让你的 Linux 更加强大 》中找到有关计算机防火墙的更多信息 。 在其他平台上 , 请参考操作系统的文档 。
互联网服务提供商(ISP)提供的路由器上几乎总是启用了防火墙 , 并且有太多种类的防火墙无法准确说明 。 大多数路由器都提供了在防火墙上“打洞”的选项 , 因为许多流行的联网游戏都需要双向流量 。
如果你知道如何登录路由器(通常为 192.168.0.1 或 10.1.0.1 , 但可能因制造商的设置而异) , 则登录并查找配置面板来控制“防火墙”或“端口转发”或“应用” 。
找到路由器防火墙的首选项后 , 将端口 8090 添加到白名单 。 例如:
Adding YaCy to an ISP router
如果路由器正在进行端口转发 , 则必须使用相同的端口将传入的流量转发到计算机的 IP 地址 。 例如:
Adding YaCy to an ISP router
如果由于某种原因无法调整防火墙设置 , 那也没事 。 YaCy 将继续以初级模式运行并作为对等搜索网络的客户端运行 。
你的互联网使用 YaCy 搜索引擎可以做的不仅仅是被动搜索 。 你可以强制抓取不太显眼的网站 , 可以请求对网站进行网络抓取 , 可以选择使用 YaCy 进行本地搜索等等 。 你可以更好地控制你的互联网的所呈现的一切 。 高级用户越多 , 索引的网站就越多 。 索引的网站越多 , 所有用户的体验就越好 。 加入吧!
via:
作者: Seth Kenlon 选题: lujun9972 译者: wxy 校对: wxy
本文由 LCTT 原创编译 ,Linux中国 荣誉推出
点击“了解更多”可访问文内链接
推荐阅读
- 甜腻的嘴角|领空安全不容侵犯!俄战机向美军亮出导弹,几天后尴尬一幕发生
- 甜腻的嘴角|造芯有多耗电?台积电一年用143.3亿度电!台湾都要供不起了
- 甜腻的嘴角|华为Mate40稳了,麒麟9000备货1000万片,不愁断货
- 环球网|聊天记录撒娇卖萌超甜腻,男子没想到女朋友竟是“抠脚大汉”!
- 三好先森|基于JeecgBoot快速开发简历库系统,开源项目,实操分享
- 空枝|一个漂亮的开源HTML5音乐播放器——APlayer
- 甜腻的嘴角|爷青结!腾讯微博将于9月28日停止服务和运营
- 甜腻的嘴角|九号B80电动自行车评测:2000元不到的出行神器?
- 车驰夜幕|开源软件分享-漂亮的WPF UI界面框架
- 甜腻的嘴角|手机即将“报废”的5个前兆,一旦出现赶紧换手机
