你好,欢迎来到川北在线
微信
腾讯微博
新浪微博
暗网是什么? 暗网到底是怎样的一张“网”?
时间:2020-03-23 17:37   来源:天晴资讯网   责任编辑:沫朵
  原标题:暗网是什么? 暗网到底是怎样的一张“网”?
 
  暗网(HiddenWeb)如其释义所说,通常是指网络上大部分内容是不能通过静态链接获取的,特别是大部分隐藏在搜索表单之后的页面只有通过用户键入一系列关键词才可以获得。形象的理解是,这些页面是目前搜索引擎所无法抓取的网页、不能检索到的信息,即“看不见”的网站,由于当前的搜索引擎不能索引到或不能在它们的返回结果中显示这些页面,因此对用户来说这部分页面是隐藏的。
 
  来源
 
  暗网(互联网)HiddenWeb最初由Dr.JillEllsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的Web页面。从信息量来讲,与现在能够索引的数据相比,“暗网”更是要庞大得多。根据BrightPlanet公司此前发布的一个名为《TheDeepWeb-SurfacingTheHiddenValue》(深层次网络,隐藏的价值)白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,BrightPlanet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。


 
  当然,所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。2001年,ChristSherman、GaryPrice对HiddenWeb定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息。根据最近对HiddenWeb的调查文献得到了如下有意义的发现:
 
  (1)HiddenWeb大约有307,000个站点,450,000个后台数据库和1,258,000个查询接口。它仍在迅速增长,从2000年到2004年,它增长了3~7倍。
 
  (2)HiddenWeb内容分布于多种不同的主题领域,电子商务是主要的驱动力量,但非商业领域相对占更大比重。
 
  (3)当今的爬虫并非完全爬行不到HiddenWeb后台数据库内,一些主要的搜索引擎已经覆盖HiddenWeb大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在技术上的本质缺陷。
 
  (4)HiddenWeb中的后台数据库大多是结构化的,其中结构化的是非结构化的3.4倍之多。
 
  (5)虽然一些HiddenWeb目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%~15.6%。
 
  (6)Web数据库往往位于站点浅层,多达94%的Web数据库可以在站点前3层发现。

  暗网分类
 
  一般情况下暗网可以根据其产生原因分为两种:
 
  一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题。
 
  另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等等,很多网站都在屏蔽百度、比如最近最大的视频分享网站优酷也宣布屏蔽百度一样,这更不是搜索引擎能解决的问题了。如果他们能被搜索引擎抓取到,就属于违法了。

   投稿邮箱:chuanbeiol@163.com   详情请访问川北在线:http://www.guangyuanol.cn/

川北在线-川北全搜索版权与免责声明
①凡注明"来源:XXX(非在线)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,本网不承担此类稿件侵权行为的连带责任。
②本站所载之信息仅为网民提供参考之用,不构成任何投资建议,文章观点不代表本站立场,其真实性由作者或稿源方负责,本站信息接受广大网民的监督、投诉、批评。
③本站转载纯粹出于为网民传递更多信息之目的,本站不原创、不存储视频,所有视频均分享自其他视频分享网站,如涉及到您的版权问题,请与本网联系,我站将及时进行删除处理。



图库
合作媒体
金宠物 绿植迷
法律顾问:ITLAW-庄毅雄律师