局域网搜索引擎 Intranet Search Engine
企业局域网搜索引擎 Enterprise Search Engine
目前世界上仅有的几个局域网搜索引擎之比较。
|
Google |
Baidu |
DocSharer |
| 企业 |
谷歌 |
百度 |
联高软件 |
| 产品 |
谷歌企业搜索 |
百度企业搜索 |
DocSharer |
| 软件系统价格 |
$200,000 ? |
$200,000 ? |
free |
硬件(服务器)投资 蜘蛛服务器+搜索服务器 |
$10,000 |
$10,000 |
无需服务器 不花钱 |
| 信息覆盖率 |
<10% [1] |
<10% [1] |
>70% |
| 信息更新速度 |
依赖网络爬虫 |
依赖网络爬虫 |
实时 |
| 维护相关 |
特殊的服务器硬件和软件 维护费用高 |
特殊的服务器硬件和软件 维护费用高 |
您熟悉的Windows系列 无需维护 |
| 国家安全 |
外国产品 |
疑似外国产品 |
纯国产 |
| 系统稳定性 |
No.1 |
No.2 |
No.3
俺们要是有Money
做出来的产品那就比他们强了 :P
|
[1] 鉴于系统安全、个人隐私的考虑,局域网内绝大部分计算机的文档是网络爬虫无法获取的!另外爬虫也是一种很落后的信息获取技术,限制颇多。所以俺说Google能抓到10%还是客气的哦。
显然,DocSharer无论是技术先进性还是简单易用性均大大强于Google和Baidu产品;
局域网搜索引擎当然能够支持各类文件,比如Word, Excel, PowerPoint, PDF, Rtf, 等等...
>>> 看起来不错,我试试...
局域网搜索的实用价值
网络的最大价值在于信息的自由传播,而这也直接导致了一个结果,那就是信息量的空前膨胀,使我们不得不依赖搜索引擎来查找我们需要的东西。有一个著名的调查发现,美国企业中的员工平均1/8的工作时间花费在寻找藏在自己电脑或企业内网上的信息上。而企业中大量的非线性、非结构化的数据,现有的互联网搜索引擎显然不能有效地处理。这种情况下,强调覆盖面广而相关度低的互联网搜索引擎,在企业用户领域的影响开始逐渐弱化。
而要处理视频、音频、电子邮件中的附件等众多非结构化的信息并非易事,如果你装了桌面搜索的工具,你就会发现,在进行搜索前需要对计算机中的内容做长时间的索引和记录。
在搜索领域,看来效率和准确性一直都是矛盾。
通过改进算法,最新的一些企业搜索技术,已经能让很多人感到振奋。智能化、精确化的搜索功能无疑会给搜索引擎增添更多的用户黏度,其所带来的潜在经济效益难以估量。
如果越来越多的行业网站都能为自己的平台嵌入强大的搜索功能,让搜索既快速又准确,那么势必在扩大搜索引擎行业社会广泛化影响的同时,为提高企业运行效率和企业间电子商务发展创造出更值得憧憬的未来。
对于用户来说,无论搜索技术如何演变,用户搜索的界面肯定会越来越简单和方便。效率和准确之间的每一次碰撞,都可能让用户获得更加美妙的应用体验。这一切,对于用户,都是值得高兴的事。
浅谈部署局域网搜索引擎的重要性
如今的网站,论坛都成了必备的一个子系统,但是随着时间的推移,会员的增加,数据量也是日益增长,这些数据本来是很多人需要的,但是由于新帖的增加时间一久就慢慢的被沉入帖底。怎么办呢?
作为一个站长的我在论坛系统上不免会遇到这样那样的系统报错的故障,那么我就会上论坛的官网去寻找问题的解答,但是论坛毕竟不是即时通讯软件,你发的问题帖不可能马上就会得到回复,利用论坛上自带的搜索往往都不一定能找到我想要的东西,而且搜索有限制,还需要有权限不免让我感觉到心烦,那么基于这样的原因为什么论坛就不能增加一个更好的局域网搜索功能呢,在这方面我们不能强迫论坛系统提供商,毕竟只是一个全WEB的系统,你不能要求太多,也由于数据库的能力有限不能为大数据的数据库做完美的数据索引,所以我们需要一个论坛数据的索引程序,虽然现在出现的搜索引擎也不少,但大都是基于抓取页面作出的索引结果,速度慢不说,而且浪费资源,如果能有一个直接索引论坛数据库的索引程序去建立一个WEB的搜索引擎那是不是会更好呢!
我们来举例说明下,大家熟悉的厦门小鱼社区靠的就是一个论坛社区,使用的是DZ系统,他现在使用的是百度局域网搜索,但数据的采集工作毕竟是百度靠抓取页面来做分析,他做不到即时的信息索引,因为百度不可能对你的网站进行实时的抓取索引,如果有自己的索引系统设置全自动的索引的功能就可以实现几乎实时的数据索引更新,另外一般的地区性生活社区都设有分类信息的板块,虽然像PW系统已经作出了对于分类信息的的查询功能,但是对于过大的数据量在速度上达不到毫秒级,而且搜索查询对数据库的负载是一个很大的考验,那么利用索引系统进行索引配合定制的WEB系统一样的可以做出类似PW的分类信息的查询搜索,而且在功能上还可以更人性化的改变,就像谷歌的百宝箱一样,更加有竞价排名和热榜的支持是不是更实用呢......
政府、军队内部网络建立搜索引擎方案
因全球经济一体化的格局的形成,任何机构和企业都不可能孤立的生存。能够在第一时间掌握全面、准确的外部信息对于各行各业来说,都已成为越来越迫切的需求。随着电子政务步入快车道,政府 、军队等机关由于保密等因素纷纷建立了自己的办公专网(也叫:内网)。我国的内网建设已经达到了一定的水平,每个部门在内网上都建立了相应的网站,并且内网已经达到国家与省相通、省与市相通、市与县相通,网站数量也已经达到了一个相当的规模。由于保密的原因,内网与互联网必须物理隔离,这样就不能利用现有的互联网搜索引擎来快速的查找内网中的相关信息。在内网中查找信息变得极为不便,如何建立一个专门针对内网信息的搜索引擎,方便内网、专网用户更好的应用内网资源,快速的在内网中查找需要的信息,是目前政府、军队等一些单位要考虑和解决的问题。“DocSharer搜索引擎”可自动对内网中的互相连通的多家网站进行搜索,对内网的所有网站信息发布进行全面了解,利用关键字检索快速查找内网网站的信息并形成网页快照。更好地实现对网络信息的有效管理和利用。用户只须访问内网的搜索服务器的WEB发布页,就可像应用互联网的搜索引擎一样搜索内网信息,大大提高了工作效率,减少许多费用开支。给你介绍一款站内全文搜索引擎解决方案--panzer搜索引擎 panzer搜索引擎是专业的搜索引擎技术解决方案,面向大中型网站提供搜索技术支持服务。 我们的宗旨:做专业的搜索引擎技术解决方案提供商。 我们的技术优势:专业致力于中文海量数据,基于关键词的检索、索引、分词、分析排序、存储、负载处理 等搜索技术研究。改善网站服务质量,减轻数据库负担,提高搜索的速度、质量,降低网站的经营成本,提高 网站的扩展能力,减少设备投入、提高数据的安全性。DocSharer搜索引擎适应windows操作平台,支持各种 数据库接口和不同脚本语言(PHP、ASP、JSP、ASP.net)。DocSharer搜索引擎能有效减轻系统数据库的压力,支持 多关键字搜索和句子搜索及“与、或、非”等多种组合关键词搜索要求,为用户提供快速的搜索方案,并且能 根据客户的需求进行用户数据挖掘,提高网站系统的价值......
政府专网局域网搜索引擎解决方案
随着信息化的快速发展和深入,各级政府内部专网建设越来越得到更多的重视。政府内部专网中信息量大、信息价值高,是政府系统内部传播交流内部信息、行业信息、办公信息的重要渠道,也是政府领导及时了解内部动态和各种业务信息的关键来源。
目前,各级政府内部专网上信息量不断增加丰富,专网内各种网站日益增多,应用系统和数据库也不断在专网上生成大量数据。所以,整个政府内部专网信息量和浏览量都呈现着迅速上升的发展趋势。因此,在信息量高速增长的情况下,采用传统的人工查找方式,既不能满足广大用户快速查询网上信息的需要,又影响网络信息资源的合理使用。
为了充分利用政府内部专网上海量信息,同时使用户从“大海捞针”式的信息查询困难中解脱出来,DocSharer以自身独特先进的搜索引擎技术研发出政府内部专网搜索引擎,为政府内部专网上的信息资源提供有效利用和组织管理,对专网信息资源共享提供支持与服务。提高政府工作人员工作效率,提升政府各部门工作业绩。
政府内部专网面临的问题
当前,各级政府部门已经意识到内部专网具有很高的信息价值,对深化政府信息化建设成果,发挥内网在政府工作中的效用,和提升政府工作效率有重要的作用。但由于种种原因,政府内部专网的信息资源利用上仍面临如下重大问题:
1、专网内各个信息源往往都是各地方各部门分别建设和管理,因此信息源多样、信息形式复杂,难以为用户高效方便使用;
2、专网内信息分布广泛,组织结构呈分散无序状态,用户无法跨部门、跨区域和跨系统查找所需信息;
3、面对专网内海量信息,传统查找手段效率低下,不能及时反映专网内最新的信息状态,信息查全率和查准率无法满足用户需要;
开发搜索引擎:破解税务系统内网信息检索难题
【报刊名称】中国税务报
【媒体级别】中央级媒体
【刊发时间】2010-08-11
【作者姓名】郝海林 葛玉军 蒋文涛
目前,税务系统内部已经形成一个覆盖全国的庞大的广域网。在这个庞大的广域网基础上,全国各级税务机关的网站信息量也在不断增加。发展至此,税务系统内部面临着数年前存在于互联网信息检索的一个问题:采用何种方式快速地获取个人所需要的信息。在互联网模式中,人们采用标签页、黄页、站点索引、搜索引擎等各种方式解决这个问题。但作为内部网络,就需要因地制宜,引入搜索引擎,从而实现数据信息共享,进一步提高工作效率。
当前内部网络信息检索困难
目前税务系统内部网络,两个障碍造成了信息检索的困难。
一、同级地市、县区之间网络不能互访。
为了保证主干网络业务的正常运行,降低网络负担,目前税务系统的广域网采取各省、地市、县区到基层分局的树形结构网络覆盖,而不是可以自由访问的网状结构。受限于这种网络物理阻隔,只有上下级才能通信,省、地市、县区同级部门之间无法互访。也就是说,从省级部门可以直接访问基层,但基层只能垂直访问国家税务总局和本地所属的省局、市局、县区局4级网站,而不能访问其他同级单位。以山东省临沂市罗庄区国税局为例,只能访问临沂市国税局网站以及垂直于上的山东省国税局、总局网站,而不能访问同级的其他县区,例如兰山区、河东区等县区,以及上一级的其他地市,例如济南市、青岛市的网站等等。这就造成各地网站信息相对封闭,不能达到真正的信息共享。
二、各级网站信息量大且检索困难。
当前各级税务机关的网站建设已经较为完善,栏目设置齐全,信息量较大。以山东省国税局网站为例,已经具有新闻、政务、业务、学习、互动、专题等超过42个栏目的规模,且各处室还有各自的网站信息。同时还存在众多各地市独立的内部网站。笔者通过底层抓取测试,仅国家税务总局———山东省局———临沂市局———罗庄区局4级网站即抓取网页112万页,URL链接数量超过110万条,这仅是一个垂直可访问网站的数据。如果采用传统的人工方式完成某一信息在各级网站的搜索,将会非常困难,检索效率和准确程度都相对较低,影响办公效率。
总之,目前税务系统内部网络中传递的各类信息量是非常庞大的,但是这些信息并没有充分达到为我所用的目的。各级网站的信息重复,检索繁杂,搜索效率低且未对关联信息进行统一的归纳,没有形成一套完整有序的数据信息库。
引入内部搜索引擎进行检索
互联网的搜索引擎例如互联网络中的谷歌、百度等,搜索功能包罗万象。作为税务系统内部的搜索引擎,实现的则是办公、业务和学习以及纳税服务的需求。
一、搜索引擎在税务系统中的作用。
实现政策、新闻、公文、报告、会议记录等信息的快速检索。各级用户查找信息,往往需要通过手工对网站进行查找,逐条逐项搜索。对于一些信息可能要跨越多个网站进行查找,很费时间,影响办公效率。根据目前的技术,搜索引擎可以很好地解决这个问题,只需要根据所需要的业务的关键字、词、短语即可搜索出相应的信息,给工作带来方便。
解决各地之间网络不通状况下的信息共享。如果在省一级推行,可以通过搜索引擎的网页快照模式,轻松获取各地市、县区网站的信息,以达到各单位之间信息的共享,解决不能互访各地网站的问题。
搜索引擎的扩展性。以搜索引擎为基础应用,形成一个新的业务交流平台,充分发挥全员的智慧,实现网络发布问题、解决问题,通过搜索引擎寻找业务中存在问题和解决问题的方案,提高全员的业务水平。
为纳税人搭建一个专业的税收业务服务平台。从保护纳税人权益的角度,采用安全的方式,以搜索引擎为基础,抽检出一些针对于税务系统和纳税人的信息,形成专业的分类搜索,作为税务系统内部网络信息的对外平台,方便纳税人查阅、学习,还可以通过这个平台延伸出以上列举的纳税服务解答平台,将12366相关问题加入到搜索引擎中,形成一个崭新的纳税服务平台。
二、当前搜索引擎在内网的应用。
针对网络不能互访、信息不能共享以及利用不充分的实际情况,罗庄区国税局对搜索引擎的内网拓展应用进行了实践,目前已经进行了两个阶段的应用测试。
第一阶段,实现站内信息全文检索。2009年该局针对站内信息的搜索障碍,利用现有互联网软件,根据内网应用的实际情况,首先实现站内信息的全文检索,初步实现信息检索的准确、高效。同时,目前内网实现的检索功能也显露出一些问题,仅能对站内信息的检索,所获取的信息量是较少的,无法体现出搜索引擎的强大功能。
第二阶段,基本实现搜索引擎的功能作用。2010年,该局进一步完善搜索引擎的基础功能,实现一站式链接化抓取各级站点信息入库,能够进行从总局到县区局四级可访问网站信息的收集,并通过网页快照的方式进行展示。
在应用中遇到的问题和建议
局域网搜索引擎的探索经过了近两年的时间,实现了总局、省局、市局、县区局4级网站信息的检索,可以通过关键词和短语,方便快捷地搜索到各级网站的信息,提高了办公效率,实现了信息共享,给用户访问网站获取信息带来了良好体验。但同时,也存在一些问题。
一、应用过程中受到低平台的制约。
因初始研发的网络平台在县级国税局,制约了应用范围的进一步拓展。如,网络访问限制,不能够互访到其他县区国税局,更不用说访问到其他市局乃至省局、总局,这样获取的信息就有局限性,也就无法进一步发挥搜索引擎的作用。同时,高层次部署搜索引擎还可以解决一个当前内部网络解决不了的问题———互访限制。互访限制,是为了解决网络拥堵以及安全等问题,但是同时也阻碍了信息的共享,阻碍了各级单位、同级单位之间的交流。而搜索引擎则可以通过部署层面的提高,通过网页快照的方式,实现各地信息的展示。因此,搜索引擎平台的建立基点越高,发挥的作用越大。如果在总局部署,将会在不影响网络应用的前提下实现各级网站的互访和信息共享,为全国国税系统、地税系统的信息交流带来便利,建议总局对该项目的可行性进行调研。
二、开发过程受到客观条件制约。
目前该项目已被山东省国税局列入研究课题项目并已在临沂市国税局部署应用,后续扩展开发仍在继续中。但搜索引擎的开发需要软硬件,以及网络环境的支持和较高的开发技术。作为基层县区局,仅靠信息中心独立完成整个搜索引擎的开发、扩展是比较困难的。目前,罗庄区国税局已经完成基础功能的开发,实现了信息的抓取、解析、过滤、检索,下一步是对搜索引擎功能的拓展和完善,但是罗庄区国税局限于硬件、软件、网络环境等客观因素,开发过程面临困难。税务系统中不乏此类人才,希望能够有此类人才积极参与到项目的开发和应用中来,达到集思广益的目的。
三、对搜索引擎进一步拓展应用的设想。
笔者认为,搜索引擎不是只具备“搜索”这一单一功能,还可以根据工作实际,实现对各级网站的评比、网站信息的推广,并且可以针对某一项需求进行分类性的检索。例如对总结、会议、公文、心得体会、活动项目等信息进行聚合,进一步提高搜索的精度,就像百度搜索引擎一样,可以实现图片、新闻等的分类搜索。还可以与IM软件结合应用,实现个人空间的相关功能,让全国税务人员参与到网络空间个人展示中来,充分发挥个人能动性,达到搜索与交流并进的目的。
内网文档搜索引擎系统
内网文档搜索引擎系统内核中的应用服务器,Web服务器,文档备份服务器,数据库服务器是在逻辑功能上相互独立的,在物理具体实现的时候,可以分置于多台服务器,也可以由一台普通的PC Server实现所有内网文档搜索引擎系统的全部功能。
内网文档搜索引擎系统的特色
1 自动备份:
每天定时自动采集局域网内部共享的电子文档信息,存储在指定的服务器文件夹内,并保留同一文档的不同版本,基本信息采用数据库的形式进行存储。用户可以通过浏览器随时检索并提取任意版本的文档。
2 精准搜索:
局域网搜索引擎提供了多种精准搜索手段,其中包括:
1)关键词搜索:搜索任意关键词;
2)空间范围搜索:可以搜索特定员工或特定部门的文档资源;
3)时间范围搜索:可以搜索任意时间段的文档资源;
4)文档格式搜索:支持Word,ppt,excel,pdf,rtx,html以及程序代码等主流的文档格式;
5)指定位置搜索:支持标题、正文等不同位置进行搜索;
3 知识分享:
局域网搜索引擎提供了多种知识分享的方式,用户单位可以根据知识分享记录实行奖惩措施,其中包括:
1)搜索并阅读或者下载任何同事的文献资料,系统自动记录每一次分享的时间、分享者与阅读者;
2)部门统计:统计各部门的知识分享记录,鼓励部门间进行知识分享;
3)人员统计:统计每个人分享出的文档总数,给出排行榜,鼓励个人分享文档;
4)文档Top10推荐:推荐关注度最高Top 10的文档;
5)贡献人员Top10推荐:推荐贡献度最高Top 10的同事;
6)阅读Top10推荐:推荐阅读文档数量最大的Top 10同事;
4 安全防护:
局域网搜索引擎提供的安全防护包括:
1)针对每个分享的文件夹严格实行权限管理(由所有者自行设定),权限分为三级:个人(仅限于分享者个人阅读下载)、部门(限于同部门分享)、所有(局域网内所有人员分享);
2)内网隔离措施:局域网搜索引擎只能由授权用户在内网进行访问,外网无法登录内网服务,真正物理隔离,确保文档资源不被窃取流失;
3)文档全过程版本备份:文档修改过程中的版本完整备份,实时按需读取恢复数据;
内网文档搜索引擎系统主要技术指标
1.采集:在10M网络带宽环境下,每小时平均可以索引10万篇文档。
2.检索:毫秒级别。
3.系统能力:普通PC Server可以支持20人以内的局域网络;一般可以同时支持100人规模的企业;5台服务器集群可以支持万人规模的企业。