当搜索遇到商业智能 BI搜索有何不同?
查看评论 发表评论2007年09月05日 19:43分 作者: 来源:中软网
BI搜索有何不同
把搜索范围扩大到BI领域之所以比较容易,原因之一就是用户已经知道了搜索他们熟悉的基于Web的搜索引擎。只要稍加培训,用户就能学会如何使用额外选项,这些选项类似Web引擎上的高级搜索特性里面的选项。
然而,企业搜索背后发生的一切与Web搜索引擎的运作大不相同。如今,大多数Web查询针对的是非结构化数据,譬如HTML、PowerPoint演示文档和PDF文件。因为这些资源面向文档,所以引擎会对数据具有的意义及相关性作出智能决策(网页甚至有特殊标签,以方便这个过程)。
相比之下,结构化数据一般不提供这种上下文信息。打开数据库,看到名为“零件”的一列数字,对这个数指什么(零件号、成本、库存、位置及其他信息)知之甚少。使用元数据最终可以解决这个问题; 通过支持数据库里面的XML,这个问题已得到了解决; 但至于如今绝大部分的结构化数据,根本就没有简单的解决方案。
BI软件通过使用模板以及经过培训的分析人员定义的数据关系,从一方面解决了这个问题。正因为如此,如今的许多企业搜索引擎如Google和X1把搜索结构化数据的任务交给了BI软件,然后把结果与来自搜索索引的条目进行联合(即合并)。
非结构化数据有自己的难题。第一个就是数量巨大。IBM的信息管理战略项目主任Mark Andrews指出,每个企业用户每个工作日通常需要处理(包括收发)70封电子邮件。如果一家公司有25000名员工,那么每年有近5亿封电子邮件需要保存(为了符合法规遵从),而且能够易于搜索。另外还有其他格式的各种文档(HTML、文字处理、电子表格和演示文档),用户会面临严重的存储问题,这本身就是另一大难题。由于许多搜索返回成千上万的结果,如何评定结果的相关性?
Google企业部门的产品主管Matthew Glotzbach说: “不像Web搜索,你通常没有试图蒙骗算法的垃圾邮件发送站点,但也没有大量的使用数据(Web和应用服务器自动收集的有关用户访问行为的日志数据)来指导你。”但Google并没有透露它使用何种算法。
IBM比较愿意透露自己的算法,它在企业搜索中使用混合的权重因子来评定相关性,其中包括: 用户点击模式、某条目在文档中的格式及位置(标题的相关性高于文本里面的条目)以及元数据(链接内文本的评定不同于文档正文内的类似文本)等等。
关键字:
| [专题]IBM软件:云时代的黄金盛宴 IBM连续发起了对Lotus、Tivoli、Informix、Rational等领先软件企业的重量级收购,组建起业内最为丰富的中间件产品家族,并成长为全球最大的企业级软件提供商。 |
年终巨献 2010软件业界大事记盘点 2010即将过去,在这一年中必然有几家欢喜几家愁,有成有败。软件行业也不例外。今年软件业界出现的新潮流主要有社交网站Facebook、Twitter等与软件进行整合,网络地图... |
- 本周TOP10
- 本月TOP10
北京时间3月7日下午,英特尔在中国正式发布英特尔至强处理器E5-2600/1600产...
万兆以太网未到水穷处,100G路由已至云起时。在笨鸟早已被淘汰的网络市场,...
站在年关,回顾2011年信息安全领域那些事。我们会发现在2011年信息安全领域...





