文章
Slash Boxes
评论

可以从数百万网页中自动提取信息的实验性搜索引擎

shizhao 发表于 2009年6月28日 21时55分 星期日   Printer-friendly   Email story
来自三段论部门
华盛顿大学的科学家们开发了一个叫做TextRunner的网页搜索工具(目前还只是一个很简单的演示),通过对超过5亿个网页的梳理,可以从数百万行文字中自动的分析词语之间的语义关系。专家认为这项研究可以促进下一代互联网更加智能化。 这项技术不同于以往那样需要人机学习,例如现在google正在研究的类似的自然语言处理技术。TextRunner可以通过自学习的方式,发现和学习数百万语句之间的关系,而不需要人为干预。
目前这个搜索工具还只能处理英文,它通过英语中存在的通用的关系模型,来自动从文本提取语义关系。而这个工具的另外一个目的是处理自然语言查询。例如TextRunner找到一个网页上说,“哺乳动物是热血的”;另一个网页上说“狗是哺乳动物”;那么一个推理机就会生成这样一条信息:“狗可能是热血的”。
显示选项 门槛:
声明: 下面的评论属于其发表者所有,不代表本站的观点和立场,我们不负责他们说什么。