在搜索引擎输入框中输入搜索词时,会实时得到搜索建议:
这些建议词是从搜索引擎的搜索记录中按照一定算法挖掘出的高关联度短语。如果没有搜索记录,能不能实现相关搜索建议呢?本文介绍一个简单的处理方法,下面将分别说明如何得到相关建议词和前端的实现方式。
1.相关词语的获取
最直观[......]
Archive for the '023.搜索' Category
分词是文本处理、分析的基础,中科院分词系统ICTCLAS是中文领域中功能强大的分词系统。下面介绍如何在一般的Java程序和Lucene中使用ICTCLAS。
首先在ICTCLAS官方网站下载分词系统源码,地址是http://ictclas.org/ictclas_download.aspx,目前的版本如下图所示:

根据操作系统和编程语言的需要选择下载,本文使用的是ICTCLAS2011_Windows_32_jni版本。
将下载文件解压后,有四个文件夹:

其中,API中是完整的软件包,可以调用其中的函数实现分词功能;Demo是使用图形化界面演示分词效果的程序;Doc是软件文档;Sample是一个Java中调用ICTCLAS的例子。
1.一般Java程序
[......]
为了复习Lucene,今晚读了Lucene in Action英文第二版的第一章。发现读英文技术书并没有我想的那么困难,以前因为效率原因总是优先选择读翻译的内容,因为这个第二版还没有中文版本,转读原版,竟然读出点感觉来。
这里翻译部分书中内容,总结Lucene里重要的类,即书中第一章[......]
使用Lucene自带的示例程序lucene-demos-3.0.3.jar时,发现其中的索引程序IndexHTML.java索引一些网页时会报错:
Parse Aborted: Lexical error at line 63, column 16.
Encountered: "\u9[......]
移动搜索文献调研结果分为4部分:
1.Review(综述类)
2.Mobile search features(移动搜索特点研究)
3.Hot topics(热点研究方向)
4.Research Resources(研究资源:有关会议、组织等)
Review
实验室有个项目,需要做一个手机网站的站内搜索引擎,我和几个同学开始一起搭建demo。经过前期的资料调研,发现一个奇怪的现象:有关移动搜索的技术资料几乎没有(有一本中文的书没有很大价值),有关手机建站的技术资料,基本都是2000年左右出版的(你还记得那时的手机长什么样吗?)。
资料少估[......]