Field的改进
Lucene1.4主要提供下列四种不同类型的Field:
Keyword,UnStored,UnIndexed,Text
在Lucene2.0中是通过三个内部类Field.Index,Field.Store,Field.termVector(项向量)的组合来区分Field的具体类型.具体如下:
Field.Store.COMPRESS:压缩保存,用于长文本或二进制数据
Field.Store.YES:保存
Field.Store.NO:不保存
Field.Index.NO:不建立索引
Field.Index.TOKENIZED:分词,建索引
Field.Index.UN_TOKENIZED:不分词,建索引
Field.Index.NO_NORMS:不分词,建索引.但是Field的值不像通常那样被保存,而是只取一个byte,这样节约存储空间
Field.TermVector.NO:不保存term vectors
Field.TermVector.YES:保存term vectors
Field.TermVector.WITH_POSITIONS:保存term vectors.(保存值和token位置信息)
Field.TermVector.WITH_OFFSETS:保存term vectors.(保存值和Token的offset)
Field.TermVector.WITH_POSITIONS_OFFSETS:保存term vectors.(保存值和token位置信息和Token的offset)
而Field的构造函数也用到了这三个内部类:
Field(String, byte[],Field.Store)
Field(String, Reader)
Field(String, Reader, Field.TermVector)
Field(String, String, Field.Store, Field.Index)
Field(String, String, Field.Store, Field.Index, Field.TermVector)
其中Field(String, Reader)和Field(String, Reader, Field.TermVector)默认为Field.Index.TOKENIZED和Field.Store.NO的.我们可以很简单的建立起1.4版本的Field类型和2.0间的转换(这看上去似乎没有什么必要,只是觉得对于理解还是有点帮助的)
Keyword <==> Store.YES,Index.UN_TOKENIZED;
UnIndexed <==> Store.YES,Index.NO;
UnStored <==> Store.NO,Index.TOKENIZED;
Text(String, Reader) <==> Store.NO,Index.TOKENIZED;
Text(String,String) <==> Store.YES,Index.TOKENIZED.
分享到:
相关推荐
lucene1.4工具包
全面好用的lucene 2.0 api以及lucene 3.0 api帮助文档
Lucene.Net 2.0 已编译 dll
NULL 博文链接:https://fishhappy365.iteye.com/blog/456739
Lucene.Net.rar 2.0 ver asp.net 组件 功能强大放到 Bin 下面
Lucene.net 2.0 API,Lucene.net 2.0 dll,Lucene.net学习探索着必备。
lucene-1.4-final非src
lucene.net 2.0的全文检索源代码
Lucene.Net 2.0 源码+文档
Lucene.2.0的API文档合集 是从html装成chm的
lucene-2.0开发专用
支持全文索引Lucene.Net4.8版本,最新版盘古分词2.0
包含Lucene三个jar包:Lucene3.0.3、lucene1.4,
开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料,总共有30M,只上传了几个例子. ch2-lucene入门小例子 myReserch-可用的网络搜索引擎
lucene java 搜索引擎 比较经典的全文搜索引擎,最近发现在官方网站上找不到了,放在这里给大家,方便点,多谢谢支持!
struts2 + spring2.5 + hibernate 3.2 + lucene 2.4 + compass 2.0 包含所有jar包,按readme.txt导入并运行即可 开始不用分了................
Lucene.Net-2.0.doc 更多信息请查看 www.iubang.com
本软件是开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料,不过由于代码很大,只发布其中最全的部分,各章的源码就不发了。
import org.apache.lucene.analysis.TokenStream; import org.mira.lucene.analysis.MIK_CAnalyzer; public class TestLucene { /** * @param args */ public static void main(String[] args) { String...
lucene jar包大全 lucene-2.0.jar lucene-3.0.2.jar lucene-3.6.2.jar lucene-4.2.1.jar