Solr配置
Solr的主要功能是全文检索,该功能分为两个过程:创建索引和对索引进行搜索;
在创建索引之前,需要重点关注两个配置文件:SOLR_HOME/collection1/conf/schema.xml(定义Document的结构类似定义DB的表结构) & solrconfig.xml(solr运行配置如请求如何被处理);在Solr创建索引的过程中,每条数据被抽象成一个Document(文档),每条数据的属性被抽象成Field(字段),Solr原生支持XML,JSON,CSV格式的Document文件对Document进行添加,删除;但现实情况是很多应用的数据都保存在关系型数据库或者XML文件中,要想对这些数据进行索引需要通过Data Import Request Handler(Solr扩展模块),该模块提供全量索引(将全部数据进行索引)和增量索引(只对某个时间点之后的数据进行索引)功能;
下面笔者将通过一个对MySQL数据库中数据进行索引的例子来阐述整个过程;
1,对数据表topic中的数据创建索引,topic表结构如下:
CREATE TABLE `topic` (
`id` INT(8) NOT NULL AUTO_INCREMENT COMMENT '自增id',
`title` VARCHAR(50) DEFAULT NULL COMMENT '标题',
`content` TEXT COMMENT '内容',
`create_date` BIGINT(15) DEFAULT NULL COMMENT '创建时间',
`update_date` BIGINT(15) DEFAULT NULL COMMENT '更新时间',
PRIMARY KEY (`id`),
) ENGINE=INNODB CHARSET=utf8
`id` INT(8) NOT NULL AUTO_INCREMENT COMMENT '自增id',
`title` VARCHAR(50) DEFAULT NULL COMMENT '标题',
`content` TEXT COMMENT '内容',
`create_date` BIGINT(15) DEFAULT NULL COMMENT '创建时间',
`update_date` BIGINT(15) DEFAULT NULL COMMENT '更新时间',
PRIMARY KEY (`id`),
) ENGINE=INNODB CHARSET=utf8
全文检索只针对title,content字段进行其他字段只做显示;
2,定义Document(文档)结构,对SOLR_HOME/collection1/conf/schema.xml进行如下修改:
在<fields>中添加如下field定义:
<!-- 定义文档Field对应于topic表字段-->
<field name="test_id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> <field name="test_title" type="text_chinese_IK" indexed="true" stored="true" />
<field name="test_content" type="text_chinese_IK" indexed="true" stored="true" />
<field name="test_create_date" type="long" indexed="false" stored="true" />
<field name="test_update_date" type="long" indexed="false" stored="true" />
field属性说明:
name:必须,field名称
type:必须,field类型名称,在<types>中通过fieldType定义
indexed:true表示该field需要被索引(能搜索和排序)
stored:true表示在索引中保存该field可在后面被读取
multiValued:true表示该field在文档中存在多个值
required:field是否必须有值,如果索引过程中该field为空则出错
default:默认值
增加fieldType定义,因为要支持中文检索,建索引时需要使用中文分词包,笔者使用的是IK Analyzer,下载IK Analyzer 2012FF_hf1版本能支持Solr4,上述配置中使用了type="text_chinese_IK" fieldType,该fieldType并非Solr预定义类型,故需要在<types>中添加该类型的定义并支持中文分词,定义如下:
<fieldType name="text_chinese_IK" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" />
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer" />
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" />
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer" />
</fieldType>
org.wltea.analyzer.lucene.IKAnalyzer为中文分词类同时用于索引和搜索过程,在这里需要将IK Analyzer中的IKAnalyzer2012FF_u1.jar,stopword.txt,IKAnalyzer.cfg文件复制到TOMCAT_HOME/webapp/solr/WEB-INF/lib下面
设置uniqueKey,每个文档可通过uniqueKey进行定位,Solr保证一个uniqueKey只存在一个Document:
<uniqueKey>test_id</uniqueKey>(作为uniqueKey的field必须是required)
3,添加dataimporter处理器,Solr REST风格的APIs保证所有的功能都可通过HTTP请求实现,如查询/select,索引更新/update等以上功能已在Solr上预定义,dataimporter属于扩展功能,需要在SOLR_HOME/collection1/conf/solrconfig.xml中添加Data Import Request Handler,如本例:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">./data-config.xml</str>
</lst>
</requestHandler>
<lst name="defaults">
<str name="config">./data-config.xml</str>
</lst>
</requestHandler>
org.apache.solr.handler.dataimport.DataImportHandler为DataImporter处理器(扩展模块),需要将Solr-4.2.0/dist/solr-dataimporthandler-4.2.0.jar,solr-dataimporthandler-extras-4.2.0.jar复制到TOMCAT_HOME/webapps/solr/WEB-INF/lib中,data-config.xml为数据源配置文件,DataImporter使用该文件从数据源中读取数据
4,配置data-config.xml,本例从MySQL表topic中导入数据:
<dataConfig>
<dataSource type="JdbcDataSource"
batchSize="-1"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://127.0.0.1:3306/test"
user="reader"
password="reader"/>
<document>
<entity name="topic" pk="id" onError="Skip" transformer="com.zj.transformer.MySolrTransformer"
<dataSource type="JdbcDataSource"
batchSize="-1"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://127.0.0.1:3306/test"
user="reader"
password="reader"/>
<document>
<entity name="topic" pk="id" onError="Skip" transformer="com.zj.transformer.MySolrTransformer"
query="select id,title,content,create_date,update_date from topic"
deltaImportQuery="select id,title,content,create_date,update_date from topic where id=${dataimporter.delta.id}"
deltaImportQuery="select id,title,content,create_date,update_date from topic where id=${dataimporter.delta.id}"
deltaQuery="select id from topic where update_date>'${dataimporter.last_index_time}'">
<field column="id" name="test_id" />
<field column="title" name="test_title" />
<field column="content" name="test_content" />
<field column="create_date" name="test_create_date" />
<field column="id" name="test_id" />
<field column="title" name="test_title" />
<field column="content" name="test_content" />
<field column="create_date" name="test_create_date" />
<field column="update_date" name="test_update_date" />
</entity></document>
</dataConfig>
<dataSource>用于定义数据源,本例定义JdbcDataSource作为数据源
<entity>定义抽取,转换并将数据添加进索引,name为名称,pk为主键,onError定义出错处理方式(abort|skip|continue),transformer用于数据转换(query执行后,添加进索引前),query定义全量索引时数据查询SQL,deltaImportQuery定义增量索引时数据查询SQL,deltaQuery定义哪些数据需要增量索引的查询SQL
<field>定义将数据库列对于到Solr的索引字段,column为数据库表字段名,name为Solr定义的索引字段名
本例中query="select id,title,content,create_date,update_date from topic",全量索引将topic表中的所有数据都添加到Solr索引中,在全量索引完成之后,Solr会自动生成dataimport.properties保存最近一次索引开始时间戳last_index_time,通过配置deltaImportQuery="select id,title,content,create_date,update_date from topic where id=${dataimporter.delta.id}",deltaQuery="select id from topic where update_date>'${dataimporter.last_index_time}'",增量索引将topic中update_date大于last_index_time的数据添加进索引实现增量更新(注:${dataimporter.delta.id},${dataimporter.last_index_time}是固定写法除id需要跟deltaQuery="select id ..."对应外其他不可更改要不然DataImporter取不到相应的值);
本例的com.zj.transformer.MySolrTransformer主要是为了介绍transformer,并无特殊目的:
package com.zj.transformer;
public class MySolrTransformer {
public Object transformRow(Map<String, Object> row) {
// row中保存数据库查询出的一条记录<column_name, value>
// 可以对row进行各种修改
return row;
}
}
transformer的定制非常简单完全是无侵入式的,只需要实现public Object transformRow(Map<String, Object> row)方法即可
5,启动索引过程
建全量索引,在浏览器中输入:http://ip:port/solr/dataimport?command=full-import&commit=true
建增量索引:http://ip:port/solr/dataimport?command=delta-import&clean=false&commit=true(也可通过定时器定时发送HTTP请求建增量索引);
6,查询索引
1,直接通过Solr查询页面查询:http://ip:port/solr/#/collection1/query
2,通过Solrj API进行查询:将Solr-4.2.0/dist/solr-solrj-4.2.0.jar,Solr-4.2.0/dist/solrj-lib/httpclient-4.2.3.jar,httpcore-4.2.2.jar,httpmime-4.2.3.jar Copy到工程的classpath中,创建如下代码:
package com.mobcent.searcher.solr.searcher;
import org.apache.solr.client.solrj.SolrQuery;
import org.apache.solr.client.solrj.SolrServer;
import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.impl.HttpSolrServer;
import org.apache.solr.client.solrj.response.QueryResponse;
import org.apache.solr.common.SolrDocumentList;
public class CopyOfSolrSearcher {
public static void main(String[] args) {
SolrServer server = new HttpSolrServer("http://127.0.0.1:8080/solr" );
((HttpSolrServer) server).setSoTimeout(3000);
((HttpSolrServer) server).setConnectionTimeout(3000);
((HttpSolrServer) server).setMaxTotalConnections(100);
((HttpSolrServer) server).setDefaultMaxConnectionsPerHost(100);
SolrQuery query = new SolrQuery();
//set keyword
query.setQuery( "keyword" );
//set filter.
query.addFilterQuery( "field:value" );
//set form to.
//起始页
query.setStart(0);
//每页
query.setRows(10);
QueryResponse queryResponse;
try {
queryResponse = server.query(query);
SolrDocumentList docList = queryResponse.getResults();
if (null != docList)
System. out .println("Find Total: " + docList.getNumFound());
} catch (SolrServerException e) {
e.printStackTrace();
}
}
}
总结,以上通过一个具体的例子对Solr进行配置,走完了使用Solr的整个流程,创建索引,对索引进行搜索;顺便说一句,Solr的Wiki是个不错的学习Solr的好地方;
相关推荐
apache solr 官方文档(英文原版) 包含详细的安装、Schema配置、solrConfig配置、管理页面使用等.
solr6.1.0版本jar已经不再提供读取自动索引配置文件路径的方法,因此apache-solr-dataimportscheduler-1.0内调用该方法的所有操作都无法实现。于是需要下载apache-solr-dataimportscheduler-1.0-with-source.jar并...
该pdf文档对apache solr 的用法及配置进行了详细的讲解,虽然是英文版,确实现在对solr server 介绍的最全的文档,希望对大家有所帮助
2. home文件夹中存放apache-solr-3.6.0\example\solr中的所有文件,删除data中所有的数据,server文件夹存放apache-solr-3.6.0\example\webapps中的war包,并且解压war包,解压又两种方式:1、用解压工具;...
Apache Solr全版本存在任意文件删除漏洞,在Solr默认安装后无需任何其它配置即可删除系统任意文件。详情可以参考:
ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...
0x01 正全版本任意件读取 (官拒绝修复)默认安装未授权情况下,各项配置皆为默认下载 Solr 最新版本复现1. 第步2. 第步0x03 漏洞信息跟进0x04
apache solr EmbeddedSolrServer 例子 用的版本是3.6.1,只是简单的查询、添加、删除,没有配置分词 , 有些代码页是在直接借用别人的
dataimportscheduler,没有配置文件
生成后的apache-solr-dataimportscheduler配套使用。
Solr(发音为“ solar”)是来自Apache Lucene项目的开源企业搜索平台。 它的主要功能包括全文搜索,命中突出显示,多面搜索,动态聚类,数据库集成以及丰富的文档(例如Word,PDF)处理。 此插件扩展了NodeBB的...
它将选择安装随 Drupal Apache Solr 或 Search API Solr 模块提供的 Solr 4.x 配置。 安装 有多种选择。 选一个。 要使用默认的 Solr conf 安装而不克隆存储库: curl ...
有配置文件和源码,code.google.cn下载
注意:如果要在其他域上托管搜索服务器,则可能需要为Apache Solr配置CORS支持。 如果配置不正确,您可能会在浏览器控制台中收到通知,并且结果将不会返回。 有关如何设置的信息,请参见 。 本地设置 安装依赖项 从...
它支持收集/更新收集/选择收集/ SQL(仅当apache solr处于云模式时,req zookeeper已被配置为apache solr) #我需要其他加深吗?不,您不需要与此相关的Zookeeper或Solr.Net库。它不支持故障转移到Zookeeper列表中...
drupal-solr 一个简单的 Docker 容器,用于提供配置为与 Drupal 的 apachesolr 模块一起使用的 dev Solr 实例。入门: Solr 实例已经配置了必要的模式以与 Drupal 的 apachesolr 模块一起工作。 要开始使用 Solr ...
Apache Solr 6.5.1在Windows环境搭建服务器的实操笔记。(1)支持中文分词和拼音分词;(2)支持jdk 1.8.0_121
用于 Magento 的 Apache Solr 使用 Apache Solr 进行搜索的 Magento 模块。 目前支持对简单且可配置的产品进行索引和搜索。 我们路线图的下一步是添加方面(分层导航),将其视为一个有效的测试版。特征索引和搜索...
solr是一个独立的企业级搜索应用服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索...
Ooozie工作流配置也可以用于提交作业以进行索引。 对于本地solr设置(在工作站上) 有关在docker中设置solr的信息,请参阅docker文件夹下的dockerfile。 Oozie工作流程 在cloudera集群上,您需要oozie / lib中的...