大數據

全文檢索技術-solr

一、需求分析
1.實現方法
在一些大型門戶網站、電子商務網站等都需要站內搜索功能,使用傳統的數據庫查詢方式實現搜索無法滿足一些高級的搜索需求,比如:搜索速度要快、搜索結果按相關度排序、搜索內容格式不固定等,這裡就需要使用全文檢索技術實現搜索功能。
使用Lucene實現
單獨使用Lucene實現站內搜索需要開發的工作量較大,主要表現在:索引維護、索引性能優化、搜索性能優化等,因此不建議採用。
使用solr實現
基於Solr實現站內搜索擴展性較好並且可以減少程序員的工作量,因為Solr提供了較為完備的搜索引擎解決方案,因此在門戶、論壇等系統中常用此方案。

2. 什麼是solr
Solr 是Apache下的一個頂級開源項目,採用Java開發,它是基於Lucene的全文搜索服務器。Solr提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展,並對索引、搜索性能進行了優化。
Solr可以獨立運行,運行在Jetty、Tomcat等這些Servlet容器中,Solr 索引的實現方法很簡單,用 POST 方法向 Solr 服務器發送一個描述 Field 及其內容的 XML 文檔,Solr根據xml文檔添加、刪除、更新索引 。Solr 搜索只需要發送 HTTP GET 請求,然後對 Solr 返回Xml、json等格式的查詢結果進行解析,組織頁面佈局。Solr不提供構建UI的功能,Solr提供了一個管理界面,通過管理界面可以查詢Solr的配置和運行情況。

Solr與Lucene的區別:
Lucene是一個開放源代碼的全文檢索引擎工具包,它不是一個完整的全文檢索引擎,Lucene提供了完整的查詢引擎和索引引擎,目的是為軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者以Lucene為基礎構建全文檢索引擎。
Solr的目標是打造一款企業級的搜索引擎系統,它是一個搜索引擎服務,可以獨立運行,通過Solr可以非常快速的構建企業的搜索引擎,通過Solr也可以高效的完成站內搜索功能。
image.png

二、Solr安裝及配置
2.1 Solr的下載
從Solr官方網站(http://lucene.apache.org/solr/ )下載Solr4.10.3,根據Solr的運行環境,Linux下需要下載lucene-4.10.3.tgz,windows下需要下載lucene-4.10.3.zip。
Solr使用指南可參考:https://wiki.apache.org/solr/FrontPage

2.2 Solr的文件夾結構
將solr-4.10.3.zip解壓:
image.png

bin:solr的運行腳本
contrib:solr的一些貢獻軟件/插件,用於增強solr的功能。
dist:該目錄包含build過程中產生的war和jar文件,以及相關的依賴文件。
docs:solr的API文檔
example:solr工程的例子目錄:
 example/solr:

該目錄是一個包含了默認配置信息的Solr的Core目錄。

 example/multicore:

該目錄包含了在Solr的multicore中設置的多個Core目錄。 

 example/webapps:

該目錄中包括一個solr.war,該war可作為solr的運行實例工程。

licenses:solr相關的一些許可信息
2.3 運行環境
solr 需要運行在一個Servlet容器中,Solr4.10.3要求jdk使用1.7以上,Solr默認提供Jetty(java寫的Servlet容器),本教程使用Tocmat作為Servlet容器,環境如下:

Solr:Solr4.10.3
Jdk:jdk1.7.0_72
Tomcat:apache-tomcat-7.0.53

三、Solr整合tomcat
3.1 Solr Home與SolrCore
創建一個Solr home目錄,SolrHome是Solr運行的主目錄,目錄中包括了運行Solr實例所有的配置文件和數據文件,Solr實例就是SolrCore,一個SolrHome可以包括多個SolrCore(Solr實例),每個SolrCore提供單獨的搜索和索引服務。

examplesolr是一個solr home目錄結構,如下:
image.png

上圖中“collection1”是一個SolrCore(Solr實例)目錄 ,目錄內容如下所示:
image.png

說明:
collection1:叫做一個Solr運行實例SolrCore,SolrCore名稱不固定,一個solr運行實例對外單獨提供索引和搜索接口。
solrHome中可以創建多個solr運行實例SolrCore。
一個solr的運行實例對應一個索引目錄。
conf是SolrCore的配置文件目錄 。
data目錄存放索引文件需要創建

3.2 整合步驟
第一步:安裝tomcat。D:tempapache-tomcat-7.0.53
第二步:把solr的war包複製到tomcat 的webapp目錄下。
把solr-4.10.3distsolr-4.10.3.war複製到D:tempapache-tomcat-7.0.53webapps下。
改名為solr.war
第三步:solr.war解壓。使用壓縮工具解壓或者啟動tomcat自動解壓。解壓之後刪除solr.war
第四步:把solr-4.10.3examplelibext目錄下的所有的jar包添加到solr工程中
第五步:配置solrHome和solrCore。
1)創建一個solrhome(存放solr所有配置文件的一個文件夾)。solr-4.10.3examplesolr目錄就是一個標準的solrhome。
2)把solr-4.10.3examplesolr文件夾複製到D:temp0108路徑下,改名為solrhome,改名不是必須的,是為了便於理解。
3)在solrhome下有一個文件夾叫做collection1這就是一個solrcore。就是一個solr的實例。一個solrcore相當於mysql中一個數據庫。Solrcore之間是相互隔離。

  1. 在solrcore中有一個文件夾叫做conf,包含了索引solr實例的配置信息。
  2. 在conf文件夾下有一個solrconfig.xml。配置實例的相關信息。如果使用默認配置可以不用做任何修改。
    Xml的配置信息:

Lib:solr服務依賴的擴展包,默認的路徑是collection1lib文件夾,如果沒有 就創建一個
dataDir:配置了索引庫的存放路徑。默認路徑是collection1data文件夾,如 果沒有data文件夾,會自動創建。
requestHandler:
image.png
image.png

第六步:告訴solr服務器配置文件也就是solrHome的位置。修改web.xml使用jndi的方式告訴solr服務器。
Solr/home名稱必須是固定的。
image.png
image.png

第七步:啟動tomcat
第八步:訪問http://localhost:8080/solr/

四、Solr後臺管理
4.1 管理界面
image.png

Dashboard
儀表盤,顯示了該Solr實例開始啟動運行的時間、版本、系統資源、jvm等信息。
Logging
Solr運行日誌信息
Cloud
Cloud即SolrCloud,即Solr雲(集群),當使用Solr Cloud模式運行時會顯示此菜單,如下圖是Solr Cloud的管理界面:
image.png

Core Admin
Solr Core的管理界面。Solr Core 是Solr的一個獨立運行實例單位,它可以對外提供索引和搜索服務,一個Solr工程可以運行多個SolrCore(Solr實例),一個Core對應一個索引目錄。

添加solrcore:
第一步:複製collection1改名為collection2
第二步:修改core.properties。name=collection2
第三步:重啟tomcat
java properties
Solr在JVM 運行環境中的屬性信息,包括類路徑、文件編碼、jvm內存設置等信息。

Tread Dump
顯示Solr Server中當前活躍線程信息,同時也可以跟蹤線程運行棧信息。
Core selector
選擇一個SolrCore進行詳細操作,如下:
image.png

Analysis
image.png

通過此界面可以測試索引分析器和搜索分析器的執行情況。
Dataimport
可以定義數據導入處理器,從關係數據庫將數據導入 到Solr索引庫中。
Document
通過此菜單可以創建索引、更新索引、刪除索引等操作,界面如下:
image.png

/update表示更新索引,solr默認根據id(唯一約束)域來更新Document的內容,如果根據id值搜索不到id域則會執行添加操作,如果找到則更新。
Query
image.png

通過/select執行搜索索引,必須指定“q”查詢條件方可搜索。

五、配置中文分析器
Schema.xml
schema.xml,在SolrCore的conf目錄下,它是Solr數據表配置文件,它定義了加入索引的數據的數據類型的。主要包括FieldTypes、Fields和其他的一些缺省設置。
image.png

FieldType域類型定義
下邊“text_general”是Solr默認提供的FieldType,通過它說明FieldType定義的內容:
image.png

FieldType子結點包括:name,class,positionIncrementGap等一些參數:
name:是這個FieldType的名稱
class:是Solr提供的包solr.TextField,solr.TextField 允許用戶通過分析器來定製索引和查詢,分析器包括一個分詞器(tokenizer)和多個過濾器(filter)
positionIncrementGap:可選屬性,定義在同一個文檔中此類型數據的空白間隔,避免短語匹配錯誤,此值相當於Lucene的短語查詢設置slop值,根據經驗設置為100。
例如:搜索big car,如果document中存的是big red car,就無法搜索到了, positionIncrementGap就是設置big和car中間最大的間隔距離,只要在距離內就能搜索到.

在FieldType定義的時候最重要的就是定義這個類型的數據在建立索引和進行查詢的時候要使用的分析器analyzer,包括分詞和過濾

索引分析器中:使用solr.StandardTokenizerFactory標準分詞器,solr.StopFilterFactory停用詞過濾器,solr.LowerCaseFilterFactory小寫過濾器。
搜索分析器中:使用solr.StandardTokenizerFactory標準分詞器,solr.StopFilterFactory停用詞過濾器,這裡還用到了solr.SynonymFilterFactory同義詞過濾器。
Field定義
在fields結點內定義具體的Field,filed定義包括name,type(為之前定義過的各種FieldType),indexed(是否被索引),stored(是否被儲存),multiValued(是否存儲多個值)等屬性。
如下:

<field name="name" type="text_general" indexed="true" stored="true"/>
<field name="features" type="text_general" indexed="true" stored="true" multiValued="true"/>

multiValued:該Field如果要存儲多個值時設置為true,solr允許一個Field存儲多個值,比如存儲一個用戶的好友id(多個),商品的圖片(多個,大圖和小圖),通過使用solr查詢要看出返回給客戶端是數組:
image.png

uniqueKey
Solr中默認定義唯一主鍵key為id域,如下:
image.png

Solr在刪除、更新索引時使用id域進行判斷,也可以自定義唯一主鍵。
注意在創建索引時必須指定唯一約束。

copyField複製域
copyField複製域,可以將多個Field複製到一個Field中,以便進行統一的檢索:
比如,輸入關鍵字搜索title標題內容content,
定義title、content、text的域:
image.png
image.png
image.png

根據關鍵字只搜索text域的內容就相當於搜索title和content,將title和content複製到text中,如下:
image.png

dynamicField(動態字段)
動態字段就是不用指定具體的名稱,只要定義字段名稱的規則,例如定義一個 dynamicField,name 為*_i,定義它的type為text,那麼在使用這個字段的時候,任何以_i結尾的字段都被認為是符合這個定義的,例如:name_i,gender_i,school_i等。

自定義Field名為:product_title_t,“product_title_t”和scheam.xml中的dynamicField規則匹配成功,如下:
image.png

“product_title_t”是以“_t”結尾。

創建索引:
image.png

搜索索引:
image.png

六、安裝中文分詞器
使用IKAnalyzer中文分析器。

第一步:把IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目錄下。
第二步:複製IKAnalyzer的配置文件和自定義詞典和停用詞詞典到solr的classpath下。
也就是在apache-tomcat-7.0.54webappssolrWEB-INF目錄下新建classes目錄,將配置文件和詞典放進去.

第三步:在schema.xml中添加一個自定義的fieldType,使用中文分析器。

<!-- IKAnalyzer-->
    <fieldType name="text_ik" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>

第四步:定義field,指定field的type屬性為text_ik

<!--IKAnalyzer Field-->
   <field name="title_ik" type="text_ik" indexed="true" stored="true" />
   <field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>

第五步:重啟tomcat
測試:
image.png

設置業務系統Field
如果不使用Solr提供的Field可以針對具體的業務需要自定義一套Field,如下是商品信息Field:

<!--product-->
   <field name="product_name" type="text_ik" indexed="true" stored="true"/>
   <field name="product_price"  type="float" indexed="true" stored="true"/>
   <field name="product_description" type="text_ik" indexed="true" stored="false" />
   <field name="product_picture" type="string" indexed="false" stored="true" />
   <field name="product_catalog_name" type="string" indexed="true" stored="true" />

   <field name="product_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
   <copyField source="product_name" dest="product_keywords"/>
   <copyField source="product_description" dest="product_keywords"/>

七、Solr管理索引庫
**維護索引
添加/更新文檔
添加單個文檔**
image.png

批量導入數據
使用dataimport插件批量導入數據。
第一步:把dataimport插件依賴的jar包添加到solrcore(collection1lib)中

還需要mysql的數據庫驅動。
第二步:配置solrconfig.mxl文件,添加一個requestHandler。

<requestHandler name="/dataimport" 
class="org.apache.solr.handler.dataimport.DataImportHandler">
   <lst name="defaults">
     <str name="config">data-config.xml</str>
    </lst>
 </requestHandler> 

第三步:創建一個data-config.xml,保存到collection1conf目錄下

<?xml version="1.0" encoding="UTF-8" ?>  
<dataConfig>   
<dataSource type="JdbcDataSource"   
          driver="com.mysql.jdbc.Driver"   
          url="jdbc:mysql://localhost:3306/lucene"   
          user="root"   
          password="root"/>   
<document>   
    <entity name="product" query="SELECT pid,name,catalog_name,price,description,picture FROM products ">
         <field column="pid" name="id"/> 
         <field column="name" name="product_name"/> 
         <field column="catalog_name" name="product_catalog_name"/> 
         <field column="price" name="product_price"/> 
         <field column="description" name="product_description"/> 
         <field column="picture" name="product_picture"/> 
    </entity>   
</document>   

</dataConfig>

第四步:重啟tomcat
image.png

第五步:點擊“execute”按鈕導入數據

到入數據前會先清空索引庫,然後再導入。

刪除文檔
刪除索引格式如下:

1) 刪除制定ID的索引

<id>8</id>

2) 刪除查詢到的索引數據

<query>product_catalog_name:幽默雜貨</query>

3) 刪除所有索引數據

<query>*:*</query>

查詢索引
通過/select搜索索引,Solr制定一些參數完成不同需求的搜索:

  1. q - 查詢字符串,必須的,如果查詢所有使用:
    image.png
  2. fq - (filter query)過慮查詢,作用:在q查詢符合結果中同時是fq查詢符合的,例如::
    image.png

過濾查詢價格從1到20的記錄。
也可以在“q”查詢條件中使用product_price:[1 TO 20],如下:
image.png

也可以使用“*”表示無限,例如:
20以上:product_price:[20 TO *]
20以下:product_price:[* TO 20]

  1. sort - 排序,格式:sort=+[,+]… 。示例:
    image.png

按價格降序

  1. start - 分頁顯示使用,開始記錄下標,從0開始
  2. rows - 指定返回結果最多有多少條記錄,配合start來實現分頁。
    image.png

顯示前10條。

  1. fl - 指定返回那些字段內容,用逗號或空格分隔多個。
    image.png

顯示商品圖片、商品名稱、商品價格

  1. df-指定一個搜索Field
    image.png

也可以在SolrCore目錄 中conf/solrconfig.xml文件中指定默認搜索Field,指定後就可以直接在“q”查詢條件中輸入關鍵字。
image.png

  1. wt - (writer type)指定輸出格式,可以有 xml, json, php, phps, 後面 solr 1.3增加的,要用通知我們,因為默認沒有打開。
  2. hl 是否高亮 ,設置高亮Field,設置格式前綴和後綴。
    image.png

八、使用SolrJ管理索引庫
什麼是solrJ
solrj是訪問Solr服務的java客戶端,提供索引和搜索的請求方法,SolrJ通常在嵌入在業務系統中,通過SolrJ的API接口操作Solr服務,如下圖:
image.png

依賴的jar包
image.png

添加文檔
實現步驟
第一步:創建一個java工程
第二步:導入jar包。包括solrJ的jar包。還需要
第三步:和Solr服務器建立連接。HttpSolrServer對象建立連接。
第四步:創建一個SolrInputDocument對象,然後添加域。
第五步:將SolrInputDocument添加到索引庫。
第六步:提交。
代碼實現

//向索引庫中添加索引
    @Test
    public void addDocument() throws Exception {
        //和solr服務器創建連接
        //參數:solr服務器的地址
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //創建一個文檔對象
        SolrInputDocument document = new SolrInputDocument();
        //向文檔中添加域
        //第一個參數:域的名稱,域的名稱必須是在schema.xml中定義的
        //第二個參數:域的值
        document.addField("id", "c0001");
        document.addField("title_ik", "使用solrJ添加的文檔");
        document.addField("content_ik", "文檔的內容");
        document.addField("product_name", "商品名稱");
        //把document對象添加到索引庫中
        solrServer.add(document);
        //提交修改
        solrServer.commit();
        
    }

**刪除文檔
根據id刪除**

//刪除文檔,根據id刪除
    @Test
    public void deleteDocumentByid() throws Exception {
        //創建連接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //根據id刪除文檔
        solrServer.deleteById("c0001");
        //提交修改
        solrServer.commit();
    }

根據查詢刪除
查詢語法完全支持Lucene的查詢語法。

//根據查詢條件刪除文檔
    @Test
    public void deleteDocumentByQuery() throws Exception {
        //創建連接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //根據查詢條件刪除文檔
        solrServer.deleteByQuery("*:*");
        //提交修改
        solrServer.commit();
    }

修改文檔
在solrJ中修改沒有對應的update方法,只有add方法,只需要添加一條新的文檔,和被修改的文檔id一致就,可以修改了。本質上就是先刪除後添加。

查詢文檔
簡單查詢

//查詢索引
    @Test
    public void queryIndex() throws Exception {
        //創建連接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //創建一個query對象
        SolrQuery query = new SolrQuery();
        //設置查詢條件
        query.setQuery("*:*");
        //執行查詢
        QueryResponse queryResponse = solrServer.query(query);
        //取查詢結果
        SolrDocumentList solrDocumentList = queryResponse.getResults();
        //共查詢到商品數量
        System.out.println("共查詢到商品數量:" + solrDocumentList.getNumFound());
        //遍歷查詢的結果
        for (SolrDocument solrDocument : solrDocumentList) {
            System.out.println(solrDocument.get("id"));
            System.out.println(solrDocument.get("product_name"));
            System.out.println(solrDocument.get("product_price"));
            System.out.println(solrDocument.get("product_catalog_name"));
            System.out.println(solrDocument.get("product_picture"));
            
        }
    }

複雜查詢
其中包含查詢、過濾、分頁、排序、高亮顯示等處理。

//複雜查詢索引
    @Test
    public void queryIndex2() throws Exception {
        //創建連接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //創建一個query對象
        SolrQuery query = new SolrQuery();
        //設置查詢條件
        query.setQuery("鑽石");
        //過濾條件
        query.setFilterQueries("product_catalog_name:幽默雜貨");
        //排序條件
        query.setSort("product_price", ORDER.asc);
        //分頁處理
        query.setStart(0);
        query.setRows(10);
        //結果中域的列表
        query.setFields("id","product_name","product_price","product_catalog_name","product_picture");
        //設置默認搜索域
        query.set("df", "product_keywords");
        //高亮顯示
        query.setHighlight(true);
        //高亮顯示的域
        query.addHighlightField("product_name");
        //高亮顯示的前綴
        query.setHighlightSimplePre("<em>");
        //高亮顯示的後綴
        query.setHighlightSimplePost("</em>");
        //執行查詢
        QueryResponse queryResponse = solrServer.query(query);
        //取查詢結果
        SolrDocumentList solrDocumentList = queryResponse.getResults();
        //共查詢到商品數量
        System.out.println("共查詢到商品數量:" + solrDocumentList.getNumFound());
        //遍歷查詢的結果
        for (SolrDocument solrDocument : solrDocumentList) {
            System.out.println(solrDocument.get("id"));
            //取高亮顯示
            String productName = "";
            Map<String, Map<String, List<String>>> highlighting = queryResponse.getHighlighting();
            List<String> list = highlighting.get(solrDocument.get("id")).get("product_name");
            //判斷是否有高亮內容
            if (null != list) {
                productName = list.get(0);
            } else {
                productName = (String) solrDocument.get("product_name");
            }
            
            System.out.println(productName);
            System.out.println(solrDocument.get("product_price"));
            System.out.println(solrDocument.get("product_catalog_name"));
            System.out.println(solrDocument.get("product_picture"));
            
        }
    }

Leave a Reply

Your email address will not be published. Required fields are marked *