前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個(gè)性化推薦系統(tǒng)主題范文,僅供參考,歡迎閱讀并收藏。
【關(guān)鍵詞】個(gè)性化;智能化推薦系統(tǒng);推薦技術(shù)
不斷擴(kuò)大規(guī)模的電子商務(wù)系統(tǒng),在為消費(fèi)者提供越來越多購物選擇的同時(shí),其自身商業(yè)結(jié)構(gòu)也變得更加復(fù)雜。消費(fèi)者經(jīng)常會(huì)迷失在大量的商品信息空間中,無法順利找到自己需要的商品;另一方面,商家也失去了與消費(fèi)者之間的聯(lián)系,不能準(zhǔn)確獲知消費(fèi)者的消費(fèi)需求、消費(fèi)建議。推薦系統(tǒng)就像商店導(dǎo)購人員,直接面對(duì)消費(fèi)者,為其提供商品推薦。這種能準(zhǔn)確獲取不同消費(fèi)者消費(fèi)需求的推薦系統(tǒng)就是我們要研究的個(gè)性化智能推薦系統(tǒng)。
一、電子商務(wù)個(gè)性化智能推薦系統(tǒng)
個(gè)性化智能推薦系統(tǒng)是指通過收集、統(tǒng)計(jì)和分析不同消費(fèi)者消費(fèi)特征,使用推薦算法研究消費(fèi)者的興趣偏好和購買行為,并適時(shí)更新數(shù)據(jù),實(shí)現(xiàn)主動(dòng)向消費(fèi)者推薦其所需商品的工作過程。
智能推薦系統(tǒng)運(yùn)作的中心是準(zhǔn)確得出消費(fèi)者的個(gè)體需求,建立以消費(fèi)者本身消費(fèi)特征為中心的個(gè)性化的營(yíng)銷策略,滿足不同消費(fèi)者的不同偏好。電子商務(wù)推薦系統(tǒng)通過個(gè)性化推薦技術(shù)對(duì)網(wǎng)站整體結(jié)構(gòu)進(jìn)行調(diào)整,增加商品的曝光數(shù),提升用戶平均訪問步長(zhǎng)和商品頁訪問量,從而提高網(wǎng)站整體營(yíng)銷能力。
如何使電子商務(wù)個(gè)性推薦系統(tǒng)更好地根據(jù)消費(fèi)者的需求推薦消費(fèi)者感興趣的商品,答案就在其采用的推薦技術(shù)上。推薦技術(shù)是電子商務(wù)推薦系統(tǒng)中最核心,最關(guān)鍵的技術(shù),很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。
二、推薦技術(shù)
從電子商務(wù)個(gè)性化推薦系統(tǒng)的主動(dòng)性上分類,可以將推薦技術(shù)分為主動(dòng)式推薦和被動(dòng)式推薦。
所謂主動(dòng)式推薦,是指推薦系統(tǒng)通過對(duì)消費(fèi)者信息和行為的分析,給出恰當(dāng)?shù)囊庖姾徒ㄗh主動(dòng)引導(dǎo)消費(fèi);而被動(dòng)式推薦是指消費(fèi)者通過自己的努力獲得所需要的商品信息。
根據(jù)目前主流的推薦技術(shù)分類,制作下表。
(一)被動(dòng)推薦
被動(dòng)式推薦技術(shù)的優(yōu)點(diǎn)是技術(shù)比較成熟,用戶易于使用。主要有下面兩大類:
1、分類瀏覽式推薦
分類瀏覽是一種按照主題分類進(jìn)行信息查詢的方法。它用樹形結(jié)構(gòu)將分類的商品和服務(wù)信息表現(xiàn)出來,易于實(shí)現(xiàn),同時(shí)操作方便。
幾乎所有的電子商務(wù)交易網(wǎng)站都提供這種方式的推薦。但是推薦效率低,且分類方法不統(tǒng)一,對(duì)新出現(xiàn)的商品和信息很難準(zhǔn)確歸類。
2、關(guān)鍵詞查詢式推薦
關(guān)鍵詞查詢由用戶輸入查找目標(biāo)的關(guān)鍵詞,系統(tǒng)尋找與關(guān)鍵詞匹配的內(nèi)容進(jìn)行推薦。這種方法也是比較常見的推薦方法,技術(shù)較為成熟,且易于用戶接受查找結(jié)果,但是對(duì)關(guān)鍵詞的選擇要求較高,且不易發(fā)現(xiàn)用戶的潛在興趣點(diǎn)。
被動(dòng)式推薦自動(dòng)化程度低,無法發(fā)掘用戶潛在興趣與消費(fèi)需求,因此目前研究比較多的是主動(dòng)式推薦,即智能推薦技術(shù)
(二)智能推薦技術(shù)
關(guān)鍵詞:個(gè)性化;采集;推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)36-8222-03
基于社會(huì)計(jì)算的個(gè)性化推薦系統(tǒng)的設(shè)計(jì),主要以新浪博客網(wǎng)頁作為數(shù)據(jù)源來采集設(shè)計(jì)的,繼而為其網(wǎng)頁文檔信息創(chuàng)建索引。主要模塊包括網(wǎng)頁文本信息采集,lucene索引庫,搜索推薦主干,系統(tǒng)管理等。
為了實(shí)現(xiàn)網(wǎng)頁文檔信息的自動(dòng)采集功能,本系統(tǒng)將采集模塊設(shè)置了后臺(tái)管理參數(shù),來實(shí)現(xiàn)信息的自動(dòng)“爬蟲”功能,而為了使推薦模塊能夠基于用戶的信息關(guān)鍵詞來搜索并提高效率,就必須實(shí)現(xiàn)用戶信息的即時(shí)搜索和反饋推薦功能。其詳細(xì)設(shè)計(jì)如下:
1 系統(tǒng)流程分析
1)系統(tǒng)業(yè)務(wù)處理流程:首先,管理員利用爬蟲進(jìn)行數(shù)據(jù)的采集,并將采集到的數(shù)據(jù)(博客網(wǎng)頁文檔)存儲(chǔ)進(jìn)入本地?cái)?shù)據(jù)庫。采集完成即可對(duì)數(shù)據(jù)庫中的文檔建立索引。用戶登錄系統(tǒng)前臺(tái)輸入關(guān)鍵詞進(jìn)行搜索之后,服務(wù)器下達(dá)命令于搜索引擎,進(jìn)行搜索并且對(duì)與關(guān)鍵字相關(guān)的數(shù)據(jù)進(jìn)行協(xié)同過濾,最后推薦出用戶感興趣的信息,其處理流程如圖1示,系統(tǒng)業(yè)務(wù)流程分析圖。
2)系統(tǒng)數(shù)據(jù)處理流程:管理員登入系統(tǒng)后臺(tái)爬蟲參數(shù)設(shè)置界面,設(shè)置好采集數(shù)據(jù)參數(shù),進(jìn)而在數(shù)據(jù)采集頁面進(jìn)行抓取網(wǎng)頁文檔,在數(shù)據(jù)采集完成之對(duì)采集到的數(shù)據(jù)建立索引,其中包括博文的題目、作者、采集時(shí)間等。用戶登錄系統(tǒng)前臺(tái)主頁,輸入搜索的數(shù)據(jù),即關(guān)鍵詞進(jìn)行搜索,程序服務(wù)器往后臺(tái)數(shù)據(jù)庫發(fā)送命令,數(shù)據(jù)庫返回協(xié)同過濾后的搜索結(jié)果給程序服務(wù)器,再完成所搜索到的博文以及其作者的反饋推薦。其處理流程如圖2示,系統(tǒng)數(shù)據(jù)流程分析圖。
2 系統(tǒng)概要設(shè)計(jì)
1)系統(tǒng)概念結(jié)構(gòu)設(shè)計(jì):概念結(jié)構(gòu)設(shè)計(jì)就是根據(jù)需求分析的結(jié)果,以規(guī)定的方法將其轉(zhuǎn)化為一個(gè)概念數(shù)據(jù)模型。而概念數(shù)據(jù)模型,是根據(jù)系統(tǒng)的需求點(diǎn)來對(duì)數(shù)據(jù)和信息進(jìn)行建模,采用E-R關(guān)系圖來描述。其系統(tǒng)總體E-R圖,如圖3示。
2)系統(tǒng)數(shù)據(jù)庫設(shè)計(jì):本系統(tǒng)選用Mysql數(shù)據(jù)庫。從個(gè)性化推薦系統(tǒng)的功能需求點(diǎn)出發(fā),在系統(tǒng)中設(shè)計(jì)了采集信息配置表(如圖4示)、信息推薦表等數(shù)據(jù)庫表(如圖5示),可以準(zhǔn)確有效地存儲(chǔ)采集到的數(shù)據(jù)。
3)安全性設(shè)計(jì):為了系統(tǒng)安全,采用身份和密碼雙重登陸驗(yàn)證機(jī)制,來確保系統(tǒng)后臺(tái)管理只有管理員能夠才能夠登陸,進(jìn)行爬蟲參數(shù)設(shè)置、數(shù)據(jù)采集、索引建立以及采集信息查看等操作,保證了系統(tǒng)數(shù)據(jù)的安全性。
此外,還加設(shè)了數(shù)據(jù)庫的安全工具策略,如對(duì)數(shù)據(jù)庫中表字段或內(nèi)容的編輯功能等操作,需要特定的數(shù)據(jù)庫管理工具配合才能進(jìn)行,從而進(jìn)一步提高數(shù)據(jù)的安全性。
3 系統(tǒng)詳細(xì)設(shè)計(jì)
1)系統(tǒng)功能結(jié)構(gòu)設(shè)計(jì):根據(jù)系統(tǒng)概要設(shè)計(jì),將本系統(tǒng)分為前臺(tái)交互和后臺(tái)數(shù)據(jù)處理,由四個(gè)模塊共同組成:爬蟲采集網(wǎng)頁文檔和信息、lucene索引的創(chuàng)建,以及操控?cái)?shù)據(jù)庫、搜索主干、前臺(tái)輸入輸出處理。各個(gè)模塊分工協(xié)作運(yùn)行。其系統(tǒng)功能結(jié)構(gòu)如圖6示。
本系統(tǒng)管理和界面設(shè)計(jì),包含了前臺(tái)和后臺(tái)相聯(lián)構(gòu)建的內(nèi)容,采用了Eclipse Tomcat服務(wù)器和JSP技術(shù)。以lucene創(chuàng)建索引,數(shù)據(jù)庫應(yīng)用了mysql,并使用JDBC來實(shí)現(xiàn)編程的友好交互,從而設(shè)計(jì)出友好的用戶界面。此外,在整個(gè)系統(tǒng)的設(shè)計(jì)上,采用了 B/S 三層體系結(jié)構(gòu)(如圖7示)。管理員使用網(wǎng)頁瀏覽工具向應(yīng)用服務(wù)器發(fā)送服務(wù)請(qǐng)求,應(yīng)用服務(wù)器接收請(qǐng)求,并且執(zhí)行業(yè)務(wù)邏輯,將操作人員想要的信息返回瀏覽工具顯示,確保整個(gè)系統(tǒng)使用過程的開放性與安全性。
本系統(tǒng)中抓取網(wǎng)頁文檔是系統(tǒng)的信息數(shù)據(jù)基礎(chǔ),也是數(shù)據(jù)的來源,只有有了豐富的數(shù)據(jù)源,才能夠提供有效的服務(wù)。因此,本系統(tǒng)測(cè)試過程,主要以新浪博客網(wǎng)頁作為數(shù)據(jù)源,來抓取其頁面的文本, heritrix爬蟲具有良好的擴(kuò)充功能,可以通過編程進(jìn)行過濾來抓取另外的文本。通過采集網(wǎng)頁的信息,來對(duì)網(wǎng)頁中有價(jià)值的數(shù)據(jù)實(shí)行提取,過濾掉那些無作用的數(shù)據(jù),只留下有效性的文本信息,來提高存儲(chǔ)的利用效率,其數(shù)據(jù)采集結(jié)果主要包括該博客網(wǎng)頁文檔以及該博客的地址,博客的題目、內(nèi)容、作者以及采集的時(shí)間等,如圖8數(shù)據(jù)采集過程圖和圖9數(shù)據(jù)采集查看圖所示。而搜索推薦主干同樣是利用lucene實(shí)現(xiàn),搜索的關(guān)鍵字在已經(jīng)創(chuàng)建的索引庫中搜查對(duì)應(yīng)的文本。
4 系統(tǒng)實(shí)現(xiàn)
基于社會(huì)計(jì)算的個(gè)性化推薦系統(tǒng)使用軟件MyEclipse 8.5集成開發(fā)實(shí)現(xiàn),采用JAVA語言來進(jìn)行開發(fā),頁面采用jsp語言來設(shè)計(jì)實(shí)現(xiàn),而數(shù)據(jù)庫則是利用Mysql來實(shí)現(xiàn),從而實(shí)現(xiàn)了根據(jù)用戶的需求和興趣為用戶推薦出有價(jià)值的結(jié)果集,使用戶能夠在更短的時(shí)間獲取到自己想要的信息,其結(jié)果轉(zhuǎn)換如圖10 系統(tǒng)推薦實(shí)現(xiàn)圖所示。
參考文獻(xiàn):
[1] 陳諾言.基于個(gè)性化推薦引擎組合的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2012.
[2] 梁弼,王光瓊,鄧小青.基于 Lucene 的全文檢索系統(tǒng)模型的研究及應(yīng)用[J]. 微型機(jī)與應(yīng)用, 2011(3).
關(guān)鍵詞:推薦算法;負(fù)面評(píng)價(jià);物質(zhì)擴(kuò)散
中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)03-0611-03
Frame Research of Personalized Recommendation Algorithm by Considering the Negative Ratings
SU Ying
(Business School, University of Shanghai for Science and Technology, Shanghai 200093,China)
Abstract: This paper introduces new recommendation algorithm frame by reconsidering the negative ratings. The numerical results based on MovieLens dataset and the mass-diffusion-based algorithm show that,the new algorithm frame can greatly reduce the redundancy, and also enhance the accuracy and improve the quality of the recommended results.
Key words: recommendation algorithm; negative ratings; mass diffusion
如何準(zhǔn)確識(shí)別用戶的需求,幫助用戶找到自己真正需要的信息成為信息過濾技術(shù)的一大挑戰(zhàn)。為了解決這些問題,推薦系統(tǒng),也稱為個(gè)性化推薦應(yīng)運(yùn)而生。個(gè)性化推薦系統(tǒng)被認(rèn)為是信息爆炸時(shí)代解決信息超載問題的最有效的信息過濾手段。個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)智能平臺(tái),通過記錄用戶的網(wǎng)站使用足跡,挖掘用戶的興趣特點(diǎn),向用戶推薦其感興趣的信息或商品,為用戶提供完全個(gè)性化的決策支持和信息服務(wù),滿足用戶的個(gè)性化需求,改善用戶體驗(yàn)。近幾年,各種各樣的推薦系統(tǒng)被廣泛研究和應(yīng)用,經(jīng)典的推薦算法包括協(xié)同過濾算法,基于內(nèi)容的推薦算法,基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法和混合算法等等。
然而,目前對(duì)個(gè)性化推薦算法的研究都關(guān)注利用用戶喜歡產(chǎn)品的信息預(yù)測(cè)可能感興趣的產(chǎn)品,而用戶的負(fù)面評(píng)價(jià)信息則沒有引起重視。本文重新考慮了在很多推薦算法研究中被忽略掉的用戶的負(fù)面評(píng)價(jià)信息對(duì)推薦算法改進(jìn)的意義,構(gòu)建了考慮負(fù)面評(píng)價(jià)的個(gè)性化推薦算法框架。
1負(fù)面評(píng)價(jià)對(duì)推薦算法改進(jìn)的意義
現(xiàn)實(shí)中應(yīng)用的推薦系統(tǒng)一般都會(huì)向用戶提供一個(gè)統(tǒng)一的評(píng)價(jià)體系,方便用戶對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)的同時(shí),還可以使評(píng)分?jǐn)?shù)據(jù)標(biāo)準(zhǔn)化統(tǒng)一化。幾乎所有系統(tǒng)的評(píng)分?jǐn)?shù)據(jù)都可以大致分為好評(píng)和差評(píng)兩類:好評(píng)數(shù)據(jù)隱含了用戶的偏好特征;差評(píng)數(shù)據(jù)隱含了用戶的不喜歡產(chǎn)品的特征。以往的推薦算法研究中都會(huì)清洗掉用戶的負(fù)面評(píng)價(jià),但我們認(rèn)為負(fù)面評(píng)價(jià)對(duì)于推薦系統(tǒng)具有重要意義,具體表現(xiàn)在以下三方面:
1.1利用負(fù)面評(píng)價(jià)可以減少數(shù)據(jù)稀疏給系統(tǒng)帶來的負(fù)面影響
實(shí)際系統(tǒng)中收集的信息,常由于用戶不愿意透漏自己的隱私等種種原因,嚴(yán)重缺省。隨著維度增加,數(shù)據(jù)在它所占據(jù)的空間中將越來越稀疏,最終導(dǎo)致具有統(tǒng)計(jì)意義的數(shù)據(jù)樣本稀少。推薦算法依賴于用戶的歷史數(shù)據(jù),一般來說歷史數(shù)據(jù)越多,系統(tǒng)的推薦準(zhǔn)確度相對(duì)越高,因此數(shù)據(jù)的稀疏問題將直接影響系統(tǒng)的推薦質(zhì)量。忽視用戶的負(fù)面評(píng)價(jià)信息在一定程度上增大了系統(tǒng)的數(shù)據(jù)稀疏性,不利于算法的運(yùn)行。我們認(rèn)為用戶的負(fù)面評(píng)價(jià)信息有助于降低系統(tǒng)的數(shù)據(jù)稀疏性,可以有效緩解數(shù)據(jù)稀疏帶來的各種問題,因此用戶的負(fù)面評(píng)價(jià)信息應(yīng)該得到研究者的關(guān)注,并將其合理地用于改進(jìn)推薦算法。
1.2負(fù)面評(píng)價(jià)可以幫助系統(tǒng)更準(zhǔn)確地定位用戶喜好
現(xiàn)有的推薦算法或者利用所有評(píng)分?jǐn)?shù)據(jù),忽略用戶評(píng)分?jǐn)?shù)據(jù)的高低差異,或者只利用用戶正面評(píng)價(jià)的產(chǎn)品信息,清洗掉用戶負(fù)面評(píng)價(jià)的產(chǎn)品信息。用戶或產(chǎn)品相似性網(wǎng)絡(luò)的構(gòu)建過程中也都只考慮基于正面評(píng)價(jià)的信息,比如協(xié)同過濾算法,總是從偏好出發(fā)去搜索相似的偏好;基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法,也只利用用戶的喜歡信息去建立二分圖網(wǎng)絡(luò)。在很多情況下,忽視用戶負(fù)面評(píng)價(jià)信息會(huì)影響推薦系統(tǒng)對(duì)用戶興趣點(diǎn)定位的精確度。如對(duì)于一部正在熱映評(píng)價(jià)尚好的電影,有一小群用戶打了低分,那么他們差評(píng)的 理由可能會(huì)非常相似,而對(duì)于打高分的大多數(shù)人來說,好評(píng)的原因卻可能相差很遠(yuǎn),比如,這些人中可能存在著盲從的隨大流的評(píng)價(jià)者,他們的評(píng)價(jià)可靠性差,推薦能力很弱,難以刻畫出用戶的興趣點(diǎn)。實(shí)際應(yīng)用中,用戶一般更傾向于進(jìn)行正面評(píng)價(jià),負(fù)面評(píng)價(jià)一旦出現(xiàn)就意味著用戶的厭惡情緒鮮明強(qiáng)烈,因此我們認(rèn)為用戶的負(fù)面評(píng)價(jià)信息可靠性更高,可以幫助系統(tǒng)更準(zhǔn)確地把握用戶的興趣特征。
1.3利用負(fù)面評(píng)價(jià)信息可以有效減少系統(tǒng)中的冗余信息
隨著網(wǎng)絡(luò)用戶數(shù)量與產(chǎn)品種類的增加,推薦算法的擴(kuò)展性問題將成為制約推薦系統(tǒng)發(fā)展的重要因素。數(shù)據(jù)量的急劇增加將給系統(tǒng)存儲(chǔ)、更新帶來越來越大的成本壓力。隨著計(jì)算規(guī)模和復(fù)雜度逐漸增大,推薦算法的性能將越來越差。如果可以利用用戶的負(fù)面評(píng)價(jià)信息找到用戶不喜歡的產(chǎn)品黑名單,就可以將其作為用戶推薦列表的限制性條件,一旦用戶推薦列表中的產(chǎn)品同時(shí)也在黑名單,系統(tǒng)就自動(dòng)將它從用戶的推薦列表中去除,從而避免向用戶推薦其可能不喜歡的產(chǎn)品,減少用戶的不滿意度,增強(qiáng)用戶對(duì)推薦系統(tǒng)的信任。因此利用用戶的負(fù)面評(píng)價(jià)信息不但可以降低推薦列表的出錯(cuò)率,還有助于降低系統(tǒng)中的信息冗余,對(duì)于推薦系統(tǒng)擴(kuò)展性問題的解決具有重要意義。
2利用負(fù)面評(píng)價(jià)的個(gè)性化推薦算法框架
無論哪一種推薦算法,算法的核心都是相似性搜索,既然通過用戶喜歡的產(chǎn)品信息可以找到那些潛在的會(huì)得到用戶喜歡的產(chǎn)品,那么通過用戶不喜歡的產(chǎn)品信息也可以找到那些會(huì)讓用戶不喜歡的產(chǎn)品?;谶@種理論假設(shè),我們?cè)O(shè)計(jì)了考慮用戶負(fù)面評(píng)價(jià)的推薦算法框架,如圖1所示。
該框架的運(yùn)行原理為:
1)考慮用戶評(píng)分?jǐn)?shù)據(jù)的好壞差異,對(duì)評(píng)分?jǐn)?shù)據(jù)進(jìn)行分類;
2)通過個(gè)性化推薦算法,基于獲得用戶好評(píng)的產(chǎn)品信息得到用戶最初的推薦列表,基于得到用戶差評(píng)的產(chǎn)品信息得到用戶不喜歡的產(chǎn)品列表;
3)在過濾模塊中,識(shí)別并剔除掉那些用戶的推薦列表中存在的用戶不喜歡的產(chǎn)品列表中的產(chǎn)品,精煉推薦結(jié)果。
4)為了驗(yàn)證該框架的運(yùn)行效果,我們?cè)谒惴蚣艿幕A(chǔ)上設(shè)計(jì)了評(píng)價(jià)指標(biāo)算法模塊,可以從推薦準(zhǔn)確度,推薦結(jié)果的流行性和多樣性,推薦結(jié)果的信息量,以及去除的冗余信息量等角度對(duì)該算法框架進(jìn)行評(píng)價(jià)。
圖1考慮負(fù)面評(píng)價(jià)的個(gè)性化推薦算法框架
3數(shù)值實(shí)驗(yàn)
我們采用MovieLens標(biāo)準(zhǔn)數(shù)據(jù)庫中數(shù)量級(jí)為105的數(shù)據(jù)集,基于物質(zhì)擴(kuò)散推薦算法,對(duì)該算法框架進(jìn)行了數(shù)值實(shí)驗(yàn)。該數(shù)據(jù)集包含了943個(gè)用戶對(duì)1682部電影的打分信息。根據(jù)打分規(guī)則的描述,我們假設(shè)用戶對(duì)電影的打分大于等于3表示用戶喜歡這部電影,打分小于3表示用戶不喜歡這部電影,據(jù)此將數(shù)據(jù)集分為兩部分:基于喜歡的82520條打分信息和基于不喜歡的17480條打分信息。為了考察算法框架的表現(xiàn),我們把基于喜歡的82520條打分信息按照9:1隨機(jī)劃分為訓(xùn)練集和測(cè)試集,進(jìn)行對(duì)照實(shí)驗(yàn)。當(dāng)推薦列表長(zhǎng)度L=10時(shí)實(shí)驗(yàn)結(jié)果如表1所示。
1)準(zhǔn)確度。平均排序分是衡量推薦算法準(zhǔn)確度的一個(gè)重要指標(biāo),測(cè)試集中用戶喜歡的所有產(chǎn)品的排序分?jǐn)?shù)的平均值越小,就說明推薦算法趨向于把用戶喜歡的產(chǎn)品排在前面,推薦算法的準(zhǔn)確度越高。
2)流行性。一個(gè)產(chǎn)品的度就是這個(gè)產(chǎn)品被收藏的次數(shù),產(chǎn)品的度越大說明越流行。一般而言,推薦列表的產(chǎn)品平均度越小的系統(tǒng),意味著系統(tǒng)不會(huì)總向用戶推薦熱門產(chǎn)品,用戶滿意度相對(duì)更好。
3)多樣性。平均海明距離度量了不同用戶推薦列表的差異化程度,最大值為1,即所有用戶的推薦列表完全不同,最小值為0,
表1實(shí)驗(yàn)結(jié)果對(duì)比
即所有用戶的推薦列表都完全一致。平均海明距離越大說明系統(tǒng)趨向于向不同的用戶提供差異化更大的推薦列表,推薦列表的多樣性更好。
4)信息量。平均信息量越大,說明每一個(gè)推薦結(jié)果對(duì)用戶的效用越大,意味著推薦結(jié)果傳遞的新信息更多,帶給用戶的意外感更強(qiáng)。
5)冗余度。由于利用負(fù)面評(píng)價(jià)的算法,可以用用戶不喜歡的產(chǎn)品列表精煉推薦結(jié)果,因此推薦列表總長(zhǎng)度更小,推薦列表的信息冗余明顯減少。
綜上,利用負(fù)面評(píng)價(jià)的算法在以上五個(gè)評(píng)價(jià)指標(biāo)的表現(xiàn)均優(yōu)于經(jīng)典的物質(zhì)擴(kuò)散推薦算法。
4總結(jié)
在推薦系統(tǒng)的實(shí)際應(yīng)用中,用戶的負(fù)面評(píng)價(jià)具有稀缺性,但用戶的負(fù)面評(píng)價(jià)信息卻能夠比大量存在的正面評(píng)價(jià)信息更準(zhǔn)確地反映出用戶的興趣特征,具有重要的研究?jī)r(jià)值。本文重新考慮了用戶的負(fù)面評(píng)價(jià)對(duì)改進(jìn)推薦系統(tǒng)的作用,構(gòu)建了考慮用戶負(fù)面評(píng)價(jià)的個(gè)性化推薦算法框架?;谖镔|(zhì)擴(kuò)散推薦算法和MovieLens標(biāo)準(zhǔn)數(shù)據(jù)集的數(shù)值實(shí)驗(yàn)證明,利用負(fù)面評(píng)價(jià)的推薦算法框架能在一定程度上減弱龐大數(shù)據(jù)集數(shù)據(jù)稀疏性的影響,通過去除冗余信息還能提高系統(tǒng)的推薦質(zhì)量,可作為目前推薦系統(tǒng)擴(kuò)展性難題的解決方法之一。
下一步的工作將關(guān)注對(duì)負(fù)面評(píng)價(jià)信息的影響進(jìn)行控制。推薦系統(tǒng)的最終目的是向用戶推薦他們喜歡的產(chǎn)品,而并非不喜歡的產(chǎn)品,并且負(fù)面評(píng)價(jià)中也存在著不準(zhǔn)確的信息,因此如何平衡正面評(píng)價(jià)和負(fù)面評(píng)價(jià)將是未來的工作重點(diǎn)。
參考文獻(xiàn):
關(guān)鍵詞:服裝搭配;個(gè)性推薦;專家系統(tǒng)
目前,時(shí)尚導(dǎo)購類應(yīng)用越來越多,面向用戶所展開的功能良莠不齊,很多的應(yīng)用充斥著大量信息,增加了用戶對(duì)于使用產(chǎn)品時(shí)的工作負(fù)荷量。本文基于專家系統(tǒng),對(duì)于個(gè)性化推薦穿搭應(yīng)用是要改善用戶使用體驗(yàn),增進(jìn)理解用戶的需求,降低個(gè)人與服裝之間的溝通張力,平衡用戶自知與服裝客觀感知間的和諧。市場(chǎng)上現(xiàn)有的導(dǎo)購?fù)扑]類應(yīng)用,大部分以服裝搭配推薦圖例的展示形式陳列給用戶,卻從未發(fā)自內(nèi)心推敲用戶到底想要什么。用戶開始會(huì)被不同的展示圖片所吸引,隨之進(jìn)入“流”的購物模式。
“流”(Flow),這個(gè)概念最早在Mihaly Csikszentmihalyi的著作中Flow:The Psychology of Optimal Experience中被提到。在Peopleware:Productive Projects and Teams一書中,作者Tom DeMarco和Timothy Lister將流描述為“一種深層的、近乎完全的融入狀態(tài)”。流通常包括一種溫和的沉醉感并能讓你對(duì)時(shí)間的流逝毫無察覺。[1]流也可稱為沉浸式模式,進(jìn)入沉浸式購物模式的用戶,心境就會(huì)發(fā)生轉(zhuǎn)變,對(duì)于網(wǎng)站推薦的衣服本身要求就將變得更加嚴(yán)苛。用戶目標(biāo)與動(dòng)機(jī)明確的設(shè)計(jì),是產(chǎn)品最該被列入首要的主題。
用戶在購買時(shí),從購物心理學(xué)的角度來講分為:無意識(shí)購物、購物環(huán)境潛移默化、消費(fèi)者固有的慣性思維中心等。簡(jiǎn)單來說,用戶在購物的時(shí)候大多處于一種盲目的狀態(tài),如以下網(wǎng)購流程簡(jiǎn)述:正常的網(wǎng)上購物行為應(yīng)該粗略分為以下12步:想要購買衣服、不同應(yīng)用中探尋、有喜歡的、看價(jià)格、價(jià)格合適、鏈接、看圖片服飾細(xì)節(jié)、看店家信譽(yù)、看已購買用戶評(píng)價(jià)、(思考是否合適自己、聯(lián)想自己的已有服飾的搭配)、是否是7天無理由退還貨物店、加入購物車、(再次思考猶豫)、購買。
在網(wǎng)上購物不同于現(xiàn)實(shí)購物,所看即所得,只要上身好看就可以直接購買。網(wǎng)購時(shí),購買的12步中,我們其實(shí)從第3步就已經(jīng)開始有了購買的欲望,但是到最終的購買我們還要?dú)v經(jīng)很多的評(píng)斷時(shí)間。問題在于我們對(duì)于物品的不信任,對(duì)于自己的不了解,更加重要的是對(duì)于自己的衣櫥沒有一個(gè)整體概覽。很多18~25歲的“小白用戶”人群想要尋求變化,找到自己的特點(diǎn)穿出個(gè)性,盲目地推薦她們下載時(shí)尚導(dǎo)購類的應(yīng)用,只會(huì)叫她們更加的舉步維艱。
解鈴還須系鈴人,問題的根本要從用戶自身尋找,要使用戶自己了解自己。服裝搭配不僅僅是肉體和布料間的疊加,而是有關(guān)色彩、材質(zhì)、款型、身高體重、臉型等因素組成,個(gè)性化推薦也是基于此。個(gè)性化推薦的專家系統(tǒng),首先是要在大量的數(shù)據(jù)基礎(chǔ)之上,運(yùn)用人工智能的技術(shù)完成。
專家系統(tǒng)(Expert System,ES)亦稱為專家咨詢系統(tǒng),它是一種具有大量專門知識(shí)與經(jīng)驗(yàn)的智能計(jì)算機(jī)系統(tǒng)。它把專門領(lǐng)域中人類專家的知識(shí)和思考解決問題的方法、經(jīng)驗(yàn)和訣竅組織整理且存儲(chǔ)在計(jì)算機(jī)中,不但能模擬領(lǐng)域?qū)<业乃季S過程,而且能讓計(jì)算機(jī)如同人類專家那樣智能地解決實(shí)際問題。“專家系統(tǒng)”指擁有某個(gè)或某些專門領(lǐng)域相當(dāng)數(shù)量的專家級(jí)知識(shí),并且能夠在運(yùn)行過程中不斷地增長(zhǎng)新知識(shí)和修改原有知識(shí),從總體上達(dá)到專家水平。由于專家系統(tǒng)是基于知識(shí)的系統(tǒng),那么,建造專家系統(tǒng)就涉及知識(shí)獲?。◤娜祟悓<夷抢锘驈膶?shí)際問題那里搜集、整理、歸納專家級(jí)知識(shí)),知識(shí)的組織與管理,知識(shí)庫建立與維護(hù),知識(shí)的利用等。本文中所描述的基于專家系統(tǒng)的個(gè)性化穿搭應(yīng)用推薦猜想,也是從搜集專家級(jí)的知識(shí)開始,以下會(huì)從視覺上最先感知的顏色開始,推導(dǎo)出我們的個(gè)性化穿搭推薦的專家系統(tǒng)。[2]
服飾搭配中最為吸引人眼球的是整體的顏色。首先,要確立用戶膚色的大致劃分,以便找到適合自己的服裝風(fēng)格顏色。例如,皮膚比較偏向棕色的女生,可能由于更加崇尚健康常曬太陽,比較適合活躍的熒光色,色彩飽和度高的色彩;皮膚比較白皙的女生,比較適合暖色。顏色確定后,我們通過顏色的劃分和歸類,可以導(dǎo)向服飾搭配中的風(fēng)格分類。根據(jù)各大電商的風(fēng)格分類總結(jié),可以將服飾風(fēng)格劃分為4種大類:女性化、中性化、個(gè)性化、大眾化。根據(jù)色彩的關(guān)聯(lián),能夠很快地定位用戶的方向,每次向用戶推薦2種風(fēng)格,其中可變更風(fēng)格1種(女性化、中性化、個(gè)性化任選其一)。更換一種大風(fēng)格則相應(yīng)的推薦另外兩種可變更風(fēng)格之一;替換一種大風(fēng)格下的小趨向,可從新獲得2種小趨向風(fēng)格。
不做硬性的推薦,而是感情化的給予建議,如同你的購物閨蜜一般。這樣的推薦來源于用戶自身真實(shí)的個(gè)體特征資料,通過猜風(fēng)格的形式和用戶產(chǎn)生第一次的互動(dòng),讓用戶不會(huì)有被迫的感覺。這樣的個(gè)性化推薦,大大減少了用戶尋找想要服飾的時(shí)間,并且在每次用戶操作過后,系統(tǒng)將會(huì)更加了解用戶心里的欲求購買物品,可以更加準(zhǔn)確的推薦給用戶。每種大風(fēng)格下面的服飾搭配,所用的單品總是共10種,包括包、配飾等配件,10種搭配衍生出7種整體符合大風(fēng)格的造型。這就是我們想要強(qiáng)調(diào)的收斂型。不是夸張地叫你總是購買新衣服,而是有節(jié)制的從需求、適合、喜歡,三種不同層級(jí)出發(fā)收斂,以幫助用戶不會(huì)穿錯(cuò)的基礎(chǔ)上提高20%的心意,打造潮級(jí)平凡的搭配效果。
每款推薦的搭配都是在一定價(jià)格范圍之內(nèi)。根據(jù)18~25歲用戶的經(jīng)濟(jì)水平,每套服裝搭配都應(yīng)該有其應(yīng)用的價(jià)格傾向,適合“小白用戶”的更加細(xì)分的人群。在校園中,大部分的經(jīng)濟(jì)來源都是父母的支持,我們應(yīng)該樹立良好的價(jià)值觀,不應(yīng)過度消費(fèi)。
每款推薦的搭配單品可以通過拍照的方式進(jìn)行替換,合理的利用現(xiàn)有服飾,搭配出相同的效果。本質(zhì)是現(xiàn)有衣服的重組沒有建立起來。一遍遍的試穿現(xiàn)有的服裝,在體力上用戶使用度不夠良好。所以,只要用戶輸入了現(xiàn)有的服裝,系統(tǒng)可以自動(dòng)為其匹配;或是用戶可以利用其碎片時(shí)間,完成搭配的小游戲。這種互動(dòng)可以增加用戶的搭配能力,在體驗(yàn)中尋求成長(zhǎng)。用戶的搭配知識(shí)來源于,系統(tǒng)的推薦和達(dá)人用戶的服飾街拍樣例。每一次用戶自我的搭配還可以分享給其他用戶,通過評(píng)分的機(jī)制,增加整個(gè)使用過程中的游戲性,讓搭配成為一種誰人都可以做好的事情。達(dá)人的服飾展示不僅可以作為服飾搭配的知識(shí)來源,還可以作為“小白用戶”的匹配樣板。根據(jù)“小白用戶”最開始的個(gè)體體征數(shù)據(jù),可以找到資料相當(dāng)?shù)倪_(dá)人,作為參考樣板。
通過這樣的專家系統(tǒng)化的個(gè)性化推薦設(shè)計(jì),不僅可以減少用戶在尋求購買時(shí)的時(shí)間成本,最重要的可以幫助“小白用戶”完成自我探尋的第一步,開啟了他們的服飾搭配敲門磚。購物只需三步:選擇――喜歡――購買。個(gè)性化推薦的關(guān)鍵就是在幫助用戶,在一定的預(yù)算范圍之內(nèi),完成最大化的個(gè)性服飾搭配,并解決最快的購買流程。基于專家系統(tǒng)的個(gè)性化推薦設(shè)計(jì),想要做的就是平衡“個(gè)人偏好”與“實(shí)際獲得”之間的距離,讓用戶最終買到的東西盡可能的貼近用戶心里欲求的。
參考文獻(xiàn):
[1] Alan Cooper(美),等.About Face3交互設(shè)計(jì)精髓[M].劉松濤,等,譯.電子工業(yè)出版社.
關(guān)鍵詞:個(gè)性化服務(wù) Web使用挖掘 頻繁訪問模式 在線推薦
中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2012)07-0141-02
1、引言
互聯(lián)網(wǎng)已經(jīng)成為日常生活不可或缺的重要組成部分,然而隨著近年來爆炸式地增長(zhǎng),信息過載與信息迷失正逐漸制約著人們利用互聯(lián)網(wǎng)來高效地獲取有價(jià)值的信息。面對(duì)浩如煙海的網(wǎng)絡(luò)空間,如何快速定位到個(gè)人真正感興趣的資源是一個(gè)迫切需要解決的問題,個(gè)性化服務(wù)應(yīng)運(yùn)而生。本文采用當(dāng)前網(wǎng)絡(luò)開發(fā)的較為成熟的主流技術(shù),設(shè)計(jì)了一個(gè)基于Web使用數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)。
2、個(gè)性化服務(wù)的概述
2.1 個(gè)性化服務(wù)的主要方式
個(gè)性化服務(wù)是以用戶為中心的,解決和滿足用戶的信息服務(wù)的需要。目前,個(gè)性化服務(wù)方式主要有以下幾種:
(1)信息分類定制服務(wù):主要面對(duì)大眾提供可以定制的 web 頁面,具有為用戶創(chuàng)立和管理個(gè)人信息的功能,用戶可根據(jù)自己的需要定制個(gè)性化的界面設(shè)置、信息資源和服務(wù)形式,而系統(tǒng)會(huì)根據(jù)用戶的定制要求完成個(gè)性化的頁面設(shè)計(jì),自動(dòng)呈現(xiàn)用戶需要的信息類別。
(2)個(gè)性化信息檢索服務(wù):根據(jù)用戶的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。這就要求個(gè)性化信息系統(tǒng)增加優(yōu)化查詢功能,通過內(nèi)容過濾等技術(shù),在檢索的同時(shí)考慮用戶的個(gè)性化差異,從而提高檢索質(zhì)量。
(3)個(gè)性化推薦服務(wù):主要是根據(jù)用戶的信息例如用戶的喜好,為滿足用戶的信息需求向用戶推送用戶喜好相關(guān)的信息,在這個(gè)過程中就是根據(jù)用戶的需求和目前的信息數(shù)據(jù)庫進(jìn)行不斷的配對(duì),將相關(guān)的信息推送給用戶。
2.2 個(gè)性化服務(wù)的相關(guān)技術(shù)
(1)數(shù)據(jù)挖掘是從大量的、不完整的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是可信的、潛在的和有價(jià)值的信息和知識(shí)的過程。
(2)信息推送技術(shù)是通過一定的標(biāo)準(zhǔn)和協(xié)議,在網(wǎng)絡(luò)上按照用戶的需求,定期主動(dòng)傳送用戶需要的信息的一項(xiàng)計(jì)算機(jī)技術(shù)。推送技術(shù)的核心思想是建立一個(gè)信息機(jī)制,把由客戶端擔(dān)負(fù)的責(zé)任轉(zhuǎn)給服務(wù)器,由服務(wù)器將用戶定制好的感興趣的網(wǎng)上信息以推送或網(wǎng)播的方式直接傳送到用戶面前。
(3)信息過濾是指從動(dòng)態(tài)的信息流中獲取符合用戶靜態(tài)需求的信息,或者根據(jù)需要禁止?jié)M足特定條件的信息流入。
(4)Web挖掘技術(shù)它可以從網(wǎng)絡(luò)瀏覽行為中抽取用戶感興趣的模式。通過對(duì)用戶瀏覽網(wǎng)站的日志數(shù)據(jù)進(jìn)行收集、分析和處理,建立起用戶的行為和興趣模型,這些模型可以幫助理解用戶行為,改進(jìn)站點(diǎn)結(jié)構(gòu)以及為用戶提供良好的個(gè)性化信息服務(wù)。
3、系統(tǒng)分析和設(shè)計(jì)
3.1 個(gè)性化服務(wù)的內(nèi)涵及特征
個(gè)性化信息服務(wù)是“信息爆炸”的背景下針對(duì)“信息過載”和“信息迷向”問題的重要解決方案之一。它基于用戶的學(xué)科、興趣和使用習(xí)慣等特征,利用網(wǎng)絡(luò)等信息技術(shù),通過用戶個(gè)人信息定制、系統(tǒng)推薦和信息推送等功能,針對(duì)不同的用戶需求,采用不同的服務(wù)方式,提供不同的信息內(nèi)容,實(shí)現(xiàn)多層面的個(gè)性化。從理論層面講,個(gè)性化信息服務(wù)是一種服務(wù)理念,從技術(shù)層面講,個(gè)性化信息服務(wù)是一個(gè)實(shí)現(xiàn)個(gè)性化服務(wù)的平臺(tái)。具休地說,個(gè)性化信息服務(wù)具有如下特征:
3.1.1 以用戶需求為中心
以用戶需求為中心包含兩層含義:一是以用戶的需求為導(dǎo)向設(shè)計(jì)與安排服務(wù)功能與設(shè)施;二是創(chuàng)建個(gè)性化的信息環(huán)境,按照用戶或用戶群的特點(diǎn)組織信息資源,提供多樣化的信息服務(wù)。
3.1.2 信息資源多元化
通過對(duì)各種館藏資源的有效組織、管理與配置,建立多元化的信息資源組織體系,為讀者利用館藏資源提供最大的便利。支持個(gè)性化服務(wù)系統(tǒng)的數(shù)據(jù)庫包含指向豐富信息內(nèi)容的鏈接,力爭(zhēng)達(dá)到讓用戶即需即得的效果。
3.1.3 具有智能化分析和挖掘用戶需求的功能
智能化分析是指主動(dòng)采集并跟蹤用戶瀏覽的信息,一方面從用戶日常檢索瀏覽中主動(dòng)學(xué)習(xí)用戶的興趣,推理并預(yù)測(cè)用戶需求,及時(shí)處理推薦信息;另一方面可根據(jù)不同用戶的相同點(diǎn)或相似性進(jìn)行信息推薦,使需求相同的用戶之間共享查詢結(jié)果。
3.1.4 推薦信息的準(zhǔn)確性、高效性
由個(gè)性化服務(wù)推薦給用戶的信息必須是準(zhǔn)確的、高效的、適合用戶的。能通過使用信息過濾等技術(shù),屏蔽無關(guān)、無用的冗余信息,推薦精確、真實(shí)可用的信息;能自動(dòng)地、智能地將大量的數(shù)據(jù)信息轉(zhuǎn)換為用戶所要求的或用戶可接受的系統(tǒng)知識(shí)形式,從而節(jié)約用戶時(shí)間,提高服務(wù)效率。
3.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
在Web使用挖掘的一般過程中,主要將其劃分為三個(gè)階段:數(shù)據(jù)預(yù)處理;模式發(fā)現(xiàn);模式分析與應(yīng)用,如圖1所示。
由于服務(wù)器日志并非專門用于數(shù)據(jù)挖掘,因此在進(jìn)行Web使用挖掘之前必須對(duì)其進(jìn)行處理過濾,解決數(shù)據(jù)的不一致性、不完整性等問題,使之符合Web挖掘的需要,這就是數(shù)據(jù)預(yù)處理階段,預(yù)處理的結(jié)果會(huì)直接影響到挖掘算法產(chǎn)生的規(guī)則和模式;模式發(fā)現(xiàn)階段即挖掘算法實(shí)施階段,是對(duì)預(yù)處理后的數(shù)據(jù)使用數(shù)據(jù)挖掘中的算法如關(guān)聯(lián)規(guī)則,聚類分析等來產(chǎn)生規(guī)則和模式;模式分析與應(yīng)用階段是整個(gè)Web使用挖掘過程的最后一步,此階段的主要目的是通過一定的技術(shù)和方法過濾掉模式發(fā)現(xiàn)階段產(chǎn)生的“不感興趣”的規(guī)則和模式。
3.3 系統(tǒng)功能模塊設(shè)計(jì)
整個(gè)系統(tǒng)框架包括離線和在線推薦引擎兩部分。離線部分又包括數(shù)據(jù)準(zhǔn)備、用戶興趣建模等模塊;在線部分則由建立推薦池、產(chǎn)生初步推薦集、融合離線部分產(chǎn)生結(jié)果推薦集模塊組成。離線部分承擔(dān)數(shù)據(jù)準(zhǔn)備和知識(shí)挖掘等功能,該部分面向的數(shù)據(jù)源通常為系統(tǒng)內(nèi)存儲(chǔ)的各種海量歷史數(shù)據(jù),挖掘處理需要較長(zhǎng)時(shí)間,因此被設(shè)計(jì)為離線部分,以避免對(duì)實(shí)時(shí)性要求的影響;在線部分則承擔(dān)向當(dāng)前用戶提供實(shí)時(shí)個(gè)性化服務(wù)推薦等功能,該部分是建立在離線部分的基礎(chǔ)上,直接參照其所生成的基于用戶興趣的頁面推薦集,針對(duì)不同用戶快速生成各種推薦服務(wù)?;赪eb挖掘的個(gè)性化推薦系統(tǒng)的功能框架圖如圖2所示。
圖2 基于Web挖掘的個(gè)性化推薦系統(tǒng)框架圖
各子模塊功能如下:
(1)數(shù)據(jù)準(zhǔn)備模塊。該模塊是對(duì)原始的用戶訪問日志進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗和事務(wù)標(biāo)識(shí),生成對(duì)挖掘階段有用的用戶會(huì)話文件、事務(wù)數(shù)據(jù)庫及將站點(diǎn)的相關(guān)文件生成站點(diǎn)數(shù)據(jù)文件。
(2)建立用戶興趣模型庫模塊。該模塊使用Web挖掘技術(shù)對(duì)用戶訪問頁面內(nèi)容和用戶訪問行為進(jìn)行分析,抽取用戶興趣,結(jié)合信息資源的相關(guān)性,形成用戶興趣的矢量描述,并能隨著用戶的訪問的推進(jìn)和用戶興趣的改變,及時(shí)更新用戶模型。
(3)建立推薦池模塊。該模塊就是通過獲取用戶評(píng)價(jià),得到帶有用戶訪問時(shí)長(zhǎng)的用戶訪問頁面集合。
(4)產(chǎn)生初步推薦集模塊。該模塊通過對(duì)當(dāng)前用戶訪問頁面的相似度計(jì)算,繼而進(jìn)行用戶聚類分析,再對(duì)聚類用戶進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn),產(chǎn)生初步推薦頁面集。
(5)融合離線部分產(chǎn)生個(gè)性化推薦集模塊。該模塊將產(chǎn)生的初步推薦頁面集與離線部分的用戶興趣模型相匹配。通過比較產(chǎn)生出最適合用戶的個(gè)性化推薦頁面集,并把這些頁面的地址附加到當(dāng)前訪問頁面的底部,以進(jìn)行推薦(圖3)。
4、結(jié)語
綜上所述,本文在對(duì)web服務(wù)技術(shù)及數(shù)據(jù)挖掘語言實(shí)施了分析和研究后,提出一個(gè)基于Web使用挖掘的個(gè)性化系統(tǒng)架構(gòu),該系統(tǒng)通過挖掘用戶Web訪問信息,生成了獨(dú)立的用戶興趣模型庫,可以更全面地反映用戶的興趣偏好,從而為用戶提供更詳細(xì)的信息推薦。
參考文獻(xiàn)
[1]韓家煒,孟小峰.Web挖掘研究.計(jì)算機(jī)研究與發(fā)展,38(4):405-414,2001.
[2]崔林,宋瀚濤,龔永罡,陸玉昌.基于Web使用挖掘的個(gè)性化服務(wù)技術(shù)研究.計(jì)算機(jī)系統(tǒng)應(yīng)用,第三期:23-26,2005.
[3]王彤,何丕謙.Web日志挖掘及AprioriAll算法的改進(jìn).天津理工大學(xué)學(xué)報(bào),23(1):13-17,2007.
[關(guān)鍵詞]e-learning;協(xié)同過濾技術(shù);學(xué)習(xí)資源;個(gè)性化推薦
[中圖分類號(hào)]Tp391 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1672-0008(2011)03-0066-06
一、引言
e-learning已成為企業(yè)開展員工培訓(xùn)的有效方式之一。目前,許多企業(yè)在企業(yè)內(nèi)部網(wǎng)或互聯(lián)網(wǎng)搭建了e-learning支持系統(tǒng)。隨著e-learning應(yīng)用實(shí)踐的深入,e-learning支持系統(tǒng)中學(xué)習(xí)資源數(shù)量日漸增多,導(dǎo)致員工需要花費(fèi)大量的時(shí)間和精力在平臺(tái)中檢索和查閱符合自己需要的學(xué)習(xí)資源,甚至找不到符合自己興趣和工作崗位需求的學(xué)習(xí)資源。
通過分析多個(gè)企業(yè)e-learning門戶系統(tǒng),我們發(fā)現(xiàn),當(dāng)前e―learning系統(tǒng)推送學(xué)習(xí)資源的方式有三種:
(1)Top-N推薦方式,即采取將點(diǎn)擊率最高的前N個(gè)熱門資源推薦給用戶。點(diǎn)擊率的高低在一定程度上反映學(xué)習(xí)資源的受歡迎程度,但無法實(shí)現(xiàn)個(gè)性化推薦。在包含多種職業(yè)領(lǐng)域的學(xué)習(xí)資源管理系統(tǒng)中,學(xué)習(xí)者對(duì)資源類別、媒體類型需求迥異,點(diǎn)擊率較高的學(xué)習(xí)資源,只能反映部分學(xué)習(xí)者的需求和偏好。
(2)關(guān)鍵字查詢方式。這種方式具有便捷和快速的優(yōu)點(diǎn),但是這種被動(dòng)式資源查詢方式只追求目標(biāo)資源與所提供檢索關(guān)鍵字的契合程度,無法體現(xiàn)目標(biāo)資源質(zhì)量的高低,無法實(shí)現(xiàn)資源主動(dòng)式個(gè)性化推薦。
(3)最新資源推薦。這種方式可以將資源庫的更新情況在第一時(shí)間反饋給用戶,增加最新學(xué)習(xí)資源被訪問機(jī)會(huì),但是資源的質(zhì)量無法保證,個(gè)性化的推薦無法實(shí)現(xiàn)。鑒于以上資源推送方式存在的不足,如何解決e-learning系統(tǒng)中學(xué)習(xí)資源的主動(dòng)式個(gè)性化推薦,成為當(dāng)前教育技術(shù)學(xué)研究人員面臨的研究主題之一。
個(gè)性化推薦技術(shù)能克服傳統(tǒng)資源檢索方式的缺陷,其中,協(xié)同過濾推薦技術(shù)是一種應(yīng)用最為廣泛的個(gè)性化推薦技術(shù)。目前,協(xié)同過濾技術(shù)已成功應(yīng)用于電子商務(wù)領(lǐng)域。本研究嘗試將協(xié)同過濾推薦技術(shù)引入e-learning系統(tǒng)的學(xué)習(xí)資源個(gè)性化推薦中,以推進(jìn)這一研究主題的深入。
二、文獻(xiàn)綜述
(一)個(gè)性化推薦技術(shù)
個(gè)性化推薦是推薦系統(tǒng)根據(jù)用戶的個(gè)性化特征,如興趣、愛好、職業(yè)或?qū)I(yè)特點(diǎn)等,主動(dòng)地向用戶推送適合其學(xué)習(xí)需要或可能感興趣的信息資源的一種推薦技術(shù)。此外,個(gè)性化推薦技術(shù)可以共享用戶間的經(jīng)驗(yàn),為目標(biāo)用戶推薦其相似用戶群偏好的信息資源。其工作原理是:首先根據(jù)用戶信息建立用戶興趣模型;然后,在信息資源庫中尋找與其匹配的資源信息并產(chǎn)生推薦,以滿足不同用戶的個(gè)性化需求。按實(shí)現(xiàn)算法和實(shí)現(xiàn)方式的不同,個(gè)性化推薦技術(shù)可分為基于關(guān)聯(lián)規(guī)則的推薦、內(nèi)容過濾推薦、協(xié)同過濾推薦等三種,也可以綜合以上三種推薦方式產(chǎn)生新的混合型推薦算法。
1.基于關(guān)聯(lián)規(guī)則的推薦
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)的工作原理:首先由管理員定制一系列的規(guī)則條目,然后利用制定的規(guī)則度量項(xiàng)目間的相互關(guān)聯(lián)性,將關(guān)聯(lián)密切的項(xiàng)目推送給用戶。在進(jìn)行推薦時(shí),系統(tǒng)分析用戶當(dāng)前的興趣愛好或訪問記錄,然后按照事先制定的規(guī)則向用戶推薦其可能感興趣的資源項(xiàng)目。例如,對(duì)于一個(gè)正在學(xué)習(xí)網(wǎng)頁設(shè)計(jì)技術(shù)的學(xué)習(xí)者來說,當(dāng)他點(diǎn)播以ASP網(wǎng)頁設(shè)計(jì)為主題的學(xué)習(xí)資源時(shí),系統(tǒng)向他推薦了與HTML技術(shù)相關(guān)的學(xué)習(xí)資源。這是因?yàn)镠TML技術(shù)是網(wǎng)頁制作的基礎(chǔ)知識(shí),學(xué)習(xí)者有可能并未很好掌握,或者仍有興趣深入學(xué)習(xí)。這樣就形成了一個(gè)基于關(guān)聯(lián)規(guī)則的推薦。
基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦存在兩個(gè)缺點(diǎn):
(1)規(guī)則無法由系統(tǒng)自動(dòng)生成,必須由管理員手動(dòng)定制,這無法保證推薦的精確度,而且規(guī)則的制定和維護(hù)的工作量大;(2)規(guī)則在制定之后不能動(dòng)態(tài)變化。制定后的規(guī)則只能為用戶推薦與其原始興趣相符的資源條目,無法為其推薦其它高質(zhì)量的資源,更不能發(fā)現(xiàn)用戶潛在的興趣點(diǎn)。
2.內(nèi)容過濾推薦
內(nèi)容過濾推薦技術(shù)是信息過濾中最基本的一種方法,是較早被提出的一種推薦技術(shù)。內(nèi)容過濾的工作原理:采用概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)過濾,首先用一個(gè)用戶興趣向量表示用戶的信息需求;然后對(duì)文本集內(nèi)的文本進(jìn)行分詞、標(biāo)引、詞頻統(tǒng)計(jì)加權(quán)等,生成一個(gè)文本向量;最后計(jì)算用戶向量和文本向量之間的相似度,把相似度高的資源條目發(fā)送給該用戶模型的注冊(cè)用戶。
內(nèi)容過濾推薦技術(shù)適用于推薦文本類型的學(xué)習(xí)資源,不適用于推薦多媒體類型的學(xué)習(xí)資源。內(nèi)容過濾推薦技術(shù)需要在分析文本資源結(jié)構(gòu)的基礎(chǔ)上,抽象出若干個(gè)代表文本特征的關(guān)鍵詞,描述資源內(nèi)容特征。對(duì)于其它形式的學(xué)習(xí)資源(動(dòng)畫、音頻、視頻等),該技術(shù)不能用幾個(gè)關(guān)鍵詞概括它們而無法做出較高精度的推薦。另外,內(nèi)容過濾推薦只能根據(jù)資源向量同用戶向量的匹配程度向用戶推薦相關(guān)資源,無法篩選出優(yōu)質(zhì)的資源。
3.協(xié)同過濾推薦
與前兩種推薦技術(shù)不同,協(xié)同過濾推薦需要在分析資源內(nèi)容、計(jì)算資源和用戶的匹配度的基礎(chǔ)上產(chǎn)生用戶推薦,產(chǎn)生推薦的依據(jù)是用戶對(duì)資源的評(píng)分。協(xié)同過濾推薦的工作原理:首先分析用戶特性,如興趣、職業(yè)等信息;然后利用相似性算法計(jì)算用戶間的相似性,找出與目標(biāo)用戶相似性最高的k個(gè)用戶;最后參照鄰居對(duì)資源的評(píng)分預(yù)測(cè)目標(biāo)用戶對(duì)資源的評(píng)分,將預(yù)測(cè)評(píng)分最高的n個(gè)資源推薦給目標(biāo)用戶。
協(xié)同過濾推薦技術(shù)具有以下三個(gè)特點(diǎn):(1)較好的普適性。與其它個(gè)性化推薦技術(shù)不同,協(xié)同過濾推薦算法所依賴的是用戶對(duì)資源的評(píng)分,和資源的內(nèi)容或者形式無關(guān)。這一特點(diǎn)使得協(xié)同過濾推薦不僅適用于容易抽象出特征向量的文本類資源,而且對(duì)動(dòng)畫、視頻、音頻等難以準(zhǔn)確概括出特征向量的多媒體素材具有同樣的推薦效果。(2)良好的推薦精度。用戶對(duì)資源的評(píng)分反映了用戶對(duì)資源的滿意程度,在絕大多數(shù)情況下代表了資源的品質(zhì),使建立在評(píng)分?jǐn)?shù)據(jù)基礎(chǔ)上的協(xié)同過濾推薦具有出色的推薦準(zhǔn)度,其推薦結(jié)果在質(zhì)量上能夠得到保證。(3)共享好友經(jīng)驗(yàn)。由于協(xié)同過濾推薦通過目標(biāo)用戶(項(xiàng)目)的鄰居預(yù)測(cè)評(píng)分,使得相似用戶間彼此共享資源使用經(jīng)驗(yàn)。通過分享鄰居的經(jīng)驗(yàn)發(fā)現(xiàn)目標(biāo)用戶的潛在興趣點(diǎn),能拓展其學(xué)習(xí)思路和提供學(xué)習(xí)支架,使得推薦更加高效。
三、協(xié)同過濾推薦技術(shù)
(一)概述
協(xié)同過濾概念的提出要追溯到上個(gè)世紀(jì),在1992年由Goldberg、Oki、Nichols和Terry首次提出,首先應(yīng)用在Tapestry系統(tǒng)中。作為協(xié)同過濾技術(shù)的第一代產(chǎn)品,Tapestry系統(tǒng)存在諸多缺陷,沒有達(dá)到成熟的程度。發(fā)展至今,協(xié)同過濾技術(shù)在互聯(lián)網(wǎng)的眾多領(lǐng)域得到了廣泛地應(yīng)用,如電子商務(wù)領(lǐng)域的Amazon、Netflix、Taobao,國(guó)內(nèi)主流的視頻點(diǎn)播網(wǎng)站Youku、Tudou等。協(xié)同過濾推薦技術(shù)已成為流行的個(gè)性化推薦技術(shù)之一。
協(xié)同過濾算法分為兩大類:基于存儲(chǔ)(Memory-based)的協(xié)同過濾算法和基于模型(Model-based)的協(xié)同過濾算法。目前,大部分協(xié)同過濾算法的實(shí)際應(yīng)用都屬于基于存儲(chǔ)的協(xié)同過濾算法范疇。
基于存儲(chǔ)的協(xié)同過濾算法包括基于用戶(User-based)的協(xié)同過濾算法和基于項(xiàng)目(Item-based)的協(xié)同過濾算法。它以用戶――項(xiàng)目(信息資源)評(píng)分?jǐn)?shù)據(jù)為基礎(chǔ),通過使用不同的相似性度量方法,計(jì)算用戶或者項(xiàng)目之間的相似性值,形成鄰居用戶或者鄰居項(xiàng)目集合;然后,以鄰居集合中用戶對(duì)項(xiàng)目的評(píng)分為依據(jù),預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,形成推薦項(xiàng)目列表,以合適的視圖呈現(xiàn)給用戶。
基于模型的協(xié)同過濾算法首先建立一個(gè)用戶――項(xiàng)目評(píng)價(jià)模型,以此模型為依據(jù)提供對(duì)項(xiàng)的推薦。基于模型的協(xié)同過濾算法同基于存儲(chǔ)的協(xié)同過濾算法的區(qū)別在于,基于模型的方法不是基于一些啟發(fā)規(guī)則進(jìn)行預(yù)測(cè)計(jì)算,而是基于對(duì)已有數(shù)據(jù)應(yīng)用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)生成的模型進(jìn)行預(yù)測(cè)。目前,基于模型的協(xié)同過濾算法主要有聚類模型、Bayes模型、關(guān)聯(lián)規(guī)則模型、語義生成模型等幾種。
(二)協(xié)同過濾推薦技術(shù)的實(shí)現(xiàn)
協(xié)同過濾推薦基于以下假設(shè):如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則他們對(duì)其它項(xiàng)目的評(píng)分也比較相似;如果大部分用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則當(dāng)前用戶對(duì)這些項(xiàng)目的評(píng)分也比較相似。協(xié)同過濾推薦系統(tǒng)使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶的若干最近鄰,然后根據(jù)最近鄰對(duì)項(xiàng)目的評(píng)分預(yù)測(cè)目標(biāo)用戶對(duì)項(xiàng)目的評(píng)分,產(chǎn)生對(duì)應(yīng)的推薦列表。協(xié)同過濾推薦的實(shí)現(xiàn)流程包含三個(gè)關(guān)鍵步驟:獲取及表示用戶信息、形成鄰居和產(chǎn)生推薦。
1.荻取及表示用戶信息
用戶數(shù)據(jù)包括三類:用戶注冊(cè)信息、用戶學(xué)習(xí)數(shù)據(jù)和用戶行為記錄。推薦系統(tǒng)獲取用戶行為數(shù)據(jù)有顯式評(píng)分和隱式評(píng)分兩種方法。顯式評(píng)分是指用戶通過直接打分的形式給資源的評(píng)分過程。隱式評(píng)分是記錄用戶行為數(shù)據(jù),將其加權(quán)轉(zhuǎn)化為用戶對(duì)資源的評(píng)分。顯式評(píng)分和隱式評(píng)分各有其優(yōu)缺點(diǎn),前者比較直觀,能準(zhǔn)確反映用戶對(duì)資源喜好程度,但由于評(píng)分操作可能中斷用戶的學(xué)習(xí)行為,所以會(huì)給用戶帶來一些不便;后者通過分析用戶相關(guān)信息而間接得到評(píng)分,不需要增加用戶額外的操作,但其缺點(diǎn)是相關(guān)用戶數(shù)據(jù)在某些情況下不能準(zhǔn)確地反映用戶的喜好,使評(píng)分的準(zhǔn)確性下降。
協(xié)同過濾技術(shù)將獲取的數(shù)據(jù)以用戶一資源評(píng)分矩陣的形式表示,如表1所示。其中,第i行第j列的元素R代表第i個(gè)用戶對(duì)第i個(gè)資源的評(píng)分。
2.形成鄰居
尋找目標(biāo)用戶的鄰居是協(xié)同過濾技術(shù)的最核心步驟。所謂鄰居,即與目標(biāo)用戶i具有相同或者相似興趣的用戶群。計(jì)算目標(biāo)用戶i和其他用戶i之間相似性的過程:首先篩選得到用戶i和用戶j共同評(píng)分的所有資源集合Resli=Resln Res,,然后通過相似性度量方法計(jì)算兩個(gè)用戶之間的相似性。目前常用的相似性度量方法有:余弦相似性、相關(guān)相似性和修正的余弦相似性。
余弦相似性是最為傳統(tǒng)的相似性計(jì)算方法,而修正的余弦相似性算法的計(jì)算過程為:推薦系統(tǒng)中的不同用戶在學(xué)習(xí)經(jīng)歷、對(duì)資源的要求、價(jià)值標(biāo)準(zhǔn)等各方面都存在較大地差異,用戶對(duì)資源的評(píng)分在很大程度上建立在用戶的主觀判斷上,所以會(huì)體現(xiàn)出對(duì)資源的評(píng)價(jià)尺度上的差異性,為了適應(yīng)這種狀況,需要適當(dāng)?shù)匦拚嘞蚁嗨菩运惴āP拚挠嘞蚁嗨菩运惴ㄔ谟?jì)算用戶對(duì)資源評(píng)分時(shí)減去用戶對(duì)資源的平均評(píng)分,弱化由于用戶間評(píng)價(jià)尺度的差異性帶來的評(píng)分誤差,因此較傳統(tǒng)的余弦相似性算法得到更為準(zhǔn)確地相似性值。
3.產(chǎn)生推薦
產(chǎn)生推薦是協(xié)同過濾推薦算法的最后一個(gè)步驟。產(chǎn)生推薦的計(jì)算過程是通過鄰居集對(duì)資源的評(píng)分預(yù)測(cè)目標(biāo)用戶學(xué)習(xí)資源的評(píng)分:用戶i對(duì)項(xiàng)目s的打分R,通過其他用戶(即鄰居集x中的用戶)對(duì)s的打分計(jì)算得到,在預(yù)測(cè)了用戶i對(duì)資源集s的評(píng)分R之后,取R值最大的前若干項(xiàng)資源推薦給用戶i基于協(xié)同過濾的推薦算法流程如圖1所示。
(三)協(xié)同過濾推薦系統(tǒng)的案例分析
協(xié)同過濾推薦算法作為一種高效的資源推薦技術(shù),在電子商務(wù)及網(wǎng)上視頻點(diǎn)播領(lǐng)域已經(jīng)得到廣泛、成功的應(yīng)用。全球最大的圖書銷售網(wǎng)站Amazon(亞馬遜),國(guó)內(nèi)最大的電子商務(wù)網(wǎng)站Taobao(淘寶網(wǎng)),以及國(guó)內(nèi)知名的視頻網(wǎng)站Tudou(土豆網(wǎng))等。在本節(jié)中,我們將Amazon網(wǎng)站的協(xié)同推薦算法作為案例加以分析。
Amazon網(wǎng)站的協(xié)同過濾推薦算法與傳統(tǒng)的算法有一定差異,它采用的是所謂的item-to-item協(xié)同過濾算法,類似于傳統(tǒng)協(xié)同過濾推薦算法中基于項(xiàng)目(itern-based)的推薦算法,其算法流程如圖3所示。
與傳統(tǒng)的協(xié)同過濾算法相比,hem-to-item~法的優(yōu)點(diǎn)是:商品(項(xiàng))之間的相似度計(jì)算可以離線進(jìn)行,這提升了系統(tǒng)對(duì)用戶請(qǐng)求的響應(yīng)速度;同時(shí),由于不同用戶共同購買的商品數(shù)量很小,所以商品間的相似度計(jì)算更為快速。其不足之處在于:離線計(jì)算的形式不能實(shí)時(shí)地反映用戶對(duì)商品的評(píng)價(jià)情況,影響了相似度計(jì)算以及推薦的精度。
我們通過一個(gè)簡(jiǎn)單的實(shí)例進(jìn)一步說明該算法的計(jì)算機(jī)過程。表2中的數(shù)據(jù)是一個(gè)簡(jiǎn)化的圖書購買信息表,其中“1”表示購買,“O”表示未購買。
對(duì)于上表,以“趙大”為例,說明item―t0一item協(xié)同過濾算法的計(jì)算流程:
(1)根據(jù)用戶購買行為生成“資源――用戶”向量。將表中以書名劃分的每一個(gè)條目轉(zhuǎn)化為向量,各條目及對(duì)應(yīng)向量如下:《TCP/IP協(xié)議解析》:Vecl=;《算法導(dǎo)論》:Vee2=;《人工智能》:Vee3=;《Linux~作系統(tǒng)》:Vec4=;《概率統(tǒng)計(jì)》:Vec5=。
(2)兩兩計(jì)算資源條目間的相似度。此過程的計(jì)算操作可以離線進(jìn)行,采用的是前文介紹的修正的余弦相似性計(jì)算方法?!摆w大”購買了《TCP/IP協(xié)議解析》和《人工智能》兩書,他們與其它書目的相似度為:《TCP/IP協(xié)議解析》:Sirel:=0.82,Sire=0.82,Siml4=0.82,Siml,=0.41;《人工智能》:Sim2l=0.82,Sim23=0.5,Sim24=0,Sim25=0.5。
(3)產(chǎn)生推薦結(jié)果。通過對(duì)比得出,與《TCP/IP協(xié)議解析》有最大相似度的是《算法導(dǎo)論》和《人工智能》,與《人
工智能》最為相似的是《TCP/IP協(xié)議解析》、《算法導(dǎo)論》、《概率統(tǒng)計(jì)》,最后,推薦系統(tǒng)取兩者的交集,將《算法導(dǎo)論》推薦給“趙大”。
(四)協(xié)同過濾推薦算法存在的缺陷
從Amazon的案例分析我們看到,協(xié)同過濾推薦技術(shù)可以為用戶找到與其原有興趣點(diǎn)最為契合的資源。然而,該技術(shù)產(chǎn)生精確推薦的前提是要有足夠多的評(píng)分?jǐn)?shù)據(jù),即較高的用戶――資源評(píng)分率。然而,對(duì)于大型的應(yīng)用系統(tǒng)(電子商務(wù)網(wǎng)站、e-learning平臺(tái)等)來說,其數(shù)據(jù)庫中的資源項(xiàng)目的數(shù)量異常龐大。目前,在Amazon網(wǎng)站上銷售的書目已超過310萬之多,每個(gè)用戶訪問并評(píng)價(jià)的資源數(shù)目只占其中很小的一部分,這將導(dǎo)致用戶――資源評(píng)分矩陣極為稀疏,由此產(chǎn)生協(xié)同過濾算法的第一個(gè)缺陷:數(shù)據(jù)稀疏。這種情況使得系統(tǒng)難以成功的產(chǎn)生鄰居用戶集,用戶間的相似性計(jì)算非常耗時(shí),產(chǎn)生的推薦結(jié)果也難盡人意。
協(xié)同過濾推薦技術(shù)的第二個(gè)缺陷是“冷啟動(dòng)”問題。一方面,對(duì)于一個(gè)新注冊(cè)的用戶來說,由于系統(tǒng)中沒有該用戶的任何資源訪問記錄,所以系統(tǒng)無法為其找到鄰居用戶集,更無法對(duì)其進(jìn)行推薦;同樣的,對(duì)于一個(gè)新加入的資源,系統(tǒng)中也不存在對(duì)該資源的任何評(píng)分記錄,因而無法被協(xié)同過濾算法所推薦。這兩種“0評(píng)分”情況構(gòu)成了協(xié)同過濾算法的“冷啟動(dòng)”問題。
在下一部分,筆者將綜合相關(guān)學(xué)者提出的協(xié)同過濾優(yōu)化算法,形成一種組合的協(xié)同過濾推薦算法,提出個(gè)性化的學(xué)習(xí)資源推薦模型,以在一定程度上降低兩大問題給推薦帶來的負(fù)面影響。
四、基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦模型
(一)兩大缺陷的解決思路
首先,對(duì)于“數(shù)據(jù)稀疏”問題,目前流行的有兩種解決方法:一種是缺省值法,也就是將用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分統(tǒng)一設(shè)置設(shè)為一個(gè)固定的缺省值(通過情況下取用戶對(duì)項(xiàng)目評(píng)分的平均值,如5分制中的2.5分),這個(gè)方法雖然簡(jiǎn)單,但可以在一定程度上緩解數(shù)據(jù)稀疏問題;另一種方法是項(xiàng)目評(píng)分預(yù)測(cè)法,可通過計(jì)算資源條目之間的相似性,由用戶對(duì)相似項(xiàng)目的評(píng)分來預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,使得用戶之間共同評(píng)分的項(xiàng)目比較多,從而有效地解決用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏情況下傳統(tǒng)相似性度量方法存在的不足。
其次,對(duì)于“冷啟動(dòng)”問題,我們引入內(nèi)容過濾克服協(xié)同過濾推薦算法的不足。具體實(shí)現(xiàn)方法:對(duì)用戶――資源的評(píng)分率設(shè)定一個(gè)閾值,當(dāng)評(píng)分率小于閾值時(shí)即可認(rèn)為處于“冷啟動(dòng)”狀態(tài),此時(shí)采用內(nèi)容過濾推薦的方式。由于內(nèi)容過濾是根據(jù)用戶興趣模型與資源向量空間模型的匹配來產(chǎn)生推薦,其對(duì)每個(gè)用戶的操作都是獨(dú)立的而不依賴其他用戶對(duì)資源的評(píng)價(jià),因此能夠比較好地解決“冷啟動(dòng)”問題。
(二)個(gè)性化推薦模型結(jié)構(gòu)
前文我們已經(jīng)對(duì)協(xié)同過濾推薦算法從算法原理到實(shí)現(xiàn)過程都作了細(xì)致的分析,并提出了對(duì)協(xié)同過濾算法兩大問題的解決思路。在此基礎(chǔ)上我們構(gòu)建了一個(gè)基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)的理論模型,該模型主要包括數(shù)據(jù)支持、協(xié)同過濾推薦引擎和新進(jìn)資源推薦等三個(gè)模塊,如圖4所示。
1.數(shù)據(jù)支持
數(shù)據(jù)支持模塊為一個(gè)信息數(shù)據(jù)庫,其中包含四個(gè)數(shù)據(jù)表:用戶信息表、學(xué)習(xí)行為數(shù)據(jù)表、資源信息表、資源評(píng)分?jǐn)?shù)據(jù)表。(1)用戶信息表:存放學(xué)習(xí)者的個(gè)人信息,包括注冊(cè)時(shí)填寫的基本信息,以及通過Web數(shù)據(jù)挖掘技術(shù)得到的其它相關(guān)信息,如興趣、習(xí)慣、資源偏好等。為了提升協(xié)同過濾推薦的準(zhǔn)確度,要求系統(tǒng)對(duì)用戶個(gè)人信息的掌握越詳細(xì)越好。(2)學(xué)習(xí)行為數(shù)據(jù)表:保存學(xué)習(xí)者在學(xué)習(xí)過程中產(chǎn)生的學(xué)習(xí)行為記錄。系統(tǒng)通過跟蹤、記錄學(xué)習(xí)者的各種行為數(shù)據(jù),經(jīng)過分析后抽取其中能較好體現(xiàn)學(xué)習(xí)者對(duì)資源偏好的行為數(shù)據(jù)(如對(duì)資源的下載、閱讀、收藏、推薦等)記錄到該數(shù)據(jù)表中。學(xué)習(xí)行為數(shù)據(jù)是用戶對(duì)資源條目隱式評(píng)分的數(shù)據(jù)來源。(3)資源信息庫:保存了系統(tǒng)中各種學(xué)習(xí)資源信息,如課件、案例、試題、新聞、文獻(xiàn)等。(4)資源評(píng)分?jǐn)?shù)據(jù)表:保存學(xué)習(xí)者對(duì)學(xué)習(xí)資源的評(píng)分信息。該表是協(xié)同過濾算法的主要數(shù)據(jù)支撐。協(xié)同過濾算法通過分析用戶――資源評(píng)分?jǐn)?shù)據(jù)、計(jì)算用戶或者資源之間的相似度來為用戶產(chǎn)生推薦。
2.協(xié)同過濾推薦引擎
該引擎是推薦系統(tǒng)的核心模塊,學(xué)習(xí)資源個(gè)性化推薦實(shí)現(xiàn)的中樞,其實(shí)現(xiàn)流程如圖5所示。
整個(gè)推薦引擎的算法流程可以概括為以下幾步:第一步,檢索數(shù)據(jù)庫,形成用戶――資源評(píng)分矩陣;第二步,計(jì)算數(shù)據(jù)稀疏度,在此把數(shù)據(jù)稀疏度定義為:
第三步,根據(jù)稀疏度值選擇用何種方法對(duì)協(xié)同過濾算法進(jìn)行修正。此處,我們?cè)O(shè)置了一個(gè)閾值,Th value’作為選擇進(jìn)行評(píng)分預(yù)測(cè)或者內(nèi)容過濾的臨界值。當(dāng)SparsityTh value時(shí),將采用評(píng)分預(yù)測(cè)算法進(jìn)行修正;第四步,形成鄰居,并最終對(duì)用戶產(chǎn)生推薦。
3.新進(jìn)資源推薦
該模塊主要針對(duì)協(xié)同過濾推薦技術(shù)中“冷啟動(dòng)”問題而設(shè)計(jì)。它的主要功能是分析每個(gè)學(xué)習(xí)者的興趣、愛好與專業(yè)(職業(yè))類別,并為其推薦相關(guān)領(lǐng)域的最新資源,以提高最新資源的被訪問率。協(xié)同過濾推薦的基礎(chǔ)是用戶對(duì)資源的評(píng)分,但是一個(gè)剛加入到資源庫的資源如果還沒有被學(xué)習(xí)者訪問和評(píng)價(jià)而一直處于被訪問的等待隊(duì)列中,那么它將永遠(yuǎn)沒有機(jī)會(huì)為系統(tǒng)所推薦。通過新增這一模塊,能在一定程度上克服協(xié)同過濾中的冷啟動(dòng)問題,提高新人庫的學(xué)習(xí)資源被訪問的機(jī)率。
(二)隱式評(píng)分的引入
協(xié)同過濾推薦算法的一大優(yōu)點(diǎn)是對(duì)各種不同的資源類型都具有很好的適用性,這使得該算法可以輕易地從電子商務(wù)領(lǐng)域移植到e-learning系統(tǒng)中。然而e-learning系統(tǒng)中學(xué)習(xí)者的學(xué)習(xí)行為有異于電子商務(wù)領(lǐng)域中消費(fèi)者的購買行為,前者要考慮的因素更多??紤]到e-learning系統(tǒng)存在這樣的情況:即有一部分未被評(píng)分的學(xué)習(xí)資源事實(shí)上已經(jīng)被學(xué)習(xí)者點(diǎn)播或者學(xué)習(xí)。我們可以通過分析用戶對(duì)于這一部分資源的學(xué)習(xí)行為,形成一個(gè)隱式評(píng)價(jià)模型。用戶的學(xué)習(xí)行為中如果出現(xiàn)了表示用戶對(duì)資源喜好的行為因素(下載、收藏、推薦、學(xué)習(xí)時(shí)長(zhǎng)等),就可以把這些行為加權(quán)轉(zhuǎn)化為用戶對(duì)資源的隱式評(píng)分。
隱式評(píng)分是通過計(jì)算用戶各特定行為或者行為組合的分值而得到的。如表3所示,為了方便期間,我們用D、c、R、T四個(gè)字母分別代表下載、收藏、推薦、學(xué)習(xí)時(shí)長(zhǎng)(>30min)等四種行為,資源評(píng)分的最高分為10分。
在e-learning系統(tǒng)中引入隱式評(píng)價(jià)有兩個(gè)好處:第一,通過用戶自身的學(xué)習(xí)行為來計(jì)算其對(duì)資源的評(píng)分,具有比預(yù)測(cè)更高的可靠性;第二,可以增加資源的評(píng)分率,使得預(yù)測(cè)算法有更多地評(píng)分?jǐn)?shù)據(jù)可以參考。這將在一定程度上緩解協(xié)同過濾算法的“數(shù)據(jù)稀疏”問題,從而間接地提高了預(yù)測(cè)評(píng)分的準(zhǔn)確性。
(三)有關(guān)模型的幾個(gè)關(guān)鍵問題的討論
為了滿足學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需求,我們從學(xué)習(xí)資源人
手,提出了基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)模型。該模型能有效指導(dǎo)e-learning個(gè)性化學(xué)習(xí)環(huán)境的設(shè)計(jì),提高e-learning績(jī)效。但是,這其中有多個(gè)因素會(huì)影響個(gè)性化推薦的精度,降低算法的推薦效率,從而導(dǎo)致推薦結(jié)果難以滿足學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需求。
1.學(xué)習(xí)者興趣偏好的獲取及更新
在個(gè)性化推薦系統(tǒng)中,學(xué)習(xí)者的興趣和偏好的地位相當(dāng)于坐標(biāo)系中的參照點(diǎn)。因?yàn)橐粋€(gè)好的個(gè)性化推薦系統(tǒng)所推薦的資源應(yīng)能夠很好地符合每個(gè)用戶的興趣、偏好,所以,學(xué)習(xí)者興趣、偏好的抽取過程與方法在推薦系統(tǒng)中顯得極為重要。另外,由于學(xué)習(xí)者的興趣、偏好和知識(shí)水平不是一成不變的,推薦系統(tǒng)應(yīng)能夠很好地追蹤這些變化并及時(shí)地更新相關(guān)信息,以滿足學(xué)習(xí)者新的個(gè)性化需求。
2.學(xué)習(xí)者學(xué)習(xí)行為的跟蹤
學(xué)習(xí)者特定的學(xué)習(xí)行為能體現(xiàn)出學(xué)習(xí)者當(dāng)前的學(xué)習(xí)偏好。例如,他學(xué)習(xí)了哪份教材第幾章第幾節(jié)的內(nèi)容,這就說明他當(dāng)前比較熱衷于學(xué)習(xí)這一節(jié)所涵蓋的知識(shí)點(diǎn),可以對(duì)其進(jìn)行有針對(duì)性地推薦。同樣,學(xué)習(xí)者收藏、下載、推薦學(xué)習(xí)資源的行為說明學(xué)習(xí)者對(duì)這項(xiàng)資源感興趣。因此,系統(tǒng)應(yīng)該有效跟蹤這類學(xué)習(xí)行為,并將行為數(shù)據(jù)記錄到數(shù)據(jù)庫,作為協(xié)同過濾推薦中隱式評(píng)分的重要依據(jù)。除此之外,推薦系統(tǒng)應(yīng)力求更全面地掌握其它能夠體現(xiàn)用戶偏好的行為要素,以期能夠更為精確地掌握用戶的興趣、愛好,并對(duì)其產(chǎn)生最為合適的資源。
3.協(xié)同過濾推薦中兩大問題的進(jìn)一步研究
雖然在我們提出的組合協(xié)同過濾推薦算法中引入了項(xiàng)目評(píng)分預(yù)測(cè)和內(nèi)容過濾推薦的方法,以解決協(xié)同過濾算法存在的“數(shù)據(jù)稀疏”和“冷啟動(dòng)”兩大問題,但組合協(xié)同過濾推薦算法中仍有兩個(gè)關(guān)鍵點(diǎn)需要進(jìn)一步深入考慮:(1)閾值的選取。閾值決定了何時(shí)用項(xiàng)目評(píng)分預(yù)測(cè)與何時(shí)用內(nèi)容過濾推薦,那么閾值在何值時(shí)才能使推薦引擎具有最優(yōu)的推薦精度?這需要進(jìn)一步的考證;(2)兩大問題更優(yōu)解決方法的探尋。誠(chéng)然我們提出的組合算法能在一定程度上緩解協(xié)同過濾算法的兩大問題,但是否還存在更為有效的解決辦法,需要我們開展進(jìn)一步的工作去探究、找尋,以期找到更為完美的解決方案
五、結(jié)論與未來研究展望
關(guān)鍵詞:個(gè)性化信息服務(wù) 協(xié)同過濾 用戶評(píng)分
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)09-0000-00
1 引言
隨著互聯(lián)網(wǎng)的普及和全球信息化進(jìn)程的發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的主要途徑,互聯(lián)網(wǎng)上的信息資源也開始呈現(xiàn)爆炸式增長(zhǎng)。信息流量、規(guī)模、服務(wù)項(xiàng)目等各方面的迅猛發(fā)展,給人們帶來了極大便利,同時(shí)也產(chǎn)生了“信息過載”等問題,傳統(tǒng)的信息服務(wù)模式已難以滿足用戶的實(shí)際需求,個(gè)性化信息服務(wù)逐漸成為人們的網(wǎng)絡(luò)服務(wù)訴求。互聯(lián)網(wǎng)服務(wù)在電子商務(wù)、社交網(wǎng)絡(luò)、數(shù)字媒體服務(wù)等領(lǐng)域不斷應(yīng)用擴(kuò)展,在關(guān)注信息本身的基礎(chǔ)上,對(duì)信息服務(wù)的信息量、時(shí)效性和表現(xiàn)形式等多方面也都有了新的需求,特別是對(duì)信息服務(wù)的個(gè)性化要求尤為突出。如果網(wǎng)站針對(duì)不同用戶根據(jù)其興趣展示不同的頁面,可以使用戶快速、準(zhǔn)確的找到自己需要的信息資源,進(jìn)而使用戶產(chǎn)生被認(rèn)真服務(wù)的良好體驗(yàn),從而對(duì)網(wǎng)站維護(hù)穩(wěn)定的用戶群起到了大大的促進(jìn)作用。個(gè)性化推薦系統(tǒng)正是在這種需求背景下產(chǎn)生的,它是網(wǎng)絡(luò)信息快速膨脹的結(jié)果,是未來網(wǎng)絡(luò)服務(wù)的一個(gè)發(fā)展方向,也是IT領(lǐng)域的一個(gè)研究熱點(diǎn)[1]。
2 個(gè)性化信息服務(wù)網(wǎng)絡(luò)系統(tǒng)
使用個(gè)性化信息服務(wù)網(wǎng)絡(luò)系統(tǒng)是為了讓每個(gè)用戶獲得的信息資源或服務(wù)都符合其自身的知識(shí)結(jié)構(gòu)、身份背景等不同需要,滿足用戶的個(gè)性化信息需求[2]。為了能夠?yàn)橛脩糁鲃?dòng)、準(zhǔn)確的提供所需信息,個(gè)性化信息服務(wù)推薦系統(tǒng)通常應(yīng)具有如下基本功能:
(1)用戶信息維護(hù)。主要包括用戶姓名、性別、年齡等基本信息,用戶的興趣、愛好、習(xí)慣、思維方式等背景信息和用戶的工作性質(zhì)、業(yè)務(wù)領(lǐng)域等信息如何存儲(chǔ)和表示。負(fù)責(zé)處理用戶初次輸入的信息,并且滿足用戶隨時(shí)查詢、修改最新的個(gè)人信息;負(fù)責(zé)用戶身份驗(yàn)證問題;將用戶輸入的興趣、愛好信息及用戶對(duì)于推薦信息的評(píng)價(jià)提交給需求分析模塊。
(2)網(wǎng)絡(luò)資源的建設(shè)與共享。網(wǎng)絡(luò)信息資源的建設(shè)是個(gè)性化信息服務(wù)系統(tǒng)的基礎(chǔ),資源的類型多種多樣,包括文檔、圖片、音頻、視頻等。作為公共資源網(wǎng)絡(luò)平臺(tái),通常,由注冊(cè)用戶來共同進(jìn)行資源建設(shè),服務(wù)平臺(tái)提供用戶和管理資源的功能。在平臺(tái)中,每位用戶的資源都對(duì)其他用戶公開,并對(duì)他們提供瀏覽、搜索、下載等功能,實(shí)現(xiàn)資源的共享。
(3)資源的評(píng)分與評(píng)價(jià)。為了幫助網(wǎng)絡(luò)用戶更快的甄別資源的好壞,同時(shí)也能為用戶間的相互交流提供服務(wù),網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)注冊(cè)用戶對(duì)于資源打分和評(píng)價(jià)的功能,這也是為實(shí)現(xiàn)個(gè)性化服務(wù)獲得基礎(chǔ)數(shù)據(jù)的重要途徑,負(fù)責(zé)用戶對(duì)個(gè)性化信息服務(wù)反饋信息的收集、整理,實(shí)現(xiàn)系統(tǒng)開發(fā)者與使用者的交互。
(4)資源的自動(dòng)推薦。這體現(xiàn)了“資源找人”的服務(wù)理念。網(wǎng)絡(luò)信息服務(wù)系統(tǒng)中通常包括兩種類型的推薦:一種是非個(gè)性化的推薦(即對(duì)所有游客的推薦內(nèi)容都相同),包括熱門資源的推薦、最新資源的推薦,這種推薦方式面向所有瀏覽網(wǎng)絡(luò)信息系統(tǒng)的人員;另一種是個(gè)性化推薦,這是個(gè)性化服務(wù)的體現(xiàn)所在,針對(duì)已經(jīng)注冊(cè)并登錄的用戶,提供具有個(gè)性化特征的資源推薦服務(wù)。
(5)信息的數(shù)據(jù)挖掘過濾。使用 web 數(shù)據(jù)挖掘技術(shù),根據(jù)用戶模型,對(duì)具有相同或相似興趣的用戶進(jìn)行信息檢索,根據(jù)檢索結(jié)果進(jìn)行過濾并依據(jù)某種原則將過濾結(jié)果推送給用戶,這是個(gè)性化服務(wù)性能的關(guān)鍵所在。
系統(tǒng)的運(yùn)行需要用戶(系統(tǒng)使用者)、系統(tǒng)開發(fā)者、網(wǎng)站經(jīng)營(yíng)者的三方共同支持,讓用戶以最簡(jiǎn)潔、方便、快捷的方式得到最需要的信息,使系統(tǒng)開發(fā)者和網(wǎng)站經(jīng)營(yíng)者實(shí)現(xiàn)其商業(yè)目的。個(gè)性化信息推薦服務(wù)系統(tǒng)的體系結(jié)構(gòu)[3]如圖1所示。
圖 1 個(gè)性化信息服務(wù)網(wǎng)絡(luò)系統(tǒng)體系架構(gòu)
應(yīng)用層的功能是面向用戶的。其中,資源建設(shè)功能包括資源上傳、歷史上傳資源查看\修改\刪除等;資源共享功能包括資源的下載、查看、搜索等;用戶管理功能包括用戶的注冊(cè)與登錄、用戶信息的查看與修改等;評(píng)分管理包括用戶對(duì)資源的評(píng)分與文字評(píng)價(jià)等。
數(shù)據(jù)庫存放著用戶信息數(shù)據(jù)、網(wǎng)絡(luò)資源數(shù)據(jù)和用戶評(píng)價(jià)數(shù)據(jù)等,這些數(shù)據(jù)來自系統(tǒng)的交互活動(dòng)中,構(gòu)成了資源個(gè)性化推薦模型所需的基本數(shù)據(jù)。
系統(tǒng)的關(guān)鍵部分是資源個(gè)性化推薦,承擔(dān)為注冊(cè)用戶推薦符合其個(gè)性化需求的網(wǎng)絡(luò)資源的任務(wù),主要包括用戶興趣模型的構(gòu)建、用戶相似性計(jì)算和資源預(yù)測(cè)評(píng)分產(chǎn)生推薦數(shù)據(jù)集。數(shù)據(jù)處理和模型構(gòu)建是個(gè)性化推薦技術(shù)的基礎(chǔ),負(fù)責(zé)將系統(tǒng)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,使其可計(jì)算化。推薦策略是整個(gè)推薦模型的核心部分,決定了推薦模型的質(zhì)量,需要完成個(gè)性化推薦中大部分的計(jì)算工作。采用協(xié)同過濾推薦技術(shù),對(duì)項(xiàng)目進(jìn)行聚類,計(jì)算用戶興趣的相似度,通過多輪循環(huán),找出目標(biāo)用戶的最相似的幾個(gè)用戶,并建立相似用戶數(shù)據(jù)集。產(chǎn)生推薦結(jié)果集的工作是依據(jù)推薦算法計(jì)算階段得到的結(jié)果進(jìn)行目標(biāo)用戶對(duì)于資源的預(yù)測(cè)評(píng)分計(jì)算,來過濾出最終可供推薦的資源,實(shí)現(xiàn)推薦過程。
3 關(guān)鍵技術(shù)說明
個(gè)性化信息推薦系統(tǒng)在建?用戶的個(gè)人信息的基礎(chǔ)上,通過用戶對(duì)網(wǎng)絡(luò)資源評(píng)價(jià)及瀏覽、收藏等操作行為了解用戶的特征、習(xí)性、偏好等信息,借此過濾出與用戶相關(guān)的內(nèi)容并加以整合,進(jìn)而利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法提取用戶的偏好特征,幫助用戶在眾多且雜亂的信息中過濾出有用的部分,最后推薦符合使用者預(yù)期的資源。其中信息的有效過濾推薦是系統(tǒng)性能好壞的決定因素,推薦方法主要有關(guān)聯(lián)規(guī)則推薦、基于內(nèi)容的推薦和協(xié)同過濾推薦,其中最為流行且高效的是協(xié)同過濾推薦技術(shù)。
協(xié)同過濾(Collaboration Filtering,簡(jiǎn)化為CF)推薦的基本思想是利用已有用戶群的行為或評(píng)分等信息,找到目標(biāo)用戶與用戶群中其他用戶的相似性關(guān)系,根據(jù)目標(biāo)用戶的相似用戶信息對(duì)目標(biāo)用戶產(chǎn)生推薦。舉個(gè)簡(jiǎn)單的例子,如果用戶A和用戶B的購買經(jīng)歷非常相似,而且用戶A最近買了一本用戶B還不知道的書,那么基于協(xié)同過濾技術(shù)的邏輯就是要向B推薦這本書。由于系統(tǒng)依據(jù)購買經(jīng)歷等信息判斷用戶A是用戶B的相似用戶,那么系統(tǒng)就會(huì)把相似用戶A喜愛的物品直接推薦給用戶B,而在產(chǎn)生推薦的整個(gè)過程中,用戶間是相互協(xié)作的關(guān)系,故這種技術(shù)被稱為協(xié)同過濾技術(shù)。
協(xié)同過濾推薦通?;谙旅嫒c(diǎn)假設(shè):
(1)在時(shí)間上用戶興趣偏好不變。比如,用戶A在過去喜歡科技類書籍,那么將來也會(huì)喜歡科技類書籍。(2)相似用戶的興趣是相同的。如果用戶A和用戶B有相似的購買經(jīng)歷(A與B相似),那么用戶A感興趣的物品也是用戶B所感興趣的,反之,用戶B感興趣的也是A所感興趣的。(3)目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分是可以預(yù)測(cè)的。系統(tǒng)可以依據(jù)整個(gè)用戶群對(duì)項(xiàng)目集合的評(píng)分信息以及它們之間的相似性信息,預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分。
協(xié)同過濾不需要對(duì)物品的內(nèi)容進(jìn)行分析,不用提取資源的特征信息,只是依靠用戶對(duì)資源的評(píng)價(jià)信息來為當(dāng)前用戶尋找興趣相近的用戶,然后通過鄰居用戶的評(píng)分來預(yù)測(cè)當(dāng)前用戶對(duì)項(xiàng)目的評(píng)分,最后依據(jù)預(yù)測(cè)評(píng)分對(duì)當(dāng)前用戶產(chǎn)生推薦。協(xié)同過濾推薦技術(shù)避免了獲取物品特征信息的難度,因而在推薦系統(tǒng)中得到了廣泛的應(yīng)用。根據(jù)實(shí)現(xiàn)推薦的策略不同,可分為基于內(nèi)存的協(xié)同過濾推薦和基于模型的協(xié)同過濾推薦兩類,兩類推薦算法都需要對(duì)用戶-項(xiàng)目評(píng)分矩陣進(jìn)行分析計(jì)算[4]。
基于內(nèi)存的協(xié)作推薦主要根據(jù)系統(tǒng)擁有的已有用戶評(píng)分?jǐn)?shù)據(jù),在內(nèi)存中通過一定的啟發(fā)式方法實(shí)現(xiàn)評(píng)分預(yù)測(cè),進(jìn)而為用戶推薦預(yù)測(cè)評(píng)分最高的資源。基于推薦角度的不同,又可分為2類:從用戶角度實(shí)現(xiàn)的基于用戶的協(xié)作推薦,根據(jù)用戶最近鄰居實(shí)現(xiàn)推薦,其關(guān)鍵在于查找目標(biāo)用戶的鄰居用戶,并根據(jù)鄰居的評(píng)分對(duì)目標(biāo)用戶的未訪問項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè);從項(xiàng)目角度實(shí)現(xiàn)基于項(xiàng)目的協(xié)作推薦,其工作原理與基于用戶的協(xié)同推薦類似,區(qū)別在于它更強(qiáng)調(diào)“用戶未來的信息興趣將保持與以往信息興趣相一致”,項(xiàng)目間相似度更為穩(wěn)定,挖掘信息項(xiàng)目之間的相似性,分類相似的項(xiàng)目是算法的關(guān)鍵[5]。
基于模型的協(xié)同推薦對(duì)系統(tǒng)中的評(píng)分?jǐn)?shù)據(jù)分布進(jìn)行分析和挖掘,通過機(jī)器學(xué)習(xí)或統(tǒng)計(jì)方法學(xué)習(xí)符合評(píng)分?jǐn)?shù)據(jù)分布的評(píng)分預(yù)測(cè)模型進(jìn)而依據(jù)目標(biāo)用戶的已有評(píng)分?jǐn)?shù)據(jù),通過該模型實(shí)現(xiàn)未知評(píng)分的預(yù)測(cè)計(jì)算。此類技術(shù)大量采用了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,對(duì)評(píng)分?jǐn)?shù)據(jù)的潛在復(fù)雜模式進(jìn)行學(xué)習(xí)。常用的模型和算法有貝葉斯網(wǎng)絡(luò)、聚類算法、回歸算法、馬爾科夫決策模型和關(guān)聯(lián)規(guī)則挖掘等。由于對(duì)模型的訓(xùn)練和學(xué)習(xí)一般需要耗費(fèi)大量的計(jì)算時(shí)間,因此預(yù)測(cè)模型的構(gòu)造往往離線完成,并且還要對(duì)模型進(jìn)行周期性的更新。
協(xié)同過濾推薦的基礎(chǔ)是用戶對(duì)項(xiàng)目的評(píng)分,然而對(duì)于那些新加入系統(tǒng)的用戶或資源項(xiàng)目,由于沒有任何評(píng)分信息而無法合理推薦,這就是協(xié)同過濾的“冷啟動(dòng)”問題;在實(shí)際應(yīng)用中,由于用戶習(xí)慣和需求會(huì)使用戶對(duì)項(xiàng)目不能進(jìn)行充分的評(píng)分,造成評(píng)分?jǐn)?shù)據(jù)不足,嚴(yán)重影響推薦精度,這就是協(xié)同過濾的“數(shù)據(jù)稀疏性”問題;隨著系統(tǒng)的運(yùn)行時(shí)間的加長(zhǎng),用戶和資源數(shù)據(jù)不斷增加,數(shù)據(jù)處理的計(jì)算量和復(fù)雜度會(huì)越來越大,這會(huì)降低算法的運(yùn)行效率,因而如何有效降低算法的復(fù)雜度也是協(xié)同過濾推薦的一個(gè)亟待解決的重要問題。
4 結(jié)語
個(gè)性化的信息獲取、個(gè)性化的信息服務(wù)的研究與IT技術(shù)的發(fā)展是密不可分的,只有應(yīng)用最先進(jìn)的信息技術(shù)才能真正做到信息服務(wù)的個(gè)性化。個(gè)性化推薦系統(tǒng)是互聯(lián)網(wǎng)時(shí)展的產(chǎn)物,協(xié)同過濾技術(shù)是個(gè)性化推薦系統(tǒng)最熱門的研究對(duì)象。個(gè)性化推薦系統(tǒng)既能作為信息過濾的工具幫助用戶更好地利用互聯(lián)網(wǎng)信息,又能作為網(wǎng)站營(yíng)銷的武器,提高網(wǎng)站的用戶黏著度和推廣相關(guān)產(chǎn)品或服務(wù)。
參考文獻(xiàn):
[1]李春,朱珍民,葉劍,周佳穎.個(gè)性化服務(wù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,11:4001-4005.
[2]杜鵬飛.基于Web的數(shù)據(jù)挖掘與網(wǎng)絡(luò)個(gè)性化信息服務(wù)研究[D].中國(guó)石油大學(xué),2009:6-12.
[3]唐國(guó)菊.網(wǎng)絡(luò)學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與開發(fā)[D].山西師范大學(xué),2012:41-49.
[4]http:///lnhenrylee@126/blog/static/2414832520123269713813/?COLLCC=1862522904&.
[5]任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].華東師范大學(xué),2012:18-30.
收稿日期:2015-08-18
關(guān)鍵詞:個(gè)性化推薦系統(tǒng);推薦算法
中圖分類號(hào):TP751文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)13-3501-01
Web Research on Personalized Recommendation
ZHAO Zhi, LIU Chang-ming, SUN Yan
(Computer Office, Aviation University of Air Force, Changchun 130022, China)
Abstract: This article describes the Web Personalized Recommendation on the classification of technologies input data and interface forms.
Key words: personalization recommendation system;recommendation algorithm
1 概述
進(jìn)入21世紀(jì)后,隨著網(wǎng)絡(luò)的普及,Internet正在前所未有地改變著我們的生活。WWW上的一些主要工作,例如Web站點(diǎn)設(shè)計(jì)、Web服務(wù)設(shè)計(jì)、電子商務(wù)等工作正變得越來越復(fù)雜。由此,如何對(duì)網(wǎng)絡(luò)上大量的信息進(jìn)行有效組織利用,幫助海量數(shù)據(jù)的擁有者們找出真正有價(jià)值的信息和知識(shí),以指導(dǎo)他們的決策行為成為研究者們主要關(guān)注的熱點(diǎn)。個(gè)性化推薦就在這樣的背景下產(chǎn)生出來,它是在Internet出現(xiàn)后產(chǎn)生的數(shù)據(jù)挖掘的一個(gè)新的分支,主要研究在Internet網(wǎng)絡(luò)上,對(duì)各種數(shù)據(jù)源,如Web日志、用戶登記信息、頁面內(nèi)容等,利用數(shù)據(jù)挖掘技術(shù)尋找網(wǎng)絡(luò)上數(shù)據(jù)間各種隱含的知識(shí)模式和獲取一些測(cè)試信息。把Web數(shù)據(jù)挖掘用于個(gè)性化推薦,可以幫助指導(dǎo)站點(diǎn)改進(jìn)服務(wù)、調(diào)整結(jié)構(gòu)和實(shí)施有針對(duì)性的商業(yè)行為,以更好地滿足訪問者的需求。
2 推薦系統(tǒng)的分類
(1) 非個(gè)性化推薦:推薦主要基于其它客戶對(duì)該產(chǎn)品的評(píng)價(jià)。電子商務(wù)推薦系統(tǒng)對(duì)每個(gè)用戶產(chǎn)生的推薦都是相同的。這種推薦系統(tǒng)可以基于Web站點(diǎn)工作人員的手工推薦,可以基于統(tǒng)計(jì)分析技術(shù)等。
(2) 基于產(chǎn)品屬性的推薦:推薦主要是基于產(chǎn)品的屬性。該系統(tǒng)需要客戶輸入他所需要產(chǎn)品的屬性,因此推薦是手工產(chǎn)生的。基于產(chǎn)品屬性的推薦也可以是瞬時(shí)的或個(gè)性化的,這取決于電子商務(wù)網(wǎng)站是否保存有客戶偏好的記錄。
(3) 相關(guān)性產(chǎn)品推薦:推薦系統(tǒng)根據(jù)客戶感興趣的產(chǎn)品推薦相關(guān)的產(chǎn)品,由于它不需要客戶購買產(chǎn)品的歷史記錄,只需了解客戶當(dāng)前選擇的產(chǎn)品,因此是瞬時(shí)的。如果推薦系統(tǒng)產(chǎn)生的推薦是基于客戶長(zhǎng)期較少改變的購買模式,可以認(rèn)為它是自動(dòng)的,如果需要客戶明確輸入一些感興趣的產(chǎn)品后產(chǎn)生推薦,可以認(rèn)為它是手工。
(4) 相關(guān)性客戶推薦:又稱協(xié)作過濾或社會(huì)過濾。它考慮了用戶的評(píng)價(jià)信息,根據(jù)客戶與其他已經(jīng)購買了商品的客戶之間的相關(guān)性進(jìn)行推薦。
3 關(guān)鍵技術(shù)
目前存在著許多個(gè)性化服務(wù)系統(tǒng)[1],它們提出了各種思路以實(shí)現(xiàn)個(gè)性化服務(wù)。個(gè)性化服務(wù)系統(tǒng)根據(jù)其所采用的推薦技術(shù)可以分為兩種:基于規(guī)則的系統(tǒng)和信息過濾系統(tǒng)。信息過濾系統(tǒng)又可分為基于內(nèi)容過濾的系統(tǒng)和協(xié)同過濾系統(tǒng)[2]。
3.1 基于規(guī)則的技術(shù)
基于規(guī)則的系統(tǒng)它們?cè)试S系統(tǒng)管理員根據(jù)用戶的靜態(tài)特征和動(dòng)態(tài)屬性來制定規(guī)則,規(guī)則可以由用戶定制,也可以利用基于關(guān)聯(lián)規(guī)則的挖掘技術(shù)來發(fā)現(xiàn),利用規(guī)則來推薦信息依賴于規(guī)則的質(zhì)量和數(shù)量,一個(gè)規(guī)則本質(zhì)上是一個(gè)If-Then語句,規(guī)則決定了在不同的情況下如何提供不同的服務(wù)。
基于規(guī)則的系統(tǒng)一般分為 3 部分:關(guān)鍵詞層、描述層和用戶接口層。關(guān)鍵詞層提供上層描述所需的關(guān)鍵詞,并定義關(guān)鍵詞間的依賴關(guān)系,在該層可以定義靜態(tài)屬性的個(gè)性化規(guī)則。描述層定義用戶描述和資源描述,由于描述層是針對(duì)具體的用戶和資源,所以描述層的個(gè)性化規(guī)則是動(dòng)態(tài)變化的。用戶接口層提供個(gè)性化服務(wù),根據(jù)下面兩層定義的個(gè)性化規(guī)則將滿足規(guī)則的資源推薦給用戶。
3.2 信息過濾技術(shù)
信息過濾,也就是所謂的信息的選擇性傳播。與信息檢索不同,信息過濾關(guān)注用戶的長(zhǎng)線需求(指在一段時(shí)間內(nèi),比較固定的信息需求),是為非結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù)設(shè)計(jì)的,主要用來處理文本信息。其目標(biāo)是幫助用戶處理大量的信息,對(duì)動(dòng)態(tài)的信息流進(jìn)行篩選,著重于排除用戶不希望得到的信息。信息過濾技術(shù)可分為基于內(nèi)容過濾的技術(shù)和協(xié)同過濾技術(shù)。
3.2.1 內(nèi)容過濾
基于內(nèi)容過濾的技術(shù)是通過比較資源與用戶描述文件來推薦資源,假定每個(gè)用戶的操作都是相互獨(dú)立的,因此過濾的結(jié)果僅僅依賴于用戶信息需求模型(也稱用戶模板)與文本的匹配程度?;趦?nèi)容過濾的基本問題包括用戶興趣的建模與更新以及相似性計(jì)算方法。
基于內(nèi)容過濾的系統(tǒng)其優(yōu)點(diǎn)是簡(jiǎn)單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。
3.2.2 協(xié)同過濾
迄今為止在個(gè)性化推薦系統(tǒng)中,協(xié)同過濾技術(shù)是應(yīng)用最成功的技術(shù)。協(xié)同過濾,又稱社會(huì)過濾[3],它是基于這樣的假設(shè):為一用戶找到他真正感興趣內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內(nèi)容推薦給此用戶。它們利用用戶之間的相似性來過濾信息。它一般采用基于近鄰用戶的協(xié)同過濾技術(shù),核心問題是為當(dāng)前用戶尋找 k 個(gè)最相似的鄰居來預(yù)測(cè)當(dāng)前用戶的興趣。
目前有許多網(wǎng)站采用了該技術(shù)的推薦系統(tǒng)如:互聯(lián)網(wǎng)上最大的書店; Web上最大的CD商店;互聯(lián)網(wǎng)上最大訪問量之一的電影網(wǎng)站等。由微軟研究院開發(fā)的協(xié)同過濾工具已被集成在微軟的Commerce Server產(chǎn)品中,并被許多站點(diǎn)使用。
參考文獻(xiàn):
[1] Pretschner, A. Ontology based personalized search [MS. Thesis]. Lawrence, KS:University of Kansas, 1999.
[關(guān)鍵詞]情景感知 圖書館服務(wù) 自適應(yīng)服務(wù) 個(gè)性化服務(wù)
[分類號(hào)]G250.7
引言
關(guān)于個(gè)性化信息服務(wù)(PIS)的研究一直是備受圖書館領(lǐng)域關(guān)注的課題。但隨著個(gè)性化服務(wù)應(yīng)用的不斷深入,人們逐漸發(fā)現(xiàn)當(dāng)前圖書館在實(shí)現(xiàn)個(gè)性化服務(wù)中存在的一些不足:①當(dāng)前多數(shù)PIS系統(tǒng)使用繁瑣或系統(tǒng)復(fù)雜,不能自動(dòng)地隱式獲取用戶需求;②獲取的用戶個(gè)性化需求準(zhǔn)確性和可靠性不高;③自適應(yīng)性不強(qiáng),提供的服務(wù)不能適應(yīng)用戶信息需求不斷變化的實(shí)際情況;④缺乏探測(cè)性,用戶的信息需求有時(shí)不是非常有目的性,需要根據(jù)對(duì)用戶已有需求的了解推斷出用戶可能感興趣的信息,而當(dāng)前的PIS系統(tǒng)和方法在這方面沒有考慮或者考慮很少。
與此同時(shí),對(duì)情景和情景感知的研究不斷深入,并取得不少成功的應(yīng)用案例,于是基于情景感知的自適應(yīng)服務(wù)應(yīng)運(yùn)而生。情景(context),也稱情境、上下文,是指用于刻畫一個(gè)實(shí)體所處狀態(tài)的任何信息,包括每個(gè)實(shí)體的位置、時(shí)間、活動(dòng)和偏好等。這里,實(shí)體可以是一個(gè)人、一個(gè)地方、一個(gè)對(duì)象,也包括用戶和應(yīng)用軟件本身。利用情景向用戶提供適合當(dāng)前情形的相關(guān)信息或服務(wù)就是情景感知(context-aware)服務(wù)。它通過自動(dòng)感知用戶當(dāng)前所處的情景信息(如人物、地點(diǎn)、時(shí)間和任務(wù)等)自動(dòng)獲取和發(fā)現(xiàn)用戶需求,實(shí)現(xiàn)信息服務(wù)與用戶的自適應(yīng),提高服務(wù)的準(zhǔn)確性和可靠性,是協(xié)助信息服務(wù)系統(tǒng)提高性能和質(zhì)量的重要支持手段和方法。因此,個(gè)性化服務(wù)中開始探究引入情景和情景感知的方法。如Kwon等創(chuàng)建的NAMA原型系統(tǒng)通過用戶情景、用戶描述等信息來發(fā)現(xiàn)用戶的信息需求,從而為電子商務(wù)購買者推薦個(gè)性化信息。Kim等提出的新型個(gè)性化推薦系統(tǒng)通過獲取用戶的位置、時(shí)間、身份、需求類型等情景信息為用戶提供個(gè)性化的廣告服務(wù)。Mylonas等分析了用戶的歷史情景和當(dāng)前情景的表示,并對(duì)不確定環(huán)境下的模糊情景(如用戶注意力和愿望等)展開了研究,認(rèn)為情景是提升個(gè)性化信息服務(wù)質(zhì)量的有效手段。圖書館作為一個(gè)以服務(wù)用戶為宗旨的知識(shí)信息中心,也應(yīng)該不斷適應(yīng)新技術(shù)和新環(huán)境的變化,創(chuàng)新個(gè)性化服務(wù)方式,以滿足用戶的動(dòng)態(tài)需求。
2圖書館中基于情景感知的自適應(yīng)個(gè)性化服務(wù)的產(chǎn)生動(dòng)因分析
泛在計(jì)算和移動(dòng)網(wǎng)絡(luò)的發(fā)展極大地改變了用戶獲取和使用信息的方式。用戶需求不斷趨于動(dòng)態(tài)化、多元化、高效化,同時(shí),越來越多的信息服務(wù)商給圖書館的發(fā)展帶來了嚴(yán)峻的挑戰(zhàn)。圖書館只有不斷尋求新的服務(wù)方式,才能獲得可持續(xù)發(fā)展。因此,將情景感知引入圖書館個(gè)性化服務(wù)中是多種動(dòng)力綜合作用的結(jié)果。
2.1 外推力――移動(dòng)技術(shù)推動(dòng)與泛在環(huán)境的挑戰(zhàn)
從傳統(tǒng)圖書館到數(shù)字圖書館、移動(dòng)圖書館,圖書館的每一步發(fā)展都離不開信息技術(shù)的支撐和推動(dòng)作用。20世紀(jì)90年代“泛在計(jì)算”(也稱普適計(jì)算、無處不在的計(jì)算)的概念被提出。普適計(jì)算的應(yīng)用、泛在環(huán)境的建立,更是對(duì)圖書館的型態(tài)、資源與服務(wù)都產(chǎn)生了重要的影響。泛在環(huán)境下,隨著無線網(wǎng)絡(luò)技術(shù)、傳感器技術(shù)、移動(dòng)終端設(shè)備的發(fā)展,信息技術(shù)對(duì)用戶活動(dòng)及其所處情景的捕獲、分析和推理能力進(jìn)一步增強(qiáng),為圖書館營(yíng)造普適計(jì)算環(huán)境,將信息服務(wù)融入用戶當(dāng)前的任務(wù)情景,通過“感知”用戶的具體行為識(shí)別用戶的實(shí)時(shí)需求,并據(jù)此提供自適應(yīng)的動(dòng)態(tài)服務(wù)提供了發(fā)展契機(jī)。因此,移動(dòng)技術(shù)的發(fā)展與泛在環(huán)境的到來,是圖書館關(guān)注、獲取情景信息并探討實(shí)現(xiàn)情景感知自適應(yīng)服務(wù)的重要推動(dòng)力。
2.2 內(nèi)驅(qū)力――圖書館應(yīng)對(duì)危機(jī)、獲得自身持續(xù)發(fā)展的出路
圖書館作為傳播知識(shí)和提供服務(wù)的重要機(jī)構(gòu),曾經(jīng)在傳統(tǒng)的信息交流體系中扮演著重要的角色。但隨著信息技術(shù)的發(fā)展和數(shù)字資源的主流化,隨著信息資源中心和公共信息服務(wù)平臺(tái)的非圖書館化以及以用戶和信息生產(chǎn)者驅(qū)動(dòng)的信息資源與服務(wù)市場(chǎng)新格局的出現(xiàn),圖書館作為曾經(jīng)的信息服務(wù)中心的地位正在被邊緣化。OCLC最新的《圖書館認(rèn)知2010》顯示,已經(jīng)沒有人將圖書館門戶作為查找信息的首選人口(2005年的調(diào)查結(jié)果為1%)。這反映了圖書館面臨的危機(jī)。而情景感知自適應(yīng)服務(wù)就是充分利用情景感知計(jì)算的技術(shù)優(yōu)勢(shì),通過獲取用戶的地理位置、時(shí)間、標(biāo)識(shí)和活動(dòng)等當(dāng)前情景信息,并結(jié)合用戶的歷史情景,自適應(yīng)地調(diào)整信息服務(wù),貫徹“用戶在什么位置,服務(wù)就延伸到什么位置”,是圖書館應(yīng)對(duì)危機(jī)、獲得自身發(fā)-展的重要出路。
2.3 引導(dǎo)力――用戶信息需求動(dòng)態(tài)化、情景敏感化
以用戶為中心、滿足用戶的個(gè)性化需求是圖書館一切工作的出發(fā)點(diǎn)。但是用戶的個(gè)性化需求是復(fù)雜的、多維的、動(dòng)態(tài)的、易變的,尤其是在當(dāng)前的移動(dòng)和泛在環(huán)境下,用戶的個(gè)性化需求表現(xiàn)出極強(qiáng)的情景敏感性。這種需求特點(diǎn)的變化對(duì)圖書館服務(wù)提出了更高的要求,引導(dǎo)著圖書館個(gè)性化服務(wù)的變革方向。圖書館傳統(tǒng)的依靠用戶模型提供個(gè)性化服務(wù)的方式已無法滿足用戶的需求,這是因?yàn)橛脩舻男畔⑿枨蟛粌H與用戶的身份、興趣、偏好等有關(guān),而且依賴于時(shí)間、地點(diǎn)、用戶任務(wù)以及用戶與系統(tǒng)的交互歷史等情景信息,后者甚至是決定用戶所需信息的關(guān)鍵因素。因此,基于情景感知提供自適應(yīng)的個(gè)性化服務(wù)是圖書館滿足用戶動(dòng)態(tài)多變信息需求的重要舉措。
3圖書館情景感知自適應(yīng)個(gè)性化服務(wù)的定位7實(shí)現(xiàn)模式
3.1 情景感知與圖書館個(gè)性化服務(wù)的契舍性分析
情景感知不僅是一種技術(shù),更是一種理念,它通過將情景信息引入推薦系統(tǒng)中,以進(jìn)一步提高個(gè)性化服務(wù)的精確度和用戶滿意度,兼具“普適計(jì)算”和“個(gè)性化”兩種優(yōu)勢(shì)。情景感知計(jì)算作為普適計(jì)算的核心領(lǐng)域之一,能夠利用人機(jī)交互或傳感器提供給計(jì)算設(shè)備關(guān)于用戶與設(shè)備環(huán)境等方面的情景信息,并讓計(jì)算設(shè)備給出相應(yīng)的反應(yīng),從而支持用戶隨時(shí)隨地、透明地獲取符合個(gè)性化需求的信息,因而為圖書館個(gè)性化服務(wù)的實(shí)現(xiàn)提供了有效的支撐。普適計(jì)算所體現(xiàn)的普適服務(wù)“無所不在”的時(shí)空特性、“自然透明”的人機(jī)交互模式以及“以人為本”的根本理念,與圖書館的用戶服務(wù)理論也是不謀而合的。
另外,用戶個(gè)性化需求的復(fù)雜、異構(gòu)、變化甚至沖突,使得用戶所處的具體環(huán)境和狀態(tài)不同,面臨的任務(wù)不同,其需求也將會(huì)不同。即使在同樣的情況下,由于用戶知識(shí)積累與偏好的不同,其所需的信息與服務(wù)也不盡相同。因此,將情景感知引入圖書館個(gè)性化服務(wù)具有重要的研究意義和實(shí)用價(jià)值,情景感知與圖書館個(gè)性化服務(wù)具有天然的契合性。
3.2圖書館情景感知自適應(yīng)個(gè)性化服務(wù)的內(nèi)涵與特征
“情景感知”自被提出之后,不同的研究者就給予其不同的定義。Dey等認(rèn)為如果一個(gè)系統(tǒng)利用情景向
用戶提供與用戶任務(wù)相關(guān)的信息或者服務(wù),那么這個(gè)系統(tǒng)就是情景感知系統(tǒng),提供的服務(wù)就是情景感知服務(wù)。萬亞紅等認(rèn)為情景感知是指系統(tǒng)利用情景信息,智能判斷用戶行為及目的并主動(dòng)提供相關(guān)信息或服務(wù),人性化調(diào)整人與情景交互的方式和內(nèi)容。
筆者以為,圖書館情景感知自適應(yīng)個(gè)性化服務(wù)是以用戶為中心,將圖書館的信息空間與用戶的物理空間相融合,將圖書館服務(wù)嵌入到用戶的活動(dòng)任務(wù)過程中,通過系統(tǒng)自動(dòng)感知實(shí)時(shí)情景,智能判斷用戶活動(dòng)行為及目的,并自適應(yīng)地調(diào)整系統(tǒng)的服務(wù)行為,以便滿足用戶動(dòng)態(tài)需求的新型服務(wù)模式。情景感知服務(wù)的目的是通過利用人機(jī)交互或傳感器提供給計(jì)算設(shè)備的各種情景信息,構(gòu)筑自動(dòng)適應(yīng)用戶及其任務(wù)需求的服務(wù)體系,使圖書館服務(wù)充分融入并逐步成為用戶信息活動(dòng)的有機(jī)組成部分。因此,這種服務(wù)具有環(huán)境導(dǎo)向性、情景適應(yīng)性、智能性、主動(dòng)性等特征。
3.3 圖書館情景感知自適應(yīng)個(gè)性化服務(wù)的實(shí)現(xiàn)模式
3.3.1 圖書館開展情景感知自適應(yīng)個(gè)性化服務(wù)涉及的問題 圖書館情景感知服務(wù)的開展依賴于情景感知技術(shù),情景感知技術(shù)涉及情景要素的界定、情景信息的獲取、情景過濾與推理、情景建模、情景管理與利用等多個(gè)方面,這些問題的有效解決是實(shí)現(xiàn)情景感知服務(wù)的關(guān)鍵。在針對(duì)圖書館個(gè)性化服務(wù)的應(yīng)用中,需要關(guān)注的情景要素包括用戶情景與資源或者服務(wù)情景。用戶情景包括用戶的身份、偏好、需求歷史、當(dāng)前的任務(wù)與活動(dòng)、周圍的環(huán)境狀態(tài)等信息。資源情景包括圖書館資源的類型、用途與所屬學(xué)科、被用戶利用的情景以及用戶使用之后的反饋和評(píng)價(jià)等信息。服務(wù)情景包括服務(wù)的特性、功能、質(zhì)量、服務(wù)狀態(tài)等信息。情景信息可以通過感知器捕獲、從已有的信息中抽取、由用戶直接設(shè)定等多種方式獲得。在情景感知服務(wù)的應(yīng)用領(lǐng)域,其主要獲取方式包括顯式獲取、隱式獲取和推理獲取。通過各種方式獲取的情景信息一般是一些原始、模糊、不精確、不穩(wěn)定甚至是沖突、不一致的數(shù)據(jù),因此需要進(jìn)行清洗、過濾、推斷、解釋和融合,以得到各種應(yīng)用所需的高層情景。
3.3.2 圖書館情景感知自適應(yīng)個(gè)性化服務(wù)的應(yīng)用模式 由于技術(shù)等方面的限制,目前情景感知服務(wù)系統(tǒng)還不能捕獲各種完整而又準(zhǔn)確的全部情景信息,完全智能化服務(wù)的實(shí)現(xiàn)還比較困難。因此,在當(dāng)前圖書館中,基于情景感知的自適應(yīng)個(gè)性化服務(wù)主要有以下三種實(shí)現(xiàn)模式:
?情景感知檢索服務(wù)。在信息搜索活動(dòng)中,無論是用戶的信息需求,還是用戶所需的各種信息,都是處于各自的情景之下的,因此有效地利用情景信息提高檢索性能,開展基于情景感知的信息檢索與信息抽取研究已經(jīng)成為信息領(lǐng)域具有挑戰(zhàn)性的一個(gè)新課題。ACM SIGIR和European Science Foundation等組織早在2004年7月的國(guó)際會(huì)議IRiX(Information Interaction inContext)上就開始討論如何利用情景信息幫助信息檢索。情景信息可以幫助確定查詢關(guān)鍵詞的意義,可以用來進(jìn)行查詢擴(kuò)展以及過濾初始的查詢結(jié)果。在當(dāng)前的圖書館信息檢索服務(wù)中,情景信息主要用于對(duì)初始的檢索結(jié)果進(jìn)行重新排序與過濾,其基本的服務(wù)過程
情景感知檢索服務(wù)綜合考慮了用戶的查詢情景、查詢?nèi)蝿?wù)、查詢條件、用戶偏好以及所需信息的情景等因素,使得用戶能夠獲得“動(dòng)態(tài)”的查詢結(jié)果,即檢索系統(tǒng)能夠根據(jù)具體的檢索情景和應(yīng)用環(huán)境,能動(dòng)地、自適應(yīng)地輸出用戶真正需要的結(jié)果,從而有效地提高個(gè)性化檢索的準(zhǔn)確性和可靠性。情景化的檢索也被認(rèn)為是信息檢索領(lǐng)域中一個(gè)長(zhǎng)期的挑戰(zhàn)。
?情景感知推薦服務(wù)?;谇榫案兄耐扑]服務(wù)和推薦系統(tǒng)的理論與方法研究在國(guó)外的許多大學(xué)和研究機(jī)構(gòu)都得到了深入的開展。ACM推薦系統(tǒng)年會(huì)(ACM Conference on Recommender Systems)從2009年開始舉辦情景感知推薦系統(tǒng)專題研討會(huì)CARS,到目前已經(jīng)舉行了三屆,對(duì)情景感知推薦系統(tǒng)領(lǐng)域中的情景建模技術(shù)、情景依賴推薦數(shù)據(jù)集、識(shí)別相關(guān)情景數(shù)據(jù)的算法、融入情景信息的推薦算法等問題進(jìn)行了廣泛的探討。2011年2月在美國(guó)舉辦的情景感知檢索與推薦專題會(huì)(Workshop 0n Context-aware Retrieval andRecommendation,CaRR)重點(diǎn)關(guān)注情景感知建模、聚類、檢索、推薦、協(xié)同過濾等主題。繼2010年情景感知的電影推薦(CAMRa2010)年會(huì)成功舉辦之后,CAM―Ra2011將與推薦系統(tǒng)年會(huì)(RecSys2011)一起舉辦,對(duì)基于情景感知的電影推薦課題中的挑戰(zhàn)進(jìn)行深入探討。情景信息在提升圖書館個(gè)性化推薦質(zhì)量方面同樣具有非常重要的作用?,F(xiàn)有的個(gè)性化推薦主要考慮用戶和資源或服務(wù)兩個(gè)方面的因素,而基于情景感知的個(gè)性化推薦不僅考慮“用戶一項(xiàng)目”二元關(guān)系,而且融人用戶的需求情景和資源或服務(wù)情景,進(jìn)行多維度的推薦,生成精確度更高的推薦服務(wù)。其基本的服務(wù)過程
在基于情景感知的圖書館推薦服務(wù)中,既通過比較資源或服務(wù)情景與用戶情景的相似度進(jìn)行內(nèi)容匹配,向用戶推薦最適合其情景的資源或服務(wù),同時(shí)又能夠根據(jù)用戶在特定情景下的行為和需求進(jìn)行用戶聚類,從而可以組成用戶社區(qū),實(shí)現(xiàn)協(xié)作推薦。當(dāng)然,情景化推薦中涉及到情景信息的有效獲取與計(jì)算、用戶情景化需求的精確提取、情景感知推薦算法以及隱私與安全等問題,因此在具體的實(shí)現(xiàn)過程中還有很多技術(shù)問題需要深入研究。
?情景感知咨詢服務(wù)。為用戶提供參考咨詢服務(wù)是圖書館的核心業(yè)務(wù)之一。然而傳統(tǒng)的咨詢服務(wù)存在以下缺陷:一是缺少對(duì)提供咨詢答案的權(quán)威性與可靠性的檢查;二是在用戶與咨詢?nèi)藛T交互過程中未考慮情景因素,導(dǎo)致對(duì)不同用戶提出的同樣問題給予統(tǒng)一的答案?;谇榫案兄膯柎鹱稍兎?wù)則綜合考慮了用戶、問題所屬領(lǐng)域、回答者、相關(guān)答案等情景因素,根據(jù)用戶提出問題時(shí)所處的位置、提問的原因、與問題相關(guān)的隱含因素、用戶特點(diǎn)、用戶先前咨詢過的問題、交互歷史等情景信息,為用戶提供量身定制的答案。將情景信息融入咨詢服務(wù)過程,在目前國(guó)內(nèi)外的咨詢服務(wù)實(shí)踐中已得到了一定的應(yīng)用。互聯(lián)網(wǎng)公共圖書館(IPL)提出一個(gè)多學(xué)科研究計(jì)劃來探索問答服務(wù)(Q―A)中情景的影響,通過在數(shù)字問答服務(wù)中充分挖掘情景因素的作用,并致力于開發(fā)一個(gè)情景敏感的網(wǎng)上參考服務(wù),以幫助用戶在一個(gè)數(shù)字圖書館中找到問題的正確答案,從而提供高效的咨詢服務(wù)。中國(guó)科學(xué)院國(guó)家科學(xué)圖書館在國(guó)內(nèi)外圖書館界首次開展9―9實(shí)時(shí)咨詢服務(wù),利用頁面共覽、嵌接和情景敏感等先進(jìn)技術(shù),將咨詢服務(wù)全程地嵌入用戶環(huán)境和流程中,實(shí)現(xiàn)向不同IP的讀者推薦相應(yīng)的學(xué)科館員或本地咨詢館員,從而提升咨詢服務(wù)的質(zhì)量和效率。這些實(shí)踐活動(dòng)為在圖書館中廣泛開展基于情景感知的咨詢服務(wù)提供了有效的參考借鑒。4結(jié)語
移動(dòng)、泛在環(huán)境的發(fā)展直接推動(dòng)了圖書館個(gè)性化服務(wù)的變革,圖書館將不再是被動(dòng)地滿足用戶的需求,而是主動(dòng)感知用戶場(chǎng)景的變化并進(jìn)行信息交互,提供智能化的自適應(yīng)服務(wù)。這種新型的服務(wù)不僅拓展了圖書館個(gè)性化服務(wù)的新模式,豐富了圖書館信息服務(wù)的理論體系,同時(shí)也能夠有效地改善用戶體驗(yàn),提升圖書館在迅速變化的信息環(huán)境下應(yīng)對(duì)危機(jī)與挑戰(zhàn)的能力,具有重要的理論和實(shí)踐價(jià)值。可以預(yù)見,以用戶為中心,具備豐富的泛在智能環(huán)境和情景感知能力,能為用戶提供迅速、快捷、高效的信息資源,提供面向用戶最佳個(gè)性化體驗(yàn)的情景感知服務(wù)將是未來圖書館信息服務(wù)的發(fā)展方向。
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:CSCD期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫