欧美日韩亚洲一区二区精品_亚洲无码a∨在线视频_国产成人自产拍免费视频_日本a在线免费观看_亚洲国产综合专区在线电影_丰满熟妇人妻无码区_免费无码又爽又刺激又高潮的视频_亚洲一区区
公務員期刊網 精選范文 數學建模聚類算法范文

數學建模聚類算法精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數學建模聚類算法主題范文,僅供參考,歡迎閱讀并收藏。

數學建模聚類算法

第1篇:數學建模聚類算法范文

關鍵詞:數據挖掘;供應商畫像;信用風險

0引言

在供應商信用風險管理過程中,充分利用好大數據是企業(yè)占領市場、獲取利潤的捷徑。將供應商數據化,即構建供應商畫像是企業(yè)對供應商信用進行有效管理的重要手段,其目的是供應商信用的全數據描述,根據價值細分供應商,了解供應商信用情況,制定精準的供應商管理方案,為供應商信用管理提供支持。本文基于對供應商的評價分析管理,通過對供應商信息風險管理中大數據的挖掘、分析,提出供應商畫像的概念,并以此為依據實現不同供應商信用分級管理,同時提出業(yè)務和系統(tǒng)的改進策略,以優(yōu)化供應商之間及供應商與電網企業(yè)之間的關系。在保證服務質量的前提下,降低供應鏈運行成本,幫助電網企業(yè)建立競爭優(yōu)勢,獲得更多的客戶滿意度。

1國內外數據挖掘技術的研究現狀

數據挖掘技術是一種對電力企業(yè)信用管理決策提供支持的技術,它主要是基于機器學習、人工智能、統(tǒng)計學等技術對大量的數據進行處理,從而做出歸納性的推理,挖掘出數據中的潛在模式,并對供應商的信用風險進行預測,從而幫助企業(yè)的決策者們及時調整市場策略以減少可能存在的風險,做出盡可能少的錯誤決策。從商業(yè)層面上來說,數據挖掘還可以描述為:按照企業(yè)既定的業(yè)務目標,對海量的業(yè)務數據進行探索和分析,從而揭示隱藏的、未知的或者驗證已知的數據的規(guī)律性,并進一步將其模型化,用戶興趣模型也就應運而生。根據已有的數據對用戶信用風險進行建模,并進行規(guī)則抽取與提煉,得到用戶的畫像。國內將數據挖掘的技術應用在電信領域的成果案例也不少。比如李軍利用數據挖掘的算法對電信行業(yè)的客戶流失模型進行建立與分析,針對不同種類的客戶分別進行了不同模型的流失分析;段云峰、吳唯寧、李劍威等在數據倉庫及電信領域的應用中,運用數據倉庫的方法對電信行業(yè)的服務客戶進行存儲管理;吳愛華在數據挖掘在客戶關系管理中的應用研究中,應用了數據挖掘的相關知識來研究數據挖掘算法在用戶關系管理中的應用;葉松云在我國電信行業(yè)客戶流失管理的建模分析及應用研究中,通過對電信行業(yè)的流失客戶進行模型建構,通過管理這個流失模型來有效控制客戶的流失。目前南方電網企業(yè)和供應商的信息交換處在一種繁雜的狀態(tài),電網企業(yè)可以對單個供應商信用情況進行信息的查詢,反饋,但很難通過獲得的信息對多個供應商信用進行有序、有效的管理。供應商的管理缺乏直觀、可視化的手段和方法。通過建立供應商模型可以將紛亂的數據進行清洗和建模,提供進一步的分析決策。

2基于大數據分析的電力企業(yè)供應商信用風險管理

根據以上分析,在電力企業(yè)供應商信用風險管理過程中,需要對收集到的供應商數據進行處理,進行行為建模,以抽象出供應商的標簽,這個階段注重的是大概率事件,通過數學算法模型來排除供應商的偶然行為,故需要運用機器對供應商的行為、偏好進行猜測,根據供應商的關注點或投標意向、投標歷史、中標情況等因素來判斷供應商的忠誠度、履約能力、信用等級等,并對供應商行為進行建模。簡單來說,供應商畫像就是通過算法計算等方式,用統(tǒng)一的標準衡量供應商的表現,并對未來發(fā)展進行預測,這是一種把單個分析集成化,把平面分析立體化的過程??梢姡诠绦庞蔑L險管理過程中,應結合供應商屬性、行為、評價標簽體系,充分研究數學算法模型,并應用Python、R等工具建模推演,構建供應商評價模型,全面刻畫供應商畫像。

2.1畫像構建與數據分析

供應商畫像模型旨在幫助管理供應商、優(yōu)化投標決策,因此畫像構建的關鍵過程在于結合實際業(yè)務情況定性地選取投標決策關心的供應商評價指標,定量化評價指標,最后選取合適的評價維度給供應商貼上標簽,通過不同維度的標簽還原供應商的“畫像”。因此,數據處理和分析建模的過程應該基于上述關鍵過程的指標數據特征以及業(yè)務分析邏輯?,F在針對供應商畫像的研究還不算特別多,我們以流行的“用戶畫像”分析進行對比,從而可以發(fā)現供應商畫像和用戶畫像有何異同,從用戶畫像當中又能尋找到什么可行的分析思路。圖1是用戶畫像的一般流程。可以發(fā)現供應商畫像與用戶畫像的建模過程本質上都是數據收集-建模-畫像成型的過程,區(qū)別只是在于:首先,畫像構建的目的不同,用戶畫像的目的是進行精準營銷,而精準營銷的建模工作是要對用戶分類后對不同類別用戶的消費行為進行預測。而供應商畫像的目的是為了精準管理、精準招標,建模工作是要對供應商分類后對不同類別的供應商進行評級。其次,畫像的標簽維度不同,標簽維度的構建同樣是從畫像構建的目的出發(fā),用戶畫像關心的是用戶的購買能力、行為特征、社交網絡等,供應商畫像關心的是供應商的商務狀況、產品質量、信用狀況。(1)數據收集。通過訪談和調研搜集數據,確定供應商指標的打分邏輯和統(tǒng)計口徑。(2)數據預處理。對收集到的數據進行清洗,目前收集到的數據量非常小,且需要進行整合、預處理,包括缺失值和異常值的處理、數據數量級的統(tǒng)一、后續(xù)分析所要進行的標準化處理。在構建供應商畫像的現有數據中,資格評審涉及的商務與技術兩大維度的數據已經根據權重進行了打分,分數的數量級為10以內,因此部分數據只需要剔除不滿足資格評審的數據(表現為所有維度都為0值)以及數值超出權重的分值。履約評價的數據有物資合同簽訂及時率(0-100%)、一次性試驗通過率(0-100%)、到貨及時率(0-100%)和不良行為記錄(分值范圍0.1-12)。對于這部分數據需要根據權值進行標準化,由于權值需要根據評價標準進一步確定,因此目前只需要將不良行為記錄的量化數值壓縮到與0-100%相同的范圍。(3)數據降維。目前的供應商信用風險評級指標過多,不能滿足供應商畫像的特征提取與分類要求,需要進行降維處理。擬采用關聯性分析和主成分分析降低指標維度,同時最大化保留原有數據的信息。在資格評審中,商務基本面信息的數據涉及15個指標,技術能力更是高達10余個,這些指標反映的意義具有較強的關聯性(共線性)且在有限的數據量的情況下變量過多將會大大降低模型的自由度從而影響精確度,因此為了滿足后續(xù)的分類和擬合要求,必須要剔除冗余變量,對指標進行降維處理。(4)特征分類。結合業(yè)務理解初步確定分類個數(供應商不同特征維度的級別個數),利用聚類分析算法對供應商不同特征維度進行分類,后續(xù)根據分類情況和數據特征適當調整分類個數。在構建標簽之前,需要對供應商進行分類,由于目前的數據是不具有分類結果標簽(y值),因此這是一個無監(jiān)督的分類問題,無法采用決策樹、神經網絡等學習類模型;又因為目前數據集的數據量非常少,需要大量訓練數據的無監(jiān)督深度學習模型也不適用,因此,針對無監(jiān)督和小樣本的特點,選用聚類分析解決分類問題。聚類試圖將數據集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個“簇”。通過這樣的劃分,每個簇可能對應一些潛在的概念(類別),如“財務狀況良好”、“技術能力強”等。不過,這些概念對于聚類算法而言事先是未知的,聚類過程僅僅能自動形成簇結構,簇對應的概念語義需要結合業(yè)務來把握和命名。常用的聚類算法有K均值算法、層次聚類算法等非常多,而針對現有的數據,K-means算法適用的情景是:簇數確定(同維度標簽評級個數確定)且較少、數據量較大;而Hierarchicalclustering適用簇數不確定(可能有一定范圍)、數據量相對大的情況。具體采用哪一種分類算法要根據數據情況以及業(yè)務分類要求和可視化要求而定。(5)分類結果檢驗。通過計算該特征維度不同類別的供應商的加權總分對分類后不同簇的供應商的總分進行統(tǒng)計上的顯著性檢驗。(6)構建畫像標簽。結合對供應商管理評級的業(yè)務理解,從數據層面分析該特征維度下不同簇的供應商的區(qū)別,并增加語義內容。

2.2設計供應商畫像

根據行業(yè)經驗及領先實踐,通過對南網供應商各類行為數據及外部數據進行數據采集、數據挖掘,結合公司戰(zhàn)略、未來發(fā)展愿景還有指標構建的一般原則,將供應商的綜合畫像構建為六大一級指標,分別為供應商資質評價、供應商履約運行評價、企業(yè)風險信用評價、社會行為與責任、供應商生態(tài)與供應商創(chuàng)新。其中最重要的企業(yè)風險信用評價指標包括企業(yè)基本風險(如企業(yè)人員變更頻率)、司法風險(開庭公告次數、法律訴訟次數)、經營風險(稅務評級等級、股權質押比率、動產抵押比率、司法拍賣事件次數、欠稅信息次數、行政處罰次數、抽檢檢查合格比率)。

第2篇:數學建模聚類算法范文

關鍵字:計量地理學;教學改革;用型人才培養(yǎng)

中圖分類號:G640文獻標識碼:A文章編號:1003-2851(2010)10-0105-02

一、引言

計量地理學又稱又稱數量地理學,應用數學方法研究地理學方法論的學科。是地理學中發(fā)展較快的新學科。它運用統(tǒng)計推理、數學分析、數學程序和數學模擬等數學工具,憑計算機技術,分析自然地理和人文地理的各種要素,以獲得有關地理現象的科學結論,在地理學的自然與人文的傳統(tǒng)領域,不斷取得開拓性研究結果。60年代末至70年代中期,多元統(tǒng)計方法和隨機過程引進地理學研究領域。70年代末期引進數據處理技術,開始研究大系統(tǒng)理論在地理環(huán)境分析中的應用,并與數據庫和信息系統(tǒng)技術相結合,深入研究地區(qū)自然、社會、經濟、人口等過程的各種數學模型,闡明地域現象的空間分布結構規(guī)律與模式,進行有關地理結構和地理組織的演繹。由于兼容并蓄了系統(tǒng)論、控制論、信息論、決策論等學科的內容和方法,從而豐富和加強了計量地理學的理論基礎。計量地理學的誕生和發(fā)展,標志著傳統(tǒng)地理學的革新[1]。

廣西北部灣經濟區(qū)的功能定位是:立足北部灣、服務“三南”(西南、華南和中南)、溝通東中西、面向東南亞,充分發(fā)揮連接多區(qū)域的重要通道、交流橋梁和合作平臺作用,以開放合作促開發(fā)建設,努力建成中國-東盟開放合作的物流基地、商貿基地、加工制造基地和信息交流中心,成為帶動、支撐西部大開發(fā)的戰(zhàn)略高地和開放度高、輻射力強、經濟繁榮、社會和諧、生態(tài)良好的重要國際區(qū)域經濟合作區(qū)。按照《廣西北部灣經濟區(qū)發(fā)展規(guī)劃》[2]所確定的產業(yè)發(fā)展目標,《人才發(fā)展規(guī)劃》重點確定了石化、林漿紙、能源、鋼鐵和鋁加工、糧油食品加工、海洋產業(yè)、高技術、物流和現代服務業(yè)等九大重點發(fā)展產業(yè)的人才需求。 現代服務業(yè),包括旅游、會展、金融等服務業(yè),2010年,旅游業(yè)人才總量約為9.85萬人,會展業(yè)人才總量約為1.4萬人,金融業(yè)人才總量約為2.7萬人。到2015年,旅游人才總量發(fā)展到12.32萬人,會展業(yè)人才總量約為2.3萬-2.8萬人,金融業(yè)人才總量約為2.98萬-3.13萬人。由此可見北部灣應用型人才培養(yǎng)破在眉睫。

二、計量地理學原有的教學理念與方法

(一)《計量地理學》課程簡介?!队嬃康乩韺W》被國家教學指導委員會列為我國綜合性大學和高等師范院校地理學專業(yè)本科生的必修課。《計量地理學》課程類別專業(yè)必修課,先修課程是線性代數、概率與數理統(tǒng)計。是地理科學、地理信息系統(tǒng)、資源環(huán)境與城鄉(xiāng)規(guī)劃管理等專業(yè)學生的專業(yè)必修課程。通過本課程的學習,首先使學生掌握在地學研究中常用的幾種定量分析方法,如相關分析、回歸分析、時間序列分析、空間統(tǒng)計分析、聚類分析、主成分分析、線性規(guī)劃、層次分析法、投入產出等方法的基本原理;其次,培養(yǎng)學生分析問題和解決實際問題的能力,使學生能夠運用有關建模技術和多種定量分析方法對資源利用、環(huán)境保護、區(qū)域發(fā)展等地理問題進行空間統(tǒng)計和決策分析。本課程所采用的配套實驗教材是由徐建華教授等編寫的《〈計量地理學〉配套實習指導》[3]。此教材分類列出了19 個實習內容,每個實習內容均以教材中例題和練習題為線索,主要使用SPSS軟件和Matlab軟件方法,并附有部分自編的Matlab6.5應用程序,供學生上機實習參考。本教材教學目標明確,可操作性強,對于學生進行實際操作起到了積極的指導作用,更有助于學生理論與實際的結合,從而切實掌握計量地理學的基本方法。本課程以院系的計算機機房作為實習基地,實驗室環(huán)境好,軟硬件設備齊全、先進,專門供學生課內外使用,從而提高學生們參與研究的積極性和主動性。

(二)日前該課程注重幾個方面的改革

(1) 教學觀念的改革。理論跟實踐相結合,解決地理問題,提高他們對軟件的應用能力、實際操作能力。培養(yǎng)大學生以數學方法為手段,注重思考,提高邏輯分析、多種方法綜合應用的能力。

(2) 教學方法的改革。課堂多媒體教學與傳統(tǒng)教學相結合,改善呆板的多媒體教學模式。

(3) 考核方式的改革。傳統(tǒng)的閉卷試卷模式已經束縛學生學習這個課的學習思想,要向作業(yè)、實踐課、課堂考多角度轉換。

(三)各大高校對《計量地理學》的改革現狀與西部教學對比。

(1) 華東師范大學的該門課程是已經申請了精品課程,實驗條件教學條件好,西部地區(qū)無法比。

(2) 有的高校采用了雙語教學有利于提高學生應用外語的能力[6],同時也引進了外國最先進的理論來支持。西部地區(qū)是教學條件相對落后的地區(qū),可以有這樣的嘗試,但是還是實實在在的理論教學和動手操作操作教學對學生的就業(yè)能力有幫助。

(3) 我國計量地理學研究取得了豐碩成果.學者從不同區(qū)域、不同視角展開討論.本文在國內關于計量地理學發(fā)展研究的基礎上,對其發(fā)展、評價及存在問題等做了探索。西部地區(qū)地理環(huán)境數據的搜集整理都比較的困難,但是很多學者都是突破困難去收集數據,但是這些有用的數據往往沒有好的方法即使處理都是學者帶回自己的實驗室完成,這樣的完成回來驗證的時候結果滯后很久了,不能及時發(fā)現地理現象的更變。

三、為了適應北部灣應用型人才培養(yǎng),針對《計量

地理學教學》的教學改革的做如下嘗試

高等教育大眾化理論是應用型人才培養(yǎng)模式改革的理論基礎,建立起與社會接軌的良性機制,建立課程類型多樣化和學習自由的原則[4],建立能實際操作的人才原則,要求我們改革勢在必行。多數教學的三大寶,課本、多媒體課件、實驗儀器或者實驗環(huán)境。課本是根基,重中重。多媒體課件是圍繞課本的一個良好的輔助教學工具。實驗儀器或者實驗環(huán)境則是對課本的具體的應用。大部分的課本離不開實驗環(huán)境?!队嬃康乩韺W》這個門課就是理論和實踐想結合的教學科目,地理學是綜合性、應用性、多科學、多領域的復雜學科。一般是按照內容的設置,案例推理教學[5],多種教學方法相結合,必須合理巧妙地運用數學工具。

第一、.開發(fā)一個跟計量地理學理論匹配的軟件,包括理論過程的變化演示。

為了滿足學生對實驗數據收集到得出結論的整個過程的演示,加深對計量地理學每一個算法和理論結論的理解和使用。應用型人才的培養(yǎng)就是要培養(yǎng)可操作性的人才,有了軟件就能更好的解釋地理變化規(guī)律的現象。大學英語這樣的課程靠聽、說、讀、寫來完成,計量學必須有軟件支持,軟件包括如下理論:

1.數據預處理算法包括:平均值(非分組和分組)、眾數(非分組和分組),中位數(非分組和分組),極差,離差,標準差、變異系數,絕對值距離、歐式距離、些方差等。

2.數據分析算法包括回歸算法,聚類算法、時間序列算法、馬爾可夫預測算法、散點圖、G統(tǒng)計,線性規(guī)劃算法等。

3.算法的分析和改進算法聚類算法的改進、最短網絡路徑算法的改進等。

本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文

4.最后制圖的圖、表、曲面分析圖包括散點轉成直線圖、聚類譜系圖、趨勢面變化圖、AHP決策分析圖、最短路徑演化圖等。

第二、軟件的開發(fā)與設計,注重參數設計環(huán)節(jié),好的參數設置,更能有好的地理解釋。

這門課有幾個重要的地理參數設置,往往很多學生不懂什么叫參數的設定,到底設定有什么好處,我們在開發(fā)軟件就是應該想到有這個設定,讓他們完全體會自己操作的一種實在感。

第三、數學建模的知識有所缺乏,應加強數學建模的思想與理念。

地理知識的積累與消化的過程是一個數據收集、數據整理、預處理、數學建模、計算機編程演算,程序驗證、數據檢驗程序,得到結論一個數據體系的反復驗證的過程,這個過程里數學建模是相當關鍵,不懂建模知識,得不到想要的結果與理論,所以多引入初級數學建模的知識,達到腦、手、眼三合一,并提高學生的反應能力。

第四、多元性、交叉性這些概念太抽象,應簡化理論。采用動態(tài)演算具體步驟的方法。

本科學生的特點是學習基礎,得到基礎知識,學會動手操作,不要太多抽象到教師的理解、表達也困難的理論,我們將實在的理論傳授給他們,通過步步演示,步步推算,深入了解計算的過程,才能激發(fā)大家對這門課的興趣,激發(fā)對數學演變過程的興趣。

第五、案例教學好,好的案例,好學生實踐做榜樣,才是完美的教學過程。

教學的案例分析是十分重要的,沒有案例的理論是空洞的理論,尤其是地理學這樣的綜合性、應用性很強的學科。對象越具體,空間數據收集越廣,教師在課堂中演示一種方法,學生在試驗的過程中演示另一種方法的嘗試,這樣有自己的體驗結果,比較算法的優(yōu)缺點,同時體驗到數學建模的優(yōu)缺點,算法直觀、易懂,更大的促進了學生的發(fā)散性思維,綜合思維得到跳躍。

第六、事物的演練過程需要記憶,有了軟件記憶效果更加明確。

不同時間的數據,通過軟件演示幾組數據的對比,減少同學們的抽象記憶,加深實際記憶,這樣教學效果更加立體凸顯。

總之,對于西部地區(qū)教學實驗條件缺乏的高校,擬采取這樣的教學措施,便于教師與學生之間交流、提高學生對知識的理解、運用、傳播。以上的教學結構模式見圖1。

圖1 教學模式結構圖圖2 軟件設計的樹狀圖

四、軟件設計方法

開發(fā)工具:vc++,數據庫采用電子表格導入形式;開發(fā)界面分為幾大模塊:預處理、各個章節(jié)的方法,后期數據幾個檢驗。學生可以在機房實驗也可以將軟件存放自己的計算機自學用,在以后的工作中使用。軟件設計的樹狀圖見圖2。

五、結束語

多媒體教學課件目前存在的弊端是教師花長時間做課件,學生看不過來,記筆記也記不過了,對知識的思考與理解都不能同步進行,教師辛苦,學生學不了知識。本文用理論、多媒體教學、多知識模塊軟件和學生理論與實踐同步的教學模式極大的解決了學生對知識掌握和使用的能力。對已經學習過該門課程畢業(yè)班的三個班級和非畢業(yè)班兩個班級的學生用新的教學模式:理論、多媒體教學、多知識模塊軟件和學生理論與實踐同步的教學模式,讓學生體檢軟件的實際演算操作,重新學習課程2個章節(jié),課后展開問卷調查,210人問卷中有效票188,中性票13,無效票9, 167票非常感興趣占90%,164票能獨立解決一些問題87%,其中141人既感興趣有能獨立解決問題占76%。該教學方法將繼續(xù)應用于下一批次的教學中,為日后的應用型人才培養(yǎng)打好基礎。

參考文獻

[1] 徐建華,計量地理學,高等教學出版社,普通高等教育“十一五”國家級規(guī)劃教材。

[2]《廣西北部灣經濟區(qū)2008-2015年人才發(fā)展規(guī)劃》。

[3] jpkc.ecnu.省略/0802/kechengjs.htm(華東師范大學精品課程網站)。

[4] 楊新軍、王寶平,大學生地理學思維方式的培養(yǎng)與計量地理學課程教學的思考,高等理科教育,2007,第三期:119-122。

[5] 陳彥光,劉繼生,地理學的主要任務與研究方法---從整個科學體系的視角看地理科學的發(fā)展[j],地理科學,2004,24(3):257-263。

第3篇:數學建模聚類算法范文

1軟測量建模方法解析

典型的軟測量模型結構如圖1所示[3].與傳統(tǒng)儀表檢測技術相比,軟測量技術具有通用性和靈活性強,易實現且成本低等優(yōu)點[1]。影響熱工過程參數軟測量精度的主要因素為數據的預處理方法、輔助變量的選擇、模型的算法和結構等[4G5].由于現場采集的數據存在一定的誤差以及儀表測量誤差等,因此在建立軟測量模型時需要對建模數據進行預處理,以消除誤差.此外,還需對算法中間及輸出結果進行有效性檢測,以避免輸出不合理的數據.另外,輔助變量需要通過機理分析進行初步確定,并且對其的選取需要考慮變量的類型、數量和測點位置等,同時需要注意輔助變量對系統(tǒng)運行經濟性、可靠性和可維護性等的影響,從而簡化軟測量模型和提高軟測量精度.輔助變量選取的最佳數量與測量噪聲、過程自由度及模型不確定性等有關,其下限值是待測主導變量的數量.所選輔助變量應與主導變量密切相關,且為與動態(tài)特性相似的可測參數,具有較強的魯棒性和抗過程輸出或不可測擾動的能力,易于在線獲取,能夠滿足軟測量的精確度要求.由于某些熱工測量對象的輔助變量類型和數量很多,且各變量之間存在耦合關系,因此為了提高軟測模型性能和精度,需對輸入輔助變量進行降維處理.由于在工業(yè)過程中通常采用同時確定輔助變量的測定位置和數量方法,因此對測點位置的選擇原則同于變量數量的選擇原則.在構建軟測量機理模型過程中,要求具有足夠多能夠反映工況變化的過程參數,并運用化學反應動力學、質量平衡、能量平衡等各種平衡方程,確定主導變量與一些可測輔助變量的關系.但是,經若干過程簡化后的軟測量機理模型難以保證測量精度,且有很多熱工過程機理尚不明確,因此難以對軟測量進行機理建模.針對復雜的非線性熱工過程,辨識建模方法通過現場數據、試驗測試或流程模擬,獲得工況變化過程中的輸入(輔助變量)和輸出(主導變量)數據,根據兩者的數學關系建立軟測量模型.該方法主要有基于統(tǒng)計分析的主元分析(PCA)法和偏最小二乘(PLA)法、基于人工智能的神經網絡(ANN)法、基于統(tǒng)計學習理論的支持向量機(SVM)法、模糊理論法等[6].

1.1主元分析方法

PCA法通過映射或變換對原數據空間進行降維處理,將高維空間中的問題轉化為低維空間中的問題,新映射空間的變量由各原變量的線性組合生成[7].降維后數據空間在包含最少變量的同時,盡量保持原數據集的多元結構特征,以提高模型精度.通常,采用該方法對現場采集的系統(tǒng)輸入輸出變量數據進行相關性分析,以優(yōu)選輔助變量集,并利用對應的輸入輸出變量建立預測模型.但是,該方法受樣本噪聲影響較大,建立的模型較難理解.PCA法基于線性相關和高斯統(tǒng)計的假設,而核主元分析(KPCA)法對非線性系統(tǒng)具有更好的特征抽取能力,因而針對飛灰含碳量等呈非線性特征的變量,基于KPCA法建立其軟測量模型,效果較好[8].

1.2偏最小二乘法PLA法

通過計算最小化誤差的平方和,匹配出數據變量的最優(yōu)函數組合,是一種數學優(yōu)化方法.該方法用最簡化的方法求出某些難以計算的數值,通常被用于曲線擬合.偏最小二乘回歸(PLSR)法建立在PCA原理上,主要根據多因變量對多自變量的回歸建模,在解決樣本個數少于變量個數問題時,特別是當各變量的線性關聯度較高時采用PLSR法建立其軟測量模型更為有效.

1.3人工神經網絡

ANN法在理論上可在不具備對象先驗知識的條件下,構造足夠的樣本,建立輔助變量與主導變量的映射關系,從而通過網絡學習獲得ANN模型.ANN由許多節(jié)點(神經元)相互連接構成,每個節(jié)點代表一個特定的輸出函數(激勵函數),2個節(jié)點間的連接代表通過該連接信號的權重(ANN的記憶).選取ANN運算模型的輔助變量和主導變量后,為使待測的主導變量近似于實際測量變量,還可利用最小二乘法、遺傳算法、聚類法等神經網絡算法訓練己知結構網絡,通過不斷調整結構的連接權值和閾值訓練出擬合度最優(yōu)的ANN模型.ANN模型采用分布式并行信息處理算法,具有自學習、自適應、聯想存儲(通過反饋網絡實現)、高速尋找優(yōu)化解、較強在線校正能力、非線性逼近等特性,其在解決較強非線性和不確定性系統(tǒng)的擬合問題具有較大優(yōu)勢[9],因此成為應用最廣泛的一種熱工過程參數軟測量建模方法.但是,神經網絡系統(tǒng)受訓練樣本質量、空間分布和訓練算法等因素影響較大,外推能力較差,受黑箱式表達方式限制,模型的可解釋性較差.當實際樣本空間超出訓練樣本空間區(qū)域時,模型輸出誤差較大.因此,實際工業(yè)過程中需定時對該方法的參數進行校正.ANN還包括反向傳播神經網絡(BP)和徑向基神經網絡(RBF).BP模型將樣本輸入輸出問題變?yōu)榉蔷€性優(yōu)化問題,采用最優(yōu)梯度下降算法優(yōu)化并迭代求得最優(yōu)值.RBF包含輸入層、隱含層(隱層)和輸出層,為3層結構,隱層一般選取基函數作為傳遞函數(激勵函數),輸出層對隱層的輸出進行線性加權組合,因此其節(jié)點為線性組合器.相比BP模型,RBF模型訓練速度快,分類能力強,具有全局逼近能力等.

1.4支持向量機法SVM法

以結構風險最小化為原則,是一種新型針對小樣本情況的機器統(tǒng)計學習方法.其需要滿足特定訓練樣本學習精度的要求和具備準確識別任意樣本的能力.該方法根據有限的訓練樣本信息盡可能尋求模型復雜性和學習能力間的最優(yōu)關系,從而有效解決了基于經驗風險最小化的神經網絡建模方法的欠學習或過學習問題[10G11],且泛化能力強,能夠保證較小的泛化誤差,對樣品依賴程度低,可以較好地對非線性系統(tǒng)進行建模和預測,是對小樣本情況分類及回歸等問題極優(yōu)的解決方法.但是,當樣本數據較大時,傳統(tǒng)訓練算法復雜的二次規(guī)劃問題會導致SVM法計算速度較慢,不易于工程應用,抗噪聲能力較差等,且參數選擇不當會使模型性能變差.目前,對SVM法還沒有成熟的指導方法,基于經驗數據建模,則對模型精度的影響較大.對于工業(yè)過程對象,許多在SVM法基礎上進行改進的算法和混合算法被用于軟測量建模,并已取得了良好的試驗效果.如基于最小二乘支持向量機(LSGSVM)法的建模方法將最小二乘線性系統(tǒng)的誤差平方和作為損失函數代替二次規(guī)劃方法,利用等式約束替代SVM法中的不等式約束.由于LSGSVM法只需求解1組線性等式方程組,因此顯著提高了計算速度和模型的泛化能力[12G13].與傳統(tǒng)SVM法相比,其訓練時間更短,結果更具確定性,更適合工業(yè)過程的在線建模.1.5模糊理論法模糊理論法根據模糊邏輯和模糊語言規(guī)則求解新的模糊結果[14].由專家構造模糊邏輯語言信息,并轉化為控制策略,從而解決模型未知或模型不確定性的復雜工業(yè)問題,尤其適合被測對象不確定,難以用數學方式定量描述的軟測量建模[15G16].模糊理論法不需要被測對象的精確數學模型,但模糊系統(tǒng)本身不具有學習功能,如果能夠將其與人工神經網絡等人工智能方法相結合,則可提高軟測量的性能.

2軟測量技術研究現狀

目前,軟測量的機理、偏最小二乘、人工神經網絡、支持向量機、模糊建模等方法均屬于全局建模方法,而這些方法均存在待定參數過多、在線和離線參數難以同時用于建模、模型結構較難確定等問題.因此,20世紀60年代末,Bates等[17]提出了將幾個模型相加的方法,該方法可以有效提高模型的魯棒性和預測精度.該方法將系統(tǒng)首先拆分為多個子系統(tǒng),然后分別對每個子系統(tǒng)建模并相加.全局模型被視為各子模型的組合,從而不僅可提高模型對熱工過程參數的描述性能,而且較單一模型具有更高的精度.通常,在多模型建模時,首先通過機理分析建立帶參數的機理模型,并利用輸入輸出數據對模型待測參數進行辨識.而對機理尚不清楚的部分,則采用數據建模,即根據輸入輸出數據構建補償器進行誤差補償.基于此,本文以主要熱工過程參數為對象,綜述軟測量技術的研究現狀.

2.1鋼球磨煤機負荷、風量和出口溫度

鋼球磨煤機(球磨機)制粉系統(tǒng)的用電量在電站廠用電中占比可高達15%.目前對球磨機煤量的測量方法有差壓法、電流法、噪音法、物位法、振動法等[18],但這些方法都難以精確地測量球磨機煤量,從而導致制粉系統(tǒng)自動控制品質欠佳,使電耗量增加.建立球磨機負荷與相關輔助變量的關系,可實現球磨機負荷、煤量的軟測量.輔助變量可選為給煤量、熱風量、再循環(huán)風量、球磨機出口溫度及出入口壓差、球磨機電流等[19].王東風和宋之平[20]采用前向復合型人工神經網絡建立了基于分工況學習的變結構式負荷模型,以測量球磨機負荷,其正常運行工況下采用延時神經網絡法負荷模型,球磨機出口煤量較小(趨于堵煤)時采用回歸神經網絡法負荷模型,并通過仿真試驗和實測數據證明了該建模方法的可行性和有效性,對運行指導也取得了較好的效果.司剛全等[21]提出了基于復合式神經網絡的球磨機負荷軟測量方法,選取球磨機噪音及出入口壓差、出口溫度、球磨機電流等作為輔助變量,獲得了球磨機負荷變化規(guī)律.趙宇紅等[22]基于神經網絡和混沌信息技術建立了球磨機出力軟測量模型,仿真結果表明該模型能夠預測穩(wěn)態(tài)和動態(tài)過程中的球磨機出力.湯健等[23]則提出了基于多源數據特征融合的軟測量方法,其采用核主元分析提取各頻段的非線性特征,建立了基于最小二乘支持向量機的模型,該算法運算精度較高.張炎欣[24]在即時學習策略建??蚣芟?首先通過灰色關聯分析方法確定主要的輔助變量,隨后采用混合優(yōu)化算法進行支持向量機模型計算,發(fā)現其結果相比標準支持向量機模型和BP神經網絡模型具有更好的預測性能.磨煤機一次風量的準確測量是確定合理風煤比,提高鍋爐燃燒效率的重要因素.因此,楊耀權等[25G26]基于BP神經網絡選取42個輔助變量建立了磨煤機一次風量的軟測量模型,通過對某電廠數據的測試,驗證了該方法較現場流量測量儀表輸出值更準確,同時基于支持向量機回歸方法建立的風量模型也較流量測量儀表的精度高,且能夠適應機組變化.此外,梁秀滿和孫文來[27]基于熱平衡原理進行了機理建模,實現了球磨機出口溫度的軟測量.

2.2煤質

電站鍋爐入爐煤質對機組安全、經濟運行影響較大.對此,劉福國等[28G29]利用煙氣成分、磨煤機運行狀態(tài)、煤灰分和煤元素成分等建立了入爐煤軟測量機理模型,實現了入爐煤質元素成分和發(fā)熱量的在線監(jiān)測.董實現和徐向東[30]利用模糊神經網絡構建辨識模型,并進行了鍋爐煤種低位發(fā)熱量模型參數的辨識,其辨識誤差在2%以內.馬萌萌[31]利用BP神經網絡法進行建模,研究了煤質元素分析,并利用遺傳算法對BP神經網絡各層連接值進行了提前尋優(yōu),結果表明經遺傳算法優(yōu)化后的模型較單純BP神經網絡模型誤差更小.巨林倉等[32]采用遺傳算法與BP網絡聯合的建模方式,分析了煤粉從制粉系統(tǒng)到完全燃燒的過程,結果表明煤質在線軟測量模型能夠有效預測煤種揮發(fā)分、固定碳含量和低溫發(fā)熱量.

2.3風煤比

電站鍋爐各燃燒器出口的風煤比不能相差太大,否則可能造成鍋爐中心火焰偏移、燃燒不穩(wěn)定、結焦等問題.對此:金林等[33]基于氣固兩相流理論進行了機理建模,根據乏氣送粉方式下風粉混合前后的壓力差計算了風煤比,通過理論推導和仿真試驗發(fā)現,風煤比計算值與混合壓差呈良好的對應關系;陳小剛和金秀章[34]通過對風煤比機理模型的研究,發(fā)現一次風與煤粉混合后管道內壓差呈明顯的線性關系;劉穎[35]將給粉機轉速、風粉混合前后動壓、風粉溫度等作為輔助變量,采用機理建模與支持向量機相結合的方法,進行風煤比軟測量建模,仿真結果顯示所建模型性能優(yōu)于RBF神經網絡模型.

2.4煙氣含氧量

目前主要使用熱磁式傳感器和氧化鋯傳感器等測量鍋爐煙氣含氧量,其存在測量誤差大、反應速度慢、成本高、使用壽命短等問題.對此,采用軟測量方法測量煙氣含氧量.鍋爐煙氣含氧量主要受煤質、煤粉未完全燃盡、爐膛漏風等因素影響,因此選取總燃料量、風機風量和電流、再熱蒸汽溫度、汽包壓力、爐膛出口煙溫、鍋爐給水流量等參數作為輔助變量.韓璞等[36]構建了電站鍋爐煙氣含氧量的復合型神經網絡軟測量模型,并在不同機組負荷下通過實測方法驗證了該模型的有效性.盧勇和徐向東[37]提出了基于統(tǒng)計分析和神經網絡的偏最小二乘(NNPLS)法建立鍋爐煙氣含氧量軟測量模型的方法,并進行了穩(wěn)態(tài)和動態(tài)建模,結果表明所建模型具有很強的泛化能力.陳敏[38]引入主元分析理論和偏最小二乘法進行了輔助變量的優(yōu)化選取,并采用BP神經網絡算法實現了對煙氣含氧量的預測分析.熊志化[39]進行了基于支持向量機的煙氣含氧量軟測量,通過8個輔助變量進行訓練,并得出優(yōu)于傳統(tǒng)氧量分析儀和RBF神經網絡模型的結論,尤其是在小樣本情況下.張倩和楊耀權[40]采用了類似的支持向量機回歸模型取得了良好的仿真結果.章云鋒[41]提出了基于最小二乘支持向量機的煙氣含氧量軟測量模型.張炎欣等[24,42]采用基于即時學習策略的改進型支持向量機建立了煙氣含氧量軟測量模型,得到了與球磨機負荷相似的結論.王宏志等[43]構建最小二乘支持向量機模型時應用粒子群算法解決了多參數優(yōu)化的問題,并將其應用于煙氣含氧量建模中后,獲得了較好的效果.趙征[44]等采用機理分析與統(tǒng)計分析相結合的建模方法,建立了一系列局部變量的軟計算模型,較好地反映煙氣含氧量的變化.

2.5飛灰含碳量

燃燒失重法是測試飛灰含碳量的傳統(tǒng)分析方法.該方法測試時間長、所得結果無法實時反映飛灰含碳量,而反射法、微波吸收法,由于缺乏在線測量技術或成本較高,難以大規(guī)模應用于在線測量[45].煤質和鍋爐運行參數是影響飛灰含碳量的主要參數,因此燃煤收到基低位發(fā)熱量、揮發(fā)分、灰分、水分,以及鍋爐負荷、磨煤機給煤量、省煤器出口煙氣含氧量、燃燒器擺動角度、爐膛風量和風壓等參數可被選為輔助變量.對灰含碳量的軟測量難以采用機理建模方法.而BP神經網絡因其強大的非線性擬合能力和學習簡單的規(guī)則等優(yōu)點被廣泛用灰含碳量的軟測量.周昊等[46]采用BP神經網絡算法建立了電站鍋爐的飛灰含碳量模型,該模型輸出結果與試驗實測結果基本吻合.李智等[47]采用BP神經網絡進行了飛灰含碳量的建模和分析,得到了良好的預測結果.趙新木等[48]選取11個輔助變量進行了改進BP神經網絡的計算和預測,并探討了燃燒器擺動角度、鍋爐燃料特性、煤粉細度、過量空氣系數等單變量對飛灰含碳量的影響.王春林等[49]和劉長良等[50]分別采用基于支持向量機回歸算法和最小二乘支持向量機算法進行建模,結果顯示支持向量機法相比BP神經網絡法等建模方法具有學習速度快、泛化能力強、對樣本依賴低等優(yōu)點.陳敏生和劉定平[8]利用最小二乘支持向量機建立了飛灰含碳量軟測量模型,并采用KPCA法提取變量特征數據處理非線性數據,通過在四角切圓燃燒鍋爐上的仿真試驗驗證了所建模型的有效性和優(yōu)越性.

2.6燃燒優(yōu)化

高效低污染是電站鍋爐燃燒優(yōu)化的目標.顧燕萍等[51]基于最小二乘支持向量機算法建立了鍋爐燃燒模型,進行了排煙溫度、飛灰含碳量、NOx排放量等參數的軟測量研究,隨后采用遺傳算法對鍋爐運行工況進行尋優(yōu),得到了燃燒優(yōu)化方案,研究結果表明該算法比BP神經網絡算法性能更優(yōu)越.王春林[11]建立了基于支持向量機,并以鍋爐主要燃燒試驗數據為輔助變量的軟測量模型,其將遺傳算法與支持向量機模型相結合,使得對飛灰含碳量、排煙溫度、NOx排放量的軟測量取得了良好的優(yōu)化效果.高芳等[52]以鍋爐熱效率和NOx排放量為輸入參數,建立了最小二乘支持向量機模型,試驗結果表明模型輸出誤差很小,良好的參數組合可為鍋爐優(yōu)化運行提供指導.

2.7其他熱工參數

對于主蒸汽溫度、汽包水位、省煤器積灰、煙氣污染物排放量等參數,學者們也進行了軟測量研究.熊志化等[53]對主蒸汽流量進行了軟測量,以給水溫度等為輔助變量的歷史數據仿真結果表明,支持向量機算法較RBF神經網絡算法具有明顯優(yōu)勢.何麗娜[54]提出了基于現場數據的神經網絡建模,與傳統(tǒng)神經網絡建模相比,無需數學表達式和傳遞函數,只需要現場數據,以主蒸汽溫度系統(tǒng)為建模對象,采用主元分析法對建模數據進行預處理,降維后,通過分析過熱器運行機理確定了輔助變量,并合理預測了主蒸汽溫度.梅華[16]提出了基于模糊辨識的自適應預測控制算法,并應用于發(fā)電廠主蒸汽溫度控制中,仿真結果表明該算法具有良好的負荷適應性.李濤永等[55]以給煤量設定值為輸入,主蒸汽壓力為輸出,利用聚類分析方法將熱工過程的非線性問題分解并轉化為若干個工況點的線性問題,得出了辨識模型及其擬合曲線.張小桃等[56]根據機組運行機理,利用主元分析法、多變量統(tǒng)計監(jiān)測理論等確定不同機組運行過程中影響汽包水位變化的主導因素.王少華[57]建立了基于機理分析與數據統(tǒng)計分析方法相結合的鍋爐汽包水位軟測量模型,試驗結果表明該模型可較好地反映鍋爐參數在典型擾動工況下的汽包水位動態(tài)特性.王建國等[58]采用機理分析建模,以省煤器進出口煙氣溫度、省煤器管壁溫度、煙氣流速等為輔助變量,對在線監(jiān)測鍋爐省煤器積灰的軟測量進行了分析.楊志[59G62]選取經遺傳算法優(yōu)化后的BP神經網絡模型對SO2排放量進行了預測研究,其選取了硫分、負荷、給煤量、過量空氣系數、排煙溫度等參數作為模型輸入變量,SO2排放量作為輸出變量,試驗結果表明該方法能夠滿足在線監(jiān)測SO2排放量的要求.

3結語

第4篇:數學建模聚類算法范文

[關鍵詞]數據挖掘;時間序列;數據庫

[DOI]10.13939/ki.zgsc.2016.03.038

在數據庫技術迅猛發(fā)展和數據庫管理系統(tǒng)日臻完善的今天,數據庫的規(guī)模與日俱增,數量不斷增多,并且這些激增的數據中包含著非常重要的信息,所以傳統(tǒng)的數據庫存儲和查詢方法已經無法滿足人們對數據中隱含知識的渴求。而時間序列數據挖掘技術則可以有效地解決上述問題,并且可以在確保數據挖掘可靠性和準確性的基礎上大大降低運行成本。因此,對于時間序列數據挖掘在實踐應用中的關鍵問題進行分析和探究具有非常重要的意義。

1 時間序列數據挖掘概述

1.1 時間序列數據挖掘的含義

通常而言,各個數據單元均可以由一個數據變量和時間變量所組成的二元組來加以表示,比如股票價格和商品的銷售金額等,所以可以將這些數據按照時間的順序加以排列,這樣就構成了所謂的時間序列數據庫。在這些時間序列數據中包含著許多未知的有用信息,具有很高的挖掘價值。而時間序列數據挖掘就是從這些大型的時間序列數據庫中找到人們所需要的各種有用數據。

1.2 時間序列數據挖掘的內容

在對當前國內外就時間序列數據挖掘方面的研究進行分析,可以將其歸納為時間序列數據變換、時間序列數據可視化、時間序列數據庫相似搜索、時間序列聚類分類分析、時間序列預測以及時間序列分割與模式發(fā)現等幾個主要的組成部分。其中的時間序列數據變換實際上就是將原始狀態(tài)下所對應的時間序列在某個特征空間下的映像時間序列來對最初的原始時間序列進行描述,其可以有效地減少計算所花費的成本,并且實際的數據壓縮率更高;時間序列數據可視化則是將那些繁雜的時間序列在數據挖掘技術、虛擬現實技術以及圖形圖像技術等先進技術的應用下而變得直觀化、形象化,以便于人們更好地理解;時間序列聚類和分類分析則是根據時間粒度和模式長度的不同而將待處理的序列數據進行適當的分割和聚類處理,以便于更好地進行分析;時間序列數據庫相似搜索則是遵循相應的搜索算法來對于那些相似性時間序列數據庫進行搜索,以避免出現漏報問題;時間序列分割與模式發(fā)現主要用于時間序列的分割算法應用中以及系統(tǒng)模型變化的檢測中,其已經成為當前我國在時間序列數據挖掘研究中的重要課題,具有很高的研究價值。

2 時間序列數據挖掘中若干關鍵問題的分析

2.1 傳統(tǒng)時間序列數據挖掘的過程和分類分析

首先,從數據挖掘的過程來講,傳統(tǒng)時間序列數據挖掘過程可以主要分成以下幾個步驟:數據準備、數據挖掘、結果分析和知識同化。其次,從數據挖掘的分類來講,時間序列數據挖掘的主要任務就是從龐大的數據庫中找尋到用戶所需的數據。根據數據挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預測性模式和關聯模式、聚類模式等描述型模式,并且描述型模式一般不能直接應用于預測。而就具體的時間序列數據挖掘的分類而言,其主要包括分類模式、關聯規(guī)則、聚類模式偏差分析、序列模式和回歸模式等幾個部分,下面就這幾個部分的主要內容進行詳細的闡述。

第一,序列模式。序列模式是數據挖掘中一個非常重要的研究課題,其已經廣泛應用于各行各業(yè)中,比如疾病診斷、DNA序列分析、自然災害預測、Web訪問模式的預測等,并且該種模式與管理規(guī)則之間比較類似,其也是重點把握數據間的聯系。但是為了發(fā)現序列模式,相關人員必須要確定事件有無發(fā)生以及事件發(fā)生的時間。比如,在購買彩色電視的人群中,有50%的人群會選擇在半年內購買影碟機。

第二,關聯規(guī)則。關聯規(guī)則又被稱為管理模式,其實際上就是形如XY的邏輯關系式,并且其中的X和Y分別代表數據庫中屬性取值的判斷。在當前的管理規(guī)則算法中,常用的關聯規(guī)則算法策略是將其分解成兩個主要的子任務,即頻繁項集的產生和規(guī)則的產生。

第三,分類模式。分類的概念實際上就是在已有訓練集或者數據集的基礎上來構造一個分類模型或者分類函數,并將其應用于實際的數據預測中來確保數據的挖掘的質量。

第四,回歸模式。與分類模式類似,回歸模式的函數定義也是借助相應的數學集合模型來表示,但是其預測值是連續(xù)的,這點與分類模式預測值的離散性是相互區(qū)別的。

第五,偏差分析。在時間序列數據庫中不可避免地會出現一些異常的記錄,找出這些異常記錄在確保數據挖掘質量方面具有重要的意義。偏差包含許多潛在的知識,比如分類中不規(guī)則的特例、反常實例或者偏差預測值過大的模型等。

第六,聚類模式。所謂的聚類實際上就是將一組時間序列數據按照差異性和相似性規(guī)程來進行合適的分類,以盡可能地減小同類別數據間的差異性,增強他們之間的相似性,提高數據挖掘的質量。

2.2 傳統(tǒng)時間序列數據挖掘的方法分析

理論上來講,傳統(tǒng)時間序列數據挖掘方法主要包括決策樹方法、神經網絡方法、粗集方法、遺傳算法、模糊集方法、統(tǒng)計分析方法、概念樹方法、可視化技術和貝葉斯網絡等幾種常用的數據挖掘方法。比如其中的神經網絡方法具有自適應性、自組織性和魯棒性好的優(yōu)勢,非常適合用于解決數據挖掘中存在的各種問題,是近些年人們關注度比較大的一種方式,并且其更加適合于當前我國市場數據庫的建模與分析;概念樹方法則是對時間序列數據庫中記錄的屬性字段按照歸類的方法進行抽象所得到的層次結構,這點與我國所指定的省市縣地區(qū)結構分布類似;可視化技術則大大拓寬了我國傳統(tǒng)圖表所具有的功能,可以使人們更加清楚地剖析時間序列數據,同時也可以更好地歸納數據中存在的規(guī)律性;粗集方法則是一種研究不確定、不精確數學知識的工具,其具有操作簡便、算法簡單等優(yōu)點,所以是當前常用的一種方法。

2.3 傳統(tǒng)時間序列數據挖掘的局限性

通常而言,建模是時間序列數據挖掘的前提和基礎,但是所建模型大都局限于常參數、平穩(wěn)的單變量CARMA模型或ARMA模型,所以實際的數據挖掘過程中可能存在一定的誤差,準確性和可靠性無法得以保證。另外,其局限性還表現為以下幾個方面:建模方法所采用的非線性最小二乘法或者最大似然法的計算量非常大,并且計算的可靠性比較低;沒有考慮到噪聲污染所對應的時間序列,即數據的濾波問題沒有得到有效地估計處理;實際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結果的可靠性和準確性,就必須要對這些局限性問題進行切實解決。而現代時間序列數據挖掘方式則可以有效地突破上述傳統(tǒng)時間序列數據挖掘中存在的種種局限點,不僅可以簡化建模及其計算的方法,也可以用新型的新息方法和狀態(tài)空間方法來取代傳統(tǒng)時間序列,還可以有效地應用自校正和自適應預測原理來分析現代時間序列,同時也可以有效地提升時間序列挖掘的質量。因此,在實際的應用中,相關人員必須要不斷發(fā)展、改造和創(chuàng)新時間序列的分析方式和手段。

總之,隨著數據收集技術和存儲技術的快速發(fā)展以及數據庫管理系統(tǒng)的日臻完善,人們所積累的數據也越來越多,同時這些與日俱增的數據背后也涵蓋了大量的重要數據信息,但是傳統(tǒng)的時間序列數據挖掘手段卻無法深入分析這些數據。因此,相關人員必須要采用現代時間序列數據挖掘手段,同時要不斷完善和創(chuàng)造新的方法,從而更好地使用當前與日增的時間序列數據。

參考文獻:

[1]劉勁松.數據挖掘中的現代時間序列分析方法[J].信息技術,2014,11(7):100-102.

第5篇:數學建模聚類算法范文

關鍵詞:R語言;數據挖掘;C4.5;Cart

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)28-0016-03

隨著互聯網社交網站的繁榮和各種網絡應用的不斷深入,社交網站已成為互聯網上的重要平臺應用。伴隨社交網絡的發(fā)展,不同地域、性格和特質的用戶群展現出了差異化的需求,面對這些群體和用戶需求,如何細分市場識別并提供差異化的服務,以幫助企業(yè)在激烈的競爭中保持老用戶,發(fā)展新用戶。本文圍繞社交網絡理論和客戶細分理論的研究,運用數據挖掘工具中的決策樹算法,對社交網絡客戶細分進行了深入的探討并最終得出可指導時間的社交網絡客戶細分規(guī)則。

1.1 R語言

R是一種在數據統(tǒng)計領域廣泛使用的語言,R語言是一種開源語言,該語言的前身是S語言,也可以說R語言是S語言的一種實現,R在語法上類似C語言。R是一個統(tǒng)計分析軟件,既可以進行統(tǒng)計分析,又可以進行圖形顯示。R能進行復雜的數據存儲和數據處理,利用數據、向量、矩陣的數學方法進行各種統(tǒng)計分析,并將統(tǒng)計分析結果以圖形方式展示出來,因此R也是一種統(tǒng)計制圖軟件。R內嵌豐富的數學統(tǒng)計函數,從而使使用者能靈活的進行統(tǒng)計分析。它可以運行于UNIX,Windows和Macintosh的操作系統(tǒng)上,而且嵌入了一個非常方便實用的幫助系統(tǒng)。

R是一種功能強大的編程語言,就像傳統(tǒng)的編程語言C和JAVA一樣,R也可以利用條件、循環(huán)等編程方法實現對數據的各種處理,從而實現數據統(tǒng)計目的。R作為一種開源的軟件,被越來越多的用來代替SAS等軟件進行數據統(tǒng)計分析。

R作為一個統(tǒng)計系統(tǒng)來使用,其中集成了用于經典和現代統(tǒng)計分析的各種算法和函數,這些算法和函數是以包的形式提供的。R內含了8個包,如果需要其他的包,可在官網上進行下載安裝。

1.2 數據挖掘

數據挖掘(Data mining),顧名思義就是從海量的數據中運用數據挖掘算法從中提取出隱含的、有用的信息。數據挖掘涉及統(tǒng)計學、人工智能和數據庫等多種學科。近年來,隨著計算機的發(fā)展,各個領域積累了海量的數據,這些數據如何變廢為寶,這就需要數據挖掘的幫助。因此數據挖掘在信息產業(yè)界廣泛應用,比如市場決策和分析、科學研究、智能探索、商務管理等。

數據挖掘是一個多學科的交叉領域,統(tǒng)計學、人工智能和數據庫等多種學科為數據挖掘提供豐富的理論基礎。包括統(tǒng)計學的概率分析、相關性、參數估計、聚類分析和假設檢驗等,以及機器學習、神經網絡、模式識別、信息檢索、知識庫、并行計算、圖形學、數據庫等。同時數據挖掘也為這些領域提供了新的挑戰(zhàn)和機遇。例如,數據挖掘提升了源于高性能(并行)計算的技術在處理海量數據集方面性能。隨著數據挖掘的蓬勃發(fā)展,近幾年分布式技術在處理海量數據方面也變得越來越重要,尤其是Hadoop的發(fā)展極大的提高了數據挖掘的并行處理效率。

數據挖掘也同時促進了數據挖掘算法的發(fā)展,數據挖掘算法是根據數據創(chuàng)建數據挖掘模型的方法和計算方法,算法將首先分析數據源提供的數據,根據數據的特點和需求建立特定的數學模型。

根據數據挖掘模型的特點,可以選擇相應的算法。在選擇算法是,可根據實際情況選擇劃分聚類的算法,或選擇決策樹的算法。選擇算法的不同可能對挖掘結果有一定的影響。

數據挖掘的步驟是首先確立挖掘目標,提出一個初步計劃,估計用到的工具和技術;第二步是數據理解,即收集原始數據,并對數據進行描述和初步探索,檢查這些數據的質量;第三步是數據準備,包括數據選擇、清洗、合并和格式化;第四步是建立數據模型,包括選擇建模技術、測試方案設計、模型訓練;第五步是模型評估,根據評估結果得出結論,確定是否部署該模型;第六步是模型部署;第七步是選擇算法;最后是得出結論。

1.3 C4.5算法

C4.5是一種機器學習的方法,在數據挖掘分類中應用廣泛,它的目標是監(jiān)督學習。C4.5是在ID3的基礎上衍生出來的。ID3是一種決策樹算法。ID3衍生出C4.5和CART兩種算法。

C4.5的算法思路是,在給定的數據集中,每一個元祖都是互斥的,每一個元組都能用一組屬性值來描述,每一個元組都屬于某一類別。C4.5的目標是通過學習,建立一個從屬性值到類別的映射關系,并且這個映射能夠指導對新的類別進行分類。

C4.5是一種決策樹算法,決策樹是一種樹結構,其中每個非葉節(jié)點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個葉節(jié)點給定一個類標記。決策樹建立起來之后,對于一個未給定類標記的元組,學習一條有根節(jié)點到葉節(jié)點的路徑,該葉節(jié)點的標記就是該元組的預測。決策樹的優(yōu)勢在于適合于探測性的知識發(fā)現。

圖1就是一棵典型的C4.5算法對數據集產生的決策樹。

表1所示,它表示的是天氣情況與去不去打高爾夫球之間的關系。

1.4 Cart算法

CART(Classification And Regression Tree),即分類回歸樹算法,該算法是一種決策樹算法,并且生成的是一棵二叉樹。Cart有兩種關鍵思想,一種是將訓練樣本進行二分遞歸分割建樹,即給定一個訓練集,用二分算法將該訓練集分成兩個子訓練集,不斷遞歸鄉(xiāng)下分割,這樣每個非葉子節(jié)點都有兩個分支,所以對于第一棵子樹的葉子節(jié)點數比非葉子節(jié)點數多1,最終形成一顆二叉樹;另一種是用驗證數據進行剪枝。

遞歸劃分法,用類別集Y表示因變量,用X1,X2,…,XP表示自變量,通過遞歸分割的方式把關于X的P維空間分割成不重疊的矩形。

CART算法是怎樣進行樣本劃分的呢?首先,一個自變量被選擇,例如Xi的一個值Si,若選擇Si把P維空間分為兩個部分,一部分包含的元素都滿足XiSi。其次把上述分割的兩部分遞歸分割,直到把X空間劃分的每個小矩形都盡可能的是同構的。

CART過程中第二個關鍵的思想是用獨立的驗證數據集對根據訓練集生長的樹進行剪枝。CART剪枝的目的是生成一個具有最小錯誤的樹,因為一方面在樹生成過程中可能存在不能提高分類純度劃分節(jié)點,如果使用這些異常數據進行分類,分類的準確性就會受到很大的影響。剪去這些異常數據的過程,被稱為樹剪枝。通過剪枝,可以去除這些孤立點和雜音,提高樹獨立于訓練數據正確分類的能力。另一方面分類回歸樹的遞歸建樹過程存在過擬合訓練數據。

CART用成本復雜性標準來剪枝。CART用的成本復雜性標準是分類樹的簡單誤分(基于驗證數據的)加上一個對樹的大小的懲罰因素。成本復雜性標準對于一個數來說是Err(T)+a|L(T)|,其中a表示每個節(jié)點的懲罰,Err(T)是驗證數據被樹誤分部分,L(T)是樹T的葉節(jié)點樹,其中a是一個變動的數字。從這個序列的樹中選擇一個在驗證數據集上具有最小誤分的樹稱為最小錯誤樹。

2 基于R語言數據挖掘算法的客戶分類

2.1 數據準備

本研究采用的社交網絡數據均來自于某論壇,本文采用LoalaSam爬蟲程序,LoalaSam是一個由c/c++開發(fā),運行在Windows平臺上的一個多線程的網絡爬蟲程序,它甚至每一個工作線程可以遍歷一個域名。LoalaSam能快速的獲取信息,圖片,音頻,視頻等資源。

通過LoalaSam對某論壇進行爬去,采用LoalaSam模仿用戶登錄,跳過驗證碼,不斷地向服務器發(fā)出請求,進入用戶界面后,并通過網頁中的超鏈接,以該用戶為根節(jié)點抓取和此用戶相關聯的所有用戶,并遞歸的不斷縱深抓取,最終形成實驗用的數據源。并將這些數據保存到Oracle數據庫中。

通過Oracle數據庫存取采集到的數據,數據庫一共使用兩張表,一張關系表friend,一個實體表user,每次抓取到的客戶信息全部存入user表中,并同時為所有好友關系在user表中進行關聯。

本文采用基于R語言的數據挖掘技術實現社交網絡的客戶細分。本文在聚類算法實現的時候創(chuàng)新性的提出一種新的聚類策略即首先通過分層聚類算法計算樣本抽樣并得出可聚類的簇數。然后將簇數傳遞給劃分聚類算法,在所有實驗樣本上進行更為精確和高效的重定位。基于此聚類結果,我們將同時采用Cart算法和C4.5算法來進行決策樹規(guī)則探索。

2.2 數據預處理

本文研究數據的預處理,從數據的抓取結果來看很多屬性類型為字符型,無論是采用數據庫系統(tǒng)還是轉換為其他形式的文件形式來存儲,挖掘算法處理起來其速度、資源消耗都不是樂觀的。因此對部分屬性就行了數字離散化處理。

2.3 PAM分類算法實證

本文在進行聚類研究的時候,采取了折中的辦法。首先利用分層方法對樣本進行聚類,得出可劃分的簇數目;進而將分層所得的簇數目以參數形式回傳劃分算法,進行迭代和重新定位。即采用DIANA算法劃分抽樣樣本,得出可劃分的簇數目K,進而將K交予PAM,以對樣本進行重新劃分定位。兩種方法協(xié)同作用,共同確立最后的劃分。

PAM算法將整個樣本劃分為4部分,在excel里利用透視表對相應type進行匯總,分別計算各個類別的平均來訪輸(Account),平均分享相冊數(Album),平均貢獻日志數(Diary),平均擁有的好友數(Frinum);Count列代表每種類別的客戶數。

PAM算法產生的四種類別:

觀察可知,絕大部分客戶集中在群組1,這個群組來訪人數和好友數較多,相冊數和日志數也處于中上游水平,在擁有相當社會資本的同時具備一定的成長潛力,是論壇的中間力量,為Diamond用戶。群組2位居第二,這群組各項指標均位于末端,也是所謂的消極客戶,稱之為Copper。群組4除日志數和好友數率高于Copper組外,其余觀察均墊底,表明這部分客戶的成長潛力和積極性都未表現出來,有可能是新加入客戶,稱之為Silver。群組3客戶人數位居最末,其余各項指標均位居第一,表明這個群組在社交網中最受歡迎,稱之為Gold。

由于只將客戶的社會屬性提取作為類別命名的依據,四個類別背后隱含其他信息均未在上述討論中,但是實際影響類別的分屬,如果研究具體挖掘各個因素對于客戶細分類別的影響,還應該通過決策樹和相應的決策規(guī)則方法。

2.4 CART策樹算法實證

CART算法采用二分遞歸分割的技術,利用GINI系數為屬性找到最佳劃分,能夠考慮每個節(jié)點都成為葉子的可能,對每個節(jié)點都分配類別。CART可以生成結構簡潔的二叉樹,但精度和效率較C$.5差。

首先進行CART算法分析,需要下載tree程序包。R語言的實現過程如下:

>library(tree) #加載程序包

>newint=read.csv(“interval.csv”) #interval為合并過類別的新表

>nt=tree(type~,new int) #調用算法對原始數據進行建樹

>summary(nt) #輸出Cart決策樹的概要

Classification tree:

Tree(formula = type ~,data = int)

我們發(fā)現Cart算法能清晰地描述出規(guī)則,并輸出一顆簡潔明了的二叉樹。上述決策樹規(guī)則中,行末標注“*”號的為最終輸出的決策樹規(guī)則。可以發(fā)現,此模型中葉節(jié)點為每一分支中y值概率最高的類別決定,最終生成了深度為5,葉節(jié)點數為15的一顆二叉樹。

第一分支是以來訪人數Account作為測試屬性的,分成Account=2.5兩枝:在Account=2.5這一枝則判斷好友數Frinum的數量。依此類推,最終得到15個葉節(jié)點和規(guī)則,節(jié)點的樣本量分布依次為1056,117,883,1107,396,845,353, 650,462,591,919,1046,451,264,370。從分類結果看,最終的錯分率(Misclassification error rate)為24%,,劃分效果上表現中規(guī)中矩。

用CART算法建立的模型結果簡單易懂,很容易被人理解,它以一種簡潔的方式解釋了為什么數據進行這樣或那樣的分類,所以當分析商業(yè)問題時,這種方法會給決策者提供簡潔的if-then規(guī)則,遠比一些復雜的方程更讓決策者接受。

2.5 C4.5決策樹算法實證

接著我們嘗試用C4.5算法得到一顆完備的決策樹。在R語言中實現C4.5算法需要用到RWeKa數據包。WeKa全名為懷卡托智能分析環(huán)境(Waikato Environment for knowledge Analisys),是一個基于Java,用于數據挖掘用于數據挖掘和知識發(fā)現的開源項目。其開發(fā)者是來自新西蘭懷卡托大學的兩名學者lanH.Witten和Eibe Frank。經過十多年年的發(fā)展歷程,WeKa是現今最完備的數據挖掘工具之一,而且被公認為是數據挖掘開源項目中最著名的一個。RWeKa為Weka的R語言擴展包,成功加載RWe卡包后就可以在R語言環(huán)境中實現Weka的數據挖掘功能。RWeka的數據挖掘功能。RWeka的安裝同樣需要一定的數據包支持,都成功導入后,程序才能正常調用。WeKa里的J48決策樹模型是對Quinlan的C4.5決策樹算法的實現,并加入了合理的剪枝過程,有非常好的精度。

以下為算法的R語言實現過程:

>library(RWeka) #加載RWeka程序包

>library(party) #加載party程序包

>inj

>summary(inj) #輸出C4.5決策樹的概要

對結果觀察發(fā)現,C4.5的決策樹效果相當好,正確分類的樣本數為10231個,準確率達到98%。聚類結果中Diamond中只有26個被錯誤預測為Gold,1個被錯誤預測為Silver,還有1個被錯誤預測為Copper。但是由于決策樹過于完備,節(jié)點和葉子都較多。實際操作的時候可視具體情況需要結合Cart和C4.5的特點進行取舍。

3 結論

隨著社交網絡的蓬勃發(fā)展,本文圍繞社交網絡理論和客戶細分理論研究,運用數據挖掘工具中的PAM聚類算法和Cart和C4.5決策樹算法,對社交網絡的客戶細分進行了深入的探討并最終得出可指導實踐的社交網絡客戶細分規(guī)則。

本文分析決策樹的過程將同時采用兩種決策樹算法,利用CART算法提供可視化的二叉樹,利用C4.5提供完備的決策樹規(guī)則。

C4.5和Cart是決策樹中比較常見的算法,C4.5具有思想簡單,構造的樹深度小、分類速度快、學習能力強、構造結果可靠等優(yōu)點,但當節(jié)點數較多時,其在決策樹規(guī)則的可視化和可理解程度方面較差。

Cart算法采用二分遞歸分割的技術,利用Gini系數為屬性找到最佳劃分,能夠考慮每個節(jié)點都成為葉子的可能,對每個節(jié)點都分配類別。Cart可以生成結構簡潔的二叉樹,但精度和效率較差。前者生成可理解的簡單的樹圖,但在劃分精度還有所欠缺;后者在劃分上產生的葉節(jié)點和規(guī)則較多,但錯分率低至2%。在實際的操作過程中,需視實際需要進行取舍。

參考文獻:

[1] 薛薇,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2007.

[2] Heather Green, Making Social Networks Profitable.BussinessWeek, Sep 2008

第6篇:數學建模聚類算法范文

關鍵詞:PEMFC系統(tǒng);結構;建模

中圖分類號:TP183

PEMFC系統(tǒng)是一種具有多輸入、多相流循環(huán)的復雜化學、電化學反應系統(tǒng),具有強非線性。從上個世紀80年代起,國外研究人員對PEMFC的數學模型進行了廣泛而深入的研究,建立了各種靜態(tài)或動態(tài)解析模型,對分析和提高PEMFC的性能起到了重要的作用。然而解析建模不得不作大量的簡化和假設,其結果模型精度極為有限,表達式過于復雜,很難用于控制系統(tǒng)的設計,特別是滿足在線控制的設計需要。模糊辨識是一種簡單靈活有效的建模方法。它首先把被控對象系統(tǒng)連續(xù)的輸入輸出變量空間采用模糊聚類方法劃分成若干相互交疊的子空間,然后將這些子空間用模糊規(guī)則聯系起來,形成一個完整的系統(tǒng)模型,被控系統(tǒng)的先驗知識很容易添加到這個模型中,從而避開被控對象的內部復雜性。本文提出了一種基于模糊神經網絡的PEMFC系統(tǒng)辨識方法對PEMFC電堆的氫氣輸入壓力、空氣輸入壓力和輸出電壓的關系進行建模。

1 燃料電池電堆的描述和分析

圖1 燃料電池工作示意圖

燃料電池的工作過程實際是電解水的逆過程。一個典型的質子交換膜燃料電池是由陰極、陽極、催化劑層、電解質隔板構成的,電池的工作原理如圖1所示。氫氣通過導氣板到達陽極,在陽極催化劑作用下,氫分子分解為帶正電的氫離子(即質子),并釋放出帶負電的電子。氫離子穿過電解質(質子交換膜)到達陰極,電子則通過外電路到達陰極。電子在外電路形成電流,通過連接向負載輸出電能。在電池的另一端,氧氣或空氣涌過導氣板到達陰極,在陰極催化劑作用下,氧與氫離子及電子發(fā)生反應生成水。

在控制過程中,氫氣和空氣的輸入壓力過大,會使得氫氣和空氣的流速過快,會使反應不完全并過多地帶走熱量,降低電池的工作溫度,從而使電池的電性能變差;而壓力過小會使得流速過慢則將無法滿足負載要求,膜溫度升高,甚至導致干膜,影響電池壽命。

2 辨識的結構與算法

利用T-S模糊模型描述復雜、病態(tài)、非線性系統(tǒng)動態(tài)特性,是一種十分有效的方法。T-S模糊模型以系統(tǒng)局部線性化為基礎,通過模糊推理實現全局的非線性,可以克服模型的高維問題,結構簡單、逼近能力強,是模糊辨識中常用模型。設計出如圖2所示的模糊神經網絡結構。由圖2可見,該網絡由前件網絡和后件網絡兩部分組成,前件網絡用來匹配模糊規(guī)則的前件,后件網絡用來產生模糊規(guī)則的后件。

(1)前件網絡。前件網絡由4層組成。第一層為輸入層。它的每個節(jié)點直接與輸入向量的各分量xi連接,它起著將輸入值x=[x1 x2…xn]T傳送到下一層的作用。該層的節(jié)點數N1=n。

第二層每個節(jié)點代表一個語言變量值,如NM、PS等。它的作用是計算各輸入分量屬于各語言變量值模糊集合的隸屬度后函數μij,即 式中,i=1,2,…n,j=1,2,…,mi;n是輸入量的維數;mi是xi的模糊分割數。例如,若隸屬函數采用高斯函數表示的鈴型函數,則 式中,cij和σij分別表示隸屬函數的中心和寬度。該層的節(jié)點總數 。

圖2 基于T-S模型的模糊神經網絡結構圖

第三層的每個節(jié)點代表一條模糊規(guī)則,它的作用是用來匹配模糊規(guī)則的前件,計算出每條規(guī)則的適應度,即 或

式中,i1∈{1,2,…,m1},i2∈{1,2,…,m2},…,in∈{1,2,…,mn},j=1,2,…m, 。

該層的節(jié)點總數N3=m。對于給定的輸入,只有在輸入點附近的語言變量值才有較大的隸屬度值,遠離輸入點的語言變量值的隸屬度或者很?。ǜ咚剐碗`屬度函數),或者為0(三角型隸屬度函數)。當隸屬度函數很?。ㄈ缧∮?.05)時,近似取為0。因此,在αj中只有少數節(jié)點輸出非0,而多數節(jié)點的輸出為0,這一點類似于局部逼近網絡。

第四層的節(jié)點數與第三層相同,N4=N3=m,它所實現的是歸一化計算,即 ,其中i=1,2,…m。

(2)后件網絡。后件網絡由r個結構相同的并列子網絡所組成,每一個子網絡產生一個輸出量。子網絡的第一層是輸入層,它將輸入變量傳送到第二層。輸入層中第0個節(jié)點的輸入值x0=1,它的作用是提供模糊規(guī)則后件中的常數項。

3 將T-S模糊神經網絡應用于PEMFC(質子交換膜燃料電池)的擬合

模糊建模方法簡單方便,只要獲得輸入輸出變量的實驗數據或專家經驗即可,無需確定機理模型中有關PEMFC材料、結構等特性的系數,通常這些系數的確定比較復雜。PEMFC是多輸入多輸出系統(tǒng),模糊建模方法能夠更方便建立多變量模型,可方便地應用于PEMFC的自動控制系統(tǒng)中。

4 結束語

本文提出了基于T-S模糊神經網絡對PEMFC電堆進行建模。采用模糊網絡的方法進行模糊辨識,同時,引入了經驗模糊規(guī)則,通過樣本訓練,從而建立了T-S模糊模型,可以快速準確地跟蹤系統(tǒng)動態(tài)。避開了系統(tǒng)內部的復雜性,得到了合理結果,證明了方法的有效性當然,PEMFC的T-S模型也存在不足,它不同于機理模型,缺乏明確的物理意義,無法反映PEMFC的內部工作特征,還需進一步完善,以建立影響因素比較全面的性能模型。

參考文獻:

[1]J.Larminie and A.Dicks.Fuel Cell Systems Explained[M].New York:Wiley,2000.

[2]K.Kordesch and G.Simader.Fuel Cells and Their Applications[M].New York:VCH,1996.

第7篇:數學建模聚類算法范文

[關鍵詞]聯通業(yè)務 客戶關系 數據挖掘

中圖分類號:TN 文獻標識碼:A 文章編號:1009-914X(2015)23-0208-01

一 概述

客戶決定企業(yè)命運。企業(yè)關注重點從產品逐步轉換到客戶,逐漸形成客戶為中心的客戶關系管理理念??蛻絷P系管理是信息技術和商業(yè)發(fā)展過程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P系管理是企業(yè)利用信息技術和企業(yè)生產銷售相結的產物??蛻絷P系管理核心價值就是實現客戶價值??蛻絷P系管理利用計算機技術,實現市場信息化、銷售自動化過程、對客戶分析的全過程??蛻絷P系管理可以使企業(yè)及時了解客戶實際情況,增強客戶對企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數據挖掘在客戶關系管理研究與實踐,大大促進客戶價值實現。數據挖掘對客戶挖掘結果會給企業(yè)帶來指導意見,決定企業(yè)未來發(fā)展方向。

聯通的客戶關系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務理念,是聯通客戶需求的風向標,它直接影響聯通如何認識客戶以及如何對待客戶, 也直接影響聯通公司的客戶服務形象。通過數據挖掘系統(tǒng)與客戶管理系統(tǒng)的結合,可以有效的實現對客戶消費模式和客戶市場推廣的分析,實現對客戶的動態(tài)防欺詐、流失分析及競爭對手分析。正確有效的運用數據挖掘意義重大。

二 數據挖掘的步驟

1.理解數據和數據的來源,進行數據收集

大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從做起。數據挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數據挖掘的過程中,有80%的時間和精力是花費在數據預處理階段,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接??梢姡谶M行數據挖掘技術的分析之前,還有許多準備工作要完成。數據收集是數據挖掘的首要步驟。

2.整合與檢查數據

收集到的數據必須是有用的,避免可能存在自身的不一致性,或者有缺失數據的存在等,因此數據的整理是必須的。同時,通過數據整理,可以對數據做簡單的泛化處理,從而在原始數據的基礎上得到更為豐富的數據信息,進而便于下一步數據挖掘的順利進行。

3.利建立模型和假設

主要采用時序算法、聚類算法、關聯算法等,根據采集數據建立模型。

4.模型評估

模型建立完畢后,需要驗證模型的正確性,并進行調整。應該利用未參與建模的數據對模型進行檢驗。這樣做的原因是按照使用建模的數據進行檢驗,由于模型就是按照這些數據建立的,檢驗結果自然會很好。但是一旦運用到實際數據中,就會產生很大的偏差。檢驗的方法是對已知客戶狀態(tài)的數據利用模型進行預測,并將所得到的模型預測值,和實際的客戶狀態(tài)相比較,預測正確值最多的模型就是最優(yōu)模型。不斷重復進行數據挖掘一評估過程,多次的循環(huán)反復,以達到預期的效果。

5.決策分析

數據挖掘的最終目的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等。

三.數據挖掘在聯通客戶管理業(yè)務中的作用

1 數據總結

數據總結目的是對大量的數據進行濃縮,將數據庫中的有關數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。是數據挖掘的基本作用。用統(tǒng)計學中的方法計算出數據庫的各個數據項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量,或者通過利用統(tǒng)計圖形工具,對數據制作直方圖、餅狀圖等,是最簡單的數據總結方法。另一種廣泛使用的數據總結方法是聯機分析處理,是對用戶當前及歷史數據進行分析、輔助領導決策,主要通過多維數據的查詢、旋轉、鉆取和切片等關鍵技術對數據進行分析和報表。

2 關聯分析

數據庫中的數據一般都存在著關聯關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。

3 分類

分析數據的各種屬性,一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中,并預測新數據將屬于哪一個組。

4 聚類

聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。

四.數據挖掘技術在聯通客戶管理管理方面的應用

1.客戶市場推廣分析

通過優(yōu)惠策略預測仿真的方法,利用數據挖掘技術實現優(yōu)惠策略的仿真。根據數據挖掘模型,進行模擬計費和模擬出賬,其仿真結果可以揭示優(yōu)惠策略中存在的問題,并進行相應的調整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。

2.客戶消費模式分析

客戶分類是客戶數據分析基礎,數據挖據對客戶分類使用聚類和分類。通過分類可以發(fā)現不同客戶群體的習慣和規(guī)律,找到客戶價值點,準確預測客戶消費方向??蛻舴诸愖屖袌鰻I銷活動更有目的性,提高市場營銷效率,企業(yè)合理配置企業(yè)資源??蛻舴诸惤Y果實現客戶利益最大化。如固話及移動話費行為分析,是對客戶歷年來長話、市話、信息臺的大量詳單數據以及客戶檔案資料等相關數據進行關聯分析,增值業(yè)務話費分析,結合客戶的分類,可以從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為聯通全業(yè)務運營商的相關經營決策提供依據。

3.客戶流失分析

這是根據已有的客戶流失數據,建立客戶屬性、服務屬性、客戶消費情況等數據與客戶流失概率相關聯的數學模型,找出這些數據之間的關系,給出明確的數學公式,并根據此模型來監(jiān)控客戶流失的可能性。如果客戶流失的可能性過高,可通過促銷等手段來提高客戶忠誠

度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現客戶關懷等狀況。

4.對客戶欠費進行分析和動態(tài)防欺詐

通過數據挖掘,總結現存的各種騙費及其欠費行為的內在規(guī)律,并建立一套防欺詐和防欠費行為的規(guī)則庫,當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關部門采取措施,從而降低運營商的損失風險。

5.競爭對手分析

準確定位通信群體的屬,預測對手市場政策和活動規(guī)律,提前做好市場競爭準備。 通過對競爭對手的客戶消費行為研究與分析,搭建競爭對手模型。通過模型研究市場,利用對競爭對手的客戶群體數量和增長情況,推出競爭對手的客戶群體。

第8篇:數學建模聚類算法范文

[關鍵詞] 數據挖掘 數據挖掘方法

隨著信息技術迅速發(fā)展,數據庫的規(guī)模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(Data Mining)技術由此應運而生。

一、數據挖掘的定義

數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發(fā)現隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數據挖掘的過程也叫知識發(fā)現的過程。

二、數據挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯規(guī)則。關聯規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現的規(guī)律和模式,是數據挖掘中最成熟的主要技術之一。關聯規(guī)則在數據挖掘領域應用很廣泛適合于在大型數據集中發(fā)現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規(guī)則挖掘算法能夠無遺漏發(fā)現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關聯規(guī)則。

3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。

5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發(fā)現分類規(guī)則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發(fā)現不準確數據或噪聲數據內在的結構聯系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。

第9篇:數學建模聚類算法范文

數據挖掘技術是當前數據庫和人工智能領域研究的熱點課題, 本文首先對數據挖掘技術的國內外總體研究情況進行概略介紹,包括數據挖掘技術產生背景、應用領域、分類;然后詳細闡述了數據挖掘的各種技術方法,并對數據挖掘的應用領域做了相關介紹。

【關鍵詞】數據挖掘 決策支持 關聯規(guī)則 模式

1 前言

數據挖掘含義是指從大量、模糊、隨機的實際應用數據中,提取隱藏在其內部中、人

們原先不知曉的、卻潛在有用的信息和知識的過程。我們把提取出的信息和知識表示為規(guī)律、概念、模式、規(guī)則等形式。數據挖掘被認為是一門跨多知識領域和學科的新興課題,它為我們使用數據從簡單查詢將變?yōu)樵跀祿锿诰蚺c發(fā)現知識從而產生對決策行為提供支持。為了能夠滿足人們從大量數據里發(fā)現知識的需求,來自不同領域的專家學者,都致力于研究這個熱點課題――數據挖掘,不斷研究和產生出新的研究成果。自從加拿大蒙特利爾在1995年召開了首屆KDD&Data Mining國際學術會議,此后每年舉辦一次。通過數年努力, 數據挖掘技術研究取得了豐碩的成果,不少數據挖掘的軟件產品,已在歐洲、北美等國家得到廣泛的應用。目前,應用廣泛的數據挖掘系統(tǒng)有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我國,數據挖掘技術的研究也取得了相當客觀的成果。

2 數據挖掘的技術方法

通常情況下,我們把數據挖掘方法分為兩大方面,一是統(tǒng)計類型,有概率分析、相

關性、聚類分析和判別分析等常用技術;二是人工智能領域中的機器學習型,通過訓練和學量的樣品集獲得需要的模式或參數。

2.1 遺傳算法

遺傳算法是基于生物進化過程組合優(yōu)化方法,它是和計算機科學與生物學結合的產物,由美國密西根大學教授D.J.Holland和他的同事們在1975年首次提出。人們總結的遺傳算法基本思想分為兩點:第一,將物種進化理論用于求解問題,物種進化又分為變異和遺傳兩個方面;第二,只有最能適應環(huán)境的物種才能生存下來,所以需要反復求解后才可以獲得最佳解。遺傳算法按照規(guī)則產生經過基因編碼最初群體,然后從代表問題可能潛在答案的初始群體出發(fā),選擇適應度強的個體進行交換和變異,目的是發(fā)現適應度更佳的個體,這樣一代代地演化,得到最優(yōu)個體,解碼,該最佳個體編碼就是對應的問題最佳解或近似最佳解。在遺傳算法的使用上,它的優(yōu)點是對問題要求信息較少,比較高效性和靈活性。在數據挖掘中,經常用于估測其它算法的適合度,同時遺傳算法擅長于數據聚類,通過和空間上類比和時間上類比,能夠使大量復雜數據系統(tǒng)化、條理化,從而找出他們之間的內在聯系,獲得有用概念和模式。

2.2 關聯分析

在大型數據庫中,關聯規(guī)則挖掘是最常見的數據挖掘任務之一。關聯規(guī)則挖掘就是從大量數據中發(fā)現項集之間的相關聯系。最著名的關聯規(guī)則挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有頻繁1-項集集合Ll,使用L1查找頻繁2-項集集合L2,繼而用L2用于L3,反復迭代,一直到不能找到頻繁k-項集。并利用事先設定好的最小支持度閾值進行篩選,將小于最小支持度的候選項集刪除,再進行下一次的合并生成該層的頻繁項集。經過篩選可減少候選項集數,從而加快關聯規(guī)則挖掘的速度。

2.3 決策樹

決策樹算法之所以在數據分析挖掘應用中如此流行,主要原因在于決策樹的構造不需要任何領域的知識,很適合探索式的知識發(fā)掘,并且可以處理高維度的數據。在眾多的數據挖掘、統(tǒng)計分析算法中,決策樹最大的優(yōu)點在于它所產生的一系列從樹根到樹枝(或樹葉)的規(guī)則,可以很容易地被分析師和業(yè)務人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現成的可以應用的業(yè)務優(yōu)化策略和業(yè)務優(yōu)化路徑。另外,決策樹技術對數據的分布甚至缺失非常寬容,不容易受到極值的影響。

國際上最有影響的決策樹方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特點在于自變量的挑選標準是:基于信息增益的度量選擇具有最高信息增益的屬性作為結點的分裂(分割)屬性,其結果就是對分割后的結點進行分類所需的信息量最小,這也是一種劃分純度的思想。

決策樹技術在數據化運營中的主要用途體現在:作為分類、預測問題的典型支持技術,它在用戶劃分、行為預測、規(guī)則梳理等方面具有廣泛的應用前景,決策樹甚至可以作為其他建模技術前期進行變量篩選的一種方法,即通過決策樹的分割來篩選有效地輸入自變量。

2.4 粗糙集方法

粗糙集理論定位為一種刻劃不確定性和不完整性的數學工具,可以有效地分析和處理不一致、不精確、不完整等信息,以從中發(fā)現隱藏的不為所知的知識,揭示潛在的規(guī)律。該理論是由波蘭學者Z.Pawlak教授在1982年提出的,從1992年至今,每年召開以RS為主題的國際會議,推動了RS理論的拓展和應用。

粗糙集是處理模糊數據的有力工具,而要達到這樣的目的需要有兩個重要的步驟來進行處理―屬性約簡和值約簡,屬性約簡是對粗糙集合(那些不能區(qū)分的集合)進行縱向的簡化,把不必要的屬性去掉,即去掉這些屬性也不會影響對象的區(qū)分能力,這樣便于以后進一步的簡約處理

由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點就是直接對數據進行分析和推理,從中發(fā)現隱含的知識,揭示潛在的規(guī)律,因此是一種天然的數據挖掘或者知識發(fā)現手段,與基于證據理論的數據挖掘方法、基于模糊理論的數據挖掘方法、基于概率論的數據挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數據集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強的互補性。

2.5 神經網絡

人工神經網絡(Artificial Neural Networks)是指能夠模仿人腦神經元聯接結構特征并且進行分布式并行信息處理的數學模型。根據人腦的神經元的原理所產生的人工神經網絡能夠通過不斷修正其內部的節(jié)點間相互連接的關系達到處理信息的目的。BP(Back Propagation)網絡,也稱為誤差反向傳播算法,是目前使用較多也比較成熟的神經網絡算法, 1985 年Rumelhart 等人提出,它的實質是通過誤差反向傳播算法訓練數據的多層前饋神經網絡,是目前應用最為廣泛的神經網絡模型。BP 神經網絡能夠學習和存儲大量輸入-輸出模式映射關系,而且還并不需要預先揭示表現此種映射關系數學模型。它采用的學習規(guī)則是最速下降法,主要利用反向傳播不斷修訂網絡的權值和閾值,達到建立的神經網絡誤差的平方和最小。在數據挖掘中,神經網絡主要用于獲取分類模式。BP 神經網絡能夠用來聚類、分類和預測等,通常只需要一定歷史數據,即把訓練樣本作設為輸入,便能夠對訓練樣本訓練,通過學習與存儲該數據樣本中隱含的知識信息后,能夠為后面的數據分析提供必要有用的知識。但是神經網絡分類方法獲得的模式常常隱藏在網絡結構中,不能夠顯示地表達成為一定的規(guī)則,所以不容易被人們理解和解釋;而且還需要多次掃描訓練數據,網絡需要的訓練時間較長。所以與其他數據挖掘方法相比較,神經網絡用于數據挖掘,要解決好兩個關鍵點:降低不必要的訓練時間,增強挖掘結果的可理解性。

2.6 模糊技術

模糊數據挖掘技術是通過利用原有數據挖掘技術同時,與模糊理論相結合,以期從大量數據中發(fā)現更為廣泛的內容,其挖掘結果將會使用戶更容易理解。由于現實生活中,數據之間的關系往往表現為模糊性,因此將模糊理論與數據挖掘技術結合從海量的、不完全的、隨機的、含噪聲的模糊數據中提取潛在的、未知即通過模糊集合理論對問題模糊評判、模糊決策、模糊模式識別和模糊聚類分析。因為模糊性是客觀存在,而且系的復雜性越高,模糊性就越強,通常模糊集合理論是用隸屬度來描述模糊事物,所以它為數據挖掘提供了概念和知識的表達、定性定量的轉換、概念綜合和分解方法。

2.7 可視化技術

可視化技術是指采用計算機圖形學和圖像處理技術,把數據轉換成圖形或圖像并且在屏幕上顯示出來,從而進行交互處理技術。它將信息的模式、數據關聯和趨勢展示給決策者,決策者能夠通過可視化的技術來交互分析數據之間的關系??梢暬夹g實現過程由四個步驟組成:數據預處理、映射、繪制和顯示。數據預處理階段,針對各不相同的可視化方法和內容,要求對最初數據進行變換處理,設置數據格式和標準,并且要數據壓縮和解壓縮;在映射階段,針對不同類型的應用數據,使用不同的映射技術把數值數據轉換成幾何數據;在繪制階段將幾何數據繪制成目標圖像;在顯示階段,將圖像數據按用戶要求進行輸出。在整個過程中,映射功能完成數據的建模功能,是核心。模型可視化的具體方法則與數據挖掘采用算法相關聯,如,決策樹算法用樹形表示;過程可視化可以用數據流圖來描述知識發(fā)現過程。

3 數據挖掘應用

數據挖掘技術是面向應用的。數據挖掘的研究有利地促進了數據挖掘技術應用的發(fā)展與推廣。隨著研究的深入,數據挖掘技術的應用越來越廣泛。主要集中在以下幾方面:

3.1 金融業(yè)

數據挖掘技術用于銀行行業(yè)的存/貸款趨勢預測,優(yōu)化存/貸款策略和投資組合。

3.2 生物信息

在基因工程中的染色體、基因序列的識別分析、基因表達路徑分析、基因表達相似性分析、以及制藥、生物信息和科學研究等。

3.3 零售業(yè)

數據挖掘技術被用來進行分析購物籃來協(xié)助貨架設置,安排促銷商品組合和促銷時間商業(yè)活動。

3.4 客戶關系管理

數據挖掘技術被用于分析客戶的行為,分類客戶,以此進一步針對客戶流失、客戶利潤、客戶響應等方面進行分析,最終改善客戶關系管理。

3.5 電子商務

數據挖掘技術被用于在線交互式營銷系統(tǒng)的經營模式、市場策略、Web廣告效果分析以及在線購物的消費者行為分析,從而優(yōu)化網站結構,改善網頁推薦和商品推薦內容等。

4 結語

綜上, 數據挖掘涵蓋多種理論和技術,有著廣泛應用前景。深入分析研究數據挖掘,應用數據挖掘技術將是我們未來努力的方向。

參考文獻

[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.

[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.

[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.

[4]陸汝鈐.人工智能.北京:科學出版社, 1996:823-844.

[5]曾黃麟.粗集理論及其應用[M].重慶:重慶大學出版社,1996.

[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.

[7]何新貴.數據采掘中的模糊技術[J].計算機科學,1998,25(???29-131.

[8]萬家華,劉冰,江早.知識發(fā)現中的可視化技術[J].計算機科學,2000,27(增刊):131-134.

作者簡介

王雅軒(1969-),女,研究生學歷?,F為大連外國語大學教授。主要研究方向為軟件理論與應用。

頊聰(1977-)男,研究生學歷?,F為大連外國語大學講師。主要研究方向為智能軟件。

久久九九热精品免费| 无遮挡黄片免费观看| 99精品欧美一区二区三区四区| 人成视频在线观看免费观看| 亚洲欧美精品综合久久99| 成人精品一区二区免费| 国产精品影院久久| 亚洲无线在线观看| 免费在线观看成人毛片| 亚洲在线自拍视频| 久久香蕉精品热| av欧美777| 搡老妇女老女人老熟妇| 最新在线观看一区二区三区| 色综合婷婷激情| 精品国产亚洲在线| 两个人免费观看高清视频| 中文字幕另类日韩欧美亚洲嫩草| 午夜激情福利司机影院| 精品国内亚洲2022精品成人| 免费在线观看影片大全网站| 亚洲精品美女久久av网站| 一区二区三区精品91| 久久伊人香网站| 在线十欧美十亚洲十日本专区| 免费看a级黄色片| 国产精品爽爽va在线观看网站 | 久久热在线av| 欧美亚洲日本最大视频资源| 国产私拍福利视频在线观看| 久久九九热精品免费| 真人做人爱边吃奶动态| 免费看a级黄色片| 亚洲狠狠婷婷综合久久图片| 女人被狂操c到高潮| 黑人操中国人逼视频| 久久精品人妻少妇| 亚洲av电影在线进入| 女警被强在线播放| 搡老熟女国产l中国老女人| 自线自在国产av| 在线天堂中文资源库| 欧美色视频一区免费| 淫妇啪啪啪对白视频| 亚洲成人免费电影在线观看| 久久精品国产清高在天天线| 一本一本综合久久| 日日摸夜夜添夜夜添小说| 在线观看www视频免费| 91麻豆精品激情在线观看国产| 亚洲国产欧美一区二区综合| 色尼玛亚洲综合影院| 777久久人妻少妇嫩草av网站| 午夜福利欧美成人| 18美女黄网站色大片免费观看| 欧美另类亚洲清纯唯美| 国产亚洲av高清不卡| 亚洲激情在线av| 又大又爽又粗| 国产成人av激情在线播放| 夜夜看夜夜爽夜夜摸| 在线永久观看黄色视频| 午夜福利视频1000在线观看| 亚洲在线自拍视频| 久久精品人妻少妇| 亚洲精品中文字幕一二三四区| 两人在一起打扑克的视频| 国产亚洲精品综合一区在线观看 | 国产午夜精品久久久久久| 亚洲成av人片免费观看| 日日爽夜夜爽网站| 久久国产乱子伦精品免费另类| 欧美日韩亚洲综合一区二区三区_| 国产日本99.免费观看| 99久久99久久久精品蜜桃| 免费看a级黄色片| 丝袜美腿诱惑在线| 久久草成人影院| 亚洲最大成人中文| 久久精品国产清高在天天线| 一本一本综合久久| 国产成+人综合+亚洲专区| 亚洲国产精品999在线| 搡老妇女老女人老熟妇| 欧洲精品卡2卡3卡4卡5卡区| 亚洲 欧美 日韩 在线 免费| 国产三级黄色录像| 桃色一区二区三区在线观看| 久热爱精品视频在线9| 国产蜜桃级精品一区二区三区| 又大又爽又粗| 中文字幕高清在线视频| 精华霜和精华液先用哪个| 最近最新中文字幕大全免费视频| 久久热在线av| 国产男靠女视频免费网站| 精品国产乱码久久久久久男人| 久久精品国产99精品国产亚洲性色| 天天一区二区日本电影三级| av欧美777| 这个男人来自地球电影免费观看| 日日爽夜夜爽网站| 国产不卡一卡二| 啪啪无遮挡十八禁网站| 黄色a级毛片大全视频| 亚洲成人久久性| 国产精品日韩av在线免费观看| 午夜老司机福利片| 欧美国产精品va在线观看不卡| 久久亚洲精品不卡| 精品欧美国产一区二区三| 看免费av毛片| 亚洲国产精品999在线| 国产精品久久久久久人妻精品电影| 亚洲国产精品久久男人天堂| 国产高清视频在线播放一区| 日韩视频一区二区在线观看| 国内久久婷婷六月综合欲色啪| 黑人巨大精品欧美一区二区mp4| 91麻豆精品激情在线观看国产| 欧美成狂野欧美在线观看| 啦啦啦韩国在线观看视频| 日韩精品青青久久久久久| 99国产综合亚洲精品| 色综合欧美亚洲国产小说| 免费无遮挡裸体视频| 丰满的人妻完整版| 欧美日韩一级在线毛片| 亚洲va日本ⅴa欧美va伊人久久| 久热这里只有精品99| 两性夫妻黄色片| 黄色毛片三级朝国网站| 亚洲精品久久成人aⅴ小说| 禁无遮挡网站| 色播在线永久视频| 一进一出好大好爽视频| av福利片在线| 亚洲一区中文字幕在线| 在线免费观看的www视频| 久9热在线精品视频| 人人妻人人看人人澡| 搡老岳熟女国产| a级毛片在线看网站| 黄色a级毛片大全视频| 久久欧美精品欧美久久欧美| 欧美成人性av电影在线观看| 国产成人av激情在线播放| 久久久久亚洲av毛片大全| 满18在线观看网站| 欧美一级a爱片免费观看看 | 欧美日韩乱码在线| 久久久久久久久免费视频了| 最好的美女福利视频网| 一本久久中文字幕| 亚洲 欧美一区二区三区| av中文乱码字幕在线| 99国产精品一区二区蜜桃av| 国产激情欧美一区二区| avwww免费| 精品欧美国产一区二区三| 中文资源天堂在线| 久久中文看片网| 欧美日韩福利视频一区二区| 欧美国产精品va在线观看不卡| 国产精品,欧美在线| 精品熟女少妇八av免费久了| 不卡av一区二区三区| 在线永久观看黄色视频| 亚洲人成伊人成综合网2020| 亚洲成人免费电影在线观看| 久久人妻福利社区极品人妻图片| 九色国产91popny在线| 亚洲人成77777在线视频| 一卡2卡三卡四卡精品乱码亚洲| 国产精品免费视频内射| 国产精品精品国产色婷婷| 午夜久久久在线观看| 国产一区二区三区视频了| 国产精品精品国产色婷婷| 国产精品 欧美亚洲| 夜夜看夜夜爽夜夜摸| 亚洲av日韩精品久久久久久密| 午夜福利成人在线免费观看| 好男人电影高清在线观看| 久久精品国产99精品国产亚洲性色| 国产精品亚洲美女久久久| 免费av毛片视频| www日本黄色视频网| 十八禁人妻一区二区| 热re99久久国产66热| 亚洲真实伦在线观看| 亚洲国产欧美一区二区综合| 好看av亚洲va欧美ⅴa在| 婷婷六月久久综合丁香| 黄色片一级片一级黄色片| 婷婷亚洲欧美| 午夜福利免费观看在线| 老司机福利观看| 久久久久久免费高清国产稀缺| 免费高清在线观看日韩| 精品久久久久久久久久久久久 | 一本久久中文字幕| 欧美国产精品va在线观看不卡| 日本精品一区二区三区蜜桃| 法律面前人人平等表现在哪些方面| 色哟哟哟哟哟哟| 午夜亚洲福利在线播放| 看片在线看免费视频| 99re在线观看精品视频| 午夜老司机福利片| 色哟哟哟哟哟哟| 日本a在线网址| 日本一本二区三区精品| 久久国产亚洲av麻豆专区| 亚洲精品久久成人aⅴ小说| 亚洲成人久久爱视频| 激情在线观看视频在线高清| 19禁男女啪啪无遮挡网站| 人妻久久中文字幕网| 成人av一区二区三区在线看| 欧美黑人巨大hd| 人人妻人人看人人澡| 精品国产美女av久久久久小说| 三级毛片av免费| 亚洲精品一卡2卡三卡4卡5卡| 露出奶头的视频| 日本在线视频免费播放| 久久欧美精品欧美久久欧美| 国产欧美日韩一区二区精品| 又紧又爽又黄一区二区| 国产伦人伦偷精品视频| 国产1区2区3区精品| av欧美777| 中文字幕精品亚洲无线码一区 | 国内毛片毛片毛片毛片毛片| 国产99久久九九免费精品| 国产一区在线观看成人免费| 久久这里只有精品19| 变态另类成人亚洲欧美熟女| 两个人视频免费观看高清| 欧美色视频一区免费| 美女国产高潮福利片在线看| a级毛片a级免费在线| 正在播放国产对白刺激| 欧美日本亚洲视频在线播放| 可以在线观看的亚洲视频| 国语自产精品视频在线第100页| 久久久国产精品麻豆| www.熟女人妻精品国产| 精华霜和精华液先用哪个| 久99久视频精品免费| 国产黄片美女视频| 叶爱在线成人免费视频播放| 中文字幕av电影在线播放| 在线永久观看黄色视频| 欧美中文日本在线观看视频| 亚洲 国产 在线| 久久久久国内视频| 婷婷亚洲欧美| 免费高清在线观看日韩| 久久国产亚洲av麻豆专区| 亚洲成人国产一区在线观看| 色尼玛亚洲综合影院| 久久久国产欧美日韩av| 一本一本综合久久| 成人特级黄色片久久久久久久| 亚洲欧美一区二区三区黑人| 色播在线永久视频| 亚洲中文av在线| 久久久久精品国产欧美久久久| 免费看a级黄色片| 好男人在线观看高清免费视频 | 亚洲成av人片免费观看| 中文亚洲av片在线观看爽| 搡老妇女老女人老熟妇| 亚洲av片天天在线观看| 国产精品九九99| 伦理电影免费视频| 日本 av在线| e午夜精品久久久久久久| 国产一区二区三区视频了| 国产精品 国内视频| 韩国av一区二区三区四区| 亚洲久久久国产精品| 日韩欧美在线二视频| 亚洲精品一区av在线观看| 精品欧美国产一区二区三| 亚洲精品一卡2卡三卡4卡5卡| 国产亚洲精品久久久久5区| 精品久久久久久久人妻蜜臀av| 国产私拍福利视频在线观看| 精品久久久久久久久久久久久 | 免费在线观看亚洲国产| 午夜福利高清视频| tocl精华| 在线观看www视频免费| 免费搜索国产男女视频| 亚洲午夜精品一区,二区,三区| a级毛片a级免费在线| 久久青草综合色| 免费电影在线观看免费观看| 美女扒开内裤让男人捅视频| 中文字幕人成人乱码亚洲影| 成年女人毛片免费观看观看9| 亚洲av成人不卡在线观看播放网| 精品熟女少妇八av免费久了| 老熟妇仑乱视频hdxx| 18禁裸乳无遮挡免费网站照片 | 嫩草影院精品99| 久久青草综合色| 欧美激情 高清一区二区三区| 欧美成人免费av一区二区三区| 老熟妇仑乱视频hdxx| 青草久久国产| 国产精品98久久久久久宅男小说| 国产精品 国内视频| 色婷婷久久久亚洲欧美| 国产精品精品国产色婷婷| 国产激情偷乱视频一区二区| 天堂√8在线中文| 伦理电影免费视频| 91麻豆精品激情在线观看国产| 熟女少妇亚洲综合色aaa.| 男女午夜视频在线观看| 夜夜夜夜夜久久久久| 日本免费一区二区三区高清不卡| 69av精品久久久久久| 久久热在线av| 深夜精品福利| 久久久久国产一级毛片高清牌| 麻豆成人av在线观看| 日本免费a在线| 久久久久久久久中文| 19禁男女啪啪无遮挡网站| 夜夜躁狠狠躁天天躁| 久久天堂一区二区三区四区| 亚洲av中文字字幕乱码综合 | 搡老熟女国产l中国老女人| 成人免费观看视频高清| 可以在线观看毛片的网站| 午夜免费观看网址| 久久热在线av| 久久精品国产清高在天天线| xxx96com| 他把我摸到了高潮在线观看| 国产aⅴ精品一区二区三区波| 久久精品夜夜夜夜夜久久蜜豆 | 人人澡人人妻人| 国产精品免费一区二区三区在线| 中文字幕最新亚洲高清| 色综合亚洲欧美另类图片| 欧洲精品卡2卡3卡4卡5卡区| 色综合亚洲欧美另类图片| 国产精品 欧美亚洲| 久久精品夜夜夜夜夜久久蜜豆 | 亚洲欧美日韩高清在线视频| 亚洲精品美女久久久久99蜜臀| 国产片内射在线| 草草在线视频免费看| √禁漫天堂资源中文www| 欧美在线黄色| www国产在线视频色| 精品久久久久久,| 桃色一区二区三区在线观看| 丁香欧美五月| 成年女人毛片免费观看观看9| 天天躁狠狠躁夜夜躁狠狠躁| 精品久久蜜臀av无| 久久精品夜夜夜夜夜久久蜜豆 | 免费在线观看日本一区| 久久久水蜜桃国产精品网| 国产99久久九九免费精品| 老汉色av国产亚洲站长工具| 日日摸夜夜添夜夜添小说| 女生性感内裤真人,穿戴方法视频| 日日夜夜操网爽| 哪里可以看免费的av片| 久久久久久久久中文| 精品久久久久久久毛片微露脸| 波多野结衣巨乳人妻| 色综合站精品国产| 亚洲午夜理论影院| 国产精品九九99| 成人精品一区二区免费| 欧美日韩亚洲综合一区二区三区_| 美国免费a级毛片| 日本免费a在线| 不卡av一区二区三区| av视频在线观看入口| 激情在线观看视频在线高清| 这个男人来自地球电影免费观看| 国产99白浆流出| 欧美乱妇无乱码| 国产成人欧美| 一级作爱视频免费观看| 欧美又色又爽又黄视频| 成年女人毛片免费观看观看9| 啦啦啦免费观看视频1| 美女扒开内裤让男人捅视频| 国产91精品成人一区二区三区| 精品久久久久久久久久久久久 | 99热这里只有精品一区 | 少妇 在线观看| 久久久久九九精品影院| 欧美亚洲日本最大视频资源| 国产成人一区二区三区免费视频网站| 国产三级在线视频| 美女扒开内裤让男人捅视频| 宅男免费午夜| 国产精品一区二区免费欧美| 国产精品日韩av在线免费观看| 色综合婷婷激情| 国内毛片毛片毛片毛片毛片| 白带黄色成豆腐渣| 日韩大码丰满熟妇| 久久婷婷成人综合色麻豆| 亚洲成人久久爱视频| 人人妻,人人澡人人爽秒播| 欧美丝袜亚洲另类 | 一进一出抽搐gif免费好疼| 人人妻人人澡人人看| 午夜免费成人在线视频| 91麻豆av在线| 男女做爰动态图高潮gif福利片| 午夜久久久久精精品| 国产成年人精品一区二区| 窝窝影院91人妻| a级毛片a级免费在线| 中文字幕精品免费在线观看视频| 亚洲精华国产精华精| 黄网站色视频无遮挡免费观看| 两性夫妻黄色片| 18禁观看日本| 国产日本99.免费观看| 国产又爽黄色视频| 国产aⅴ精品一区二区三区波| 亚洲av成人av| 麻豆一二三区av精品| 久久人妻福利社区极品人妻图片| 国产乱人伦免费视频| 一本久久中文字幕| 欧美+亚洲+日韩+国产| 女人被狂操c到高潮| 国内揄拍国产精品人妻在线 | 男人舔女人下体高潮全视频| 九色国产91popny在线| 国产午夜精品久久久久久| 中文资源天堂在线| 不卡av一区二区三区| 成人午夜高清在线视频 | 黄色片一级片一级黄色片| 午夜福利18| 成熟少妇高潮喷水视频| 欧美黄色片欧美黄色片| 波多野结衣巨乳人妻| 免费女性裸体啪啪无遮挡网站| 成年版毛片免费区| 男人操女人黄网站| 2021天堂中文幕一二区在线观 | 亚洲av成人av| av电影中文网址| cao死你这个sao货| 妹子高潮喷水视频| 国产亚洲欧美98| 久热这里只有精品99| 国内精品久久久久精免费| 嫩草影院精品99| 曰老女人黄片| 欧美色视频一区免费| 亚洲真实伦在线观看| 欧美日韩亚洲国产一区二区在线观看| 久久久久久久久久黄片| 色播在线永久视频| 久久亚洲真实| 亚洲中文字幕一区二区三区有码在线看 | 亚洲真实伦在线观看| 美女扒开内裤让男人捅视频| 久久精品影院6| 国产伦一二天堂av在线观看| 麻豆av在线久日| 欧美一区二区精品小视频在线| 国产亚洲欧美98| 草草在线视频免费看| 精品国内亚洲2022精品成人| 搡老妇女老女人老熟妇| 动漫黄色视频在线观看| 99热6这里只有精品| 美女大奶头视频| 欧美大码av| 久久久久久大精品| 曰老女人黄片| 99精品久久久久人妻精品| 亚洲国产精品sss在线观看| 正在播放国产对白刺激| 露出奶头的视频| 国产乱人伦免费视频| 麻豆成人午夜福利视频| 丁香欧美五月| 国内精品久久久久精免费| 国内毛片毛片毛片毛片毛片| 久久香蕉精品热| 免费在线观看成人毛片| 国产精品久久久人人做人人爽| 免费在线观看日本一区| 两个人视频免费观看高清| 在线观看www视频免费| 欧美色欧美亚洲另类二区| 国产精品久久久人人做人人爽| 国产精品野战在线观看| 亚洲黑人精品在线| 天天躁夜夜躁狠狠躁躁| www.精华液| 免费高清视频大片| 无限看片的www在线观看| 丝袜人妻中文字幕| 此物有八面人人有两片| 国产成人啪精品午夜网站| 国产欧美日韩精品亚洲av| 两性午夜刺激爽爽歪歪视频在线观看 | 欧美日韩福利视频一区二区| 国产又色又爽无遮挡免费看| 又大又爽又粗| 女人高潮潮喷娇喘18禁视频| 一本精品99久久精品77| 欧美性猛交╳xxx乱大交人| 国产精品免费视频内射| 三级毛片av免费| 草草在线视频免费看| 看片在线看免费视频| 免费搜索国产男女视频| 亚洲全国av大片| 亚洲avbb在线观看| 女性生殖器流出的白浆| 一级a爱视频在线免费观看| 热99re8久久精品国产| 国内揄拍国产精品人妻在线 | 99热只有精品国产| 中文字幕精品免费在线观看视频| 给我免费播放毛片高清在线观看| 亚洲精品一区av在线观看| 欧美大码av| av在线天堂中文字幕| 中文亚洲av片在线观看爽| 亚洲免费av在线视频| 99热只有精品国产| 日韩国内少妇激情av| 好男人在线观看高清免费视频 | 50天的宝宝边吃奶边哭怎么回事| 精品免费久久久久久久清纯| 悠悠久久av| 亚洲av电影不卡..在线观看| 亚洲精品粉嫩美女一区| 亚洲色图av天堂| 热99re8久久精品国产| 他把我摸到了高潮在线观看| 韩国av一区二区三区四区| 男人的好看免费观看在线视频 | 黄频高清免费视频| 免费在线观看影片大全网站| 熟女少妇亚洲综合色aaa.| 琪琪午夜伦伦电影理论片6080| 手机成人av网站| 免费在线观看黄色视频的| 午夜a级毛片| 看黄色毛片网站| 丝袜人妻中文字幕| 亚洲成人精品中文字幕电影| 啦啦啦观看免费观看视频高清| 欧美zozozo另类| 天天躁夜夜躁狠狠躁躁| 亚洲欧洲精品一区二区精品久久久| 99国产综合亚洲精品| 亚洲中文字幕一区二区三区有码在线看 | 日韩欧美免费精品| 不卡一级毛片| 可以免费在线观看a视频的电影网站| 亚洲国产欧洲综合997久久, | 亚洲成av人片免费观看| 中文字幕人成人乱码亚洲影| 一区二区三区国产精品乱码| 又大又爽又粗| 97人妻精品一区二区三区麻豆 | 久久天堂一区二区三区四区| 久久精品亚洲精品国产色婷小说| 99在线视频只有这里精品首页| 国内揄拍国产精品人妻在线 | 一二三四社区在线视频社区8| 亚洲va日本ⅴa欧美va伊人久久| 中文字幕人妻熟女乱码| 国产精品香港三级国产av潘金莲| 一区二区三区国产精品乱码| 桃红色精品国产亚洲av| 美女午夜性视频免费| 久久久久久久久中文| 91国产中文字幕| 99re在线观看精品视频| 国产成人精品久久二区二区免费| 大香蕉久久成人网| 啦啦啦免费观看视频1| 一区二区三区国产精品乱码| 一区二区三区精品91| 中文字幕人成人乱码亚洲影| 亚洲av片天天在线观看| 久久九九热精品免费| 男人舔女人下体高潮全视频| 黑人操中国人逼视频| 欧美色视频一区免费| 久久婷婷人人爽人人干人人爱| 一本综合久久免费| 国产真实乱freesex| 草草在线视频免费看| 欧美乱色亚洲激情| 日本一区二区免费在线视频| 欧美激情 高清一区二区三区| 欧美日韩瑟瑟在线播放|