• 《工程索引》(EI)刊源期刊
    • 中文核心期刊
    • 中國科技論文統計源期刊
    • 中國科學引文數據庫來源期刊

    留言板

    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

    姓名
    郵箱
    手機號碼
    標題
    留言內容
    驗證碼

    基于MapReduce的大規模文本聚類并行化

    武森 馮小東 楊杰 張曉楠

    武森, 馮小東, 楊杰, 張曉楠. 基于MapReduce的大規模文本聚類并行化[J]. 工程科學學報, 2014, 36(10): 1411-1419. doi: 10.13374/j.issn1001-053x.2014.10.019
    引用本文: 武森, 馮小東, 楊杰, 張曉楠. 基于MapReduce的大規模文本聚類并行化[J]. 工程科學學報, 2014, 36(10): 1411-1419. doi: 10.13374/j.issn1001-053x.2014.10.019
    WU Sen, FENG Xiao-dong, YANG Jie, ZHANG Xiao-nan. Parallel clustering of very large document datasets with MapReduce[J]. Chinese Journal of Engineering, 2014, 36(10): 1411-1419. doi: 10.13374/j.issn1001-053x.2014.10.019
    Citation: WU Sen, FENG Xiao-dong, YANG Jie, ZHANG Xiao-nan. Parallel clustering of very large document datasets with MapReduce[J]. Chinese Journal of Engineering, 2014, 36(10): 1411-1419. doi: 10.13374/j.issn1001-053x.2014.10.019

    基于MapReduce的大規模文本聚類并行化

    doi: 10.13374/j.issn1001-053x.2014.10.019
    基金項目: 

    國家自然科學基金資助項目(71271027);高等學校博士學科點專項科研基金資助項目(20120006110037);中央高校基本科研業務費專項資金資助項目(FRF--TP--10--006B)

    詳細信息
      通訊作者:

      武森,E-mail:wusen@manage.ustb.edu.cn

    • 中圖分類號: TP391

    Parallel clustering of very large document datasets with MapReduce

    • 摘要: 建立快速有效的針對大規模文本數據的聚類分析方法是當前數據挖掘研究和應用領域中的一個熱點問題.為了同時保證聚類效果和提高聚類效率,提出基于"互為最小相似度文本對"搜索的文本聚類算法及分布式并行計算模型.首先利用向量空間模型提出一種文本相似度計算方法;其次,基于"互為最小相似度文本對"搜索選擇二分簇中心,提出通過一次劃分實現簇質心尋優的二分K-means聚類算法;最后,基于MapReduce框架設計面向云計算應用的大規模文本并行聚類模型.在Hadoop平臺上運用真實文本數據的實驗表明:提出的聚類算法與原始二分K-means相比,在獲得相當聚類效果的同時,具有明顯效率優勢;并行聚類模型在不同數據規模和計算節點數目上具有良好的擴展性.

       

    • 加載中
    計量
    • 文章訪問數:  181
    • HTML全文瀏覽量:  36
    • PDF下載量:  7
    • 被引次數: 0
    出版歷程
    • 收稿日期:  2013-09-30
    • 網絡出版日期:  2021-07-19

    目錄

      /

      返回文章
      返回
      中文字幕在线观看