日本午夜免费一区二区,亚洲麻豆一区,国产伦精品一区二区三区千人斩,日韩高清电影一区

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

Tempo數據挖掘—文本挖掘之信息抽取

2018-07-31 16:30:00
Tempo數據挖掘平臺是對數據的深度探索,發掘數據價值:圖形化拖曳式的數據挖掘建模工具,開箱即用的內置機器學習算法,讓業務人員快速進行數據模型構建與優化,完成數據深層次價值的探索與挖掘。更多詳細介紹盡在網站內部,今天我們著重給大家介紹其中文本挖掘之信息抽取。
 
Tempo數據挖掘工具

1、信息抽取

信息抽取的定義為:從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。
信息抽取有許多不同的用途,一種典型的應用是使用信息抽取面向特定任務的結構化信息,互聯網的快速發展產生了海量的信息,由于文本數據的多樣性和異構性,對這些的信息進行檢索和處理受到很大的限制,而信息抽取則致力于將這些信息轉化成結構化的數據,滿足搜索引擎和數據挖掘等相關應用。另一種典型的應用是特定目標信息的發現和識別(如發現與“人工智能”相關的新聞)。在現在的Web中,相關的信息往往被無關的信息的淹沒,而信息抽取技術可以發現并整理蘊含在海量信息中的特定目標信息,為正確決策提供大量的相關情報,大大降低需要的人工成本。

2、算法原理

語言的表述通常具有規律性,對于相似意圖的描述一般會有固定的表達模式,對這些固定表達模式進行泛化即可抽象出語言表述對應的模板。如我們常說“我 吃 蘋果”和“我 吃 梨”,那么通過泛化表述語句中的不同部分,就可以抽象出相應的語言表述模板“我 吃 [FOOD]”,其中[FOOD]稱為泛化槽位,即在槽位中填上其他的詞(如“西瓜”),就可以生成新的語句“我 吃 西瓜”。很顯然,槽位的填充是要滿足一定約束的,如[FOOD]槽位應該填充食物相關的詞才是符合語義的,這些約束就是所謂的規則。
規則模板引擎我們期望實現的是簡單匹配, 所以我們對于文法的設計盡可能的簡化,定義模板的元字符為四類:泛化槽位、固定詞、通配符、注冊函數。例如我們構造了一個識別建筑物地址的模板:
[D:ner_street][F:num]號[W:1-6][D:building]
很顯然,構造該模板如圖1是基于如下的先驗知識進行的:我們經常有“長安路26號宏遠大廈”這樣的表述,所以“長安路”可以被泛化為槽位,以便其他街道的名稱也能適用,同理“大廈”被歸集到[D:building]的槽位詞典中;至于多少號的數字可以通過數字識別的注冊函數實現;而大廈的名稱比較多樣化,索性就用通配符匹配“大廈”前面的1-6個字節實現。
 
模板Trie樹匹配示例
圖1 模板Trie樹匹配示例

3、利用Tempo數據挖掘平臺實現信息抽取

Tempo文本挖掘算法模塊提供了豐富的文本挖掘功能節點,能夠覆蓋整個文本挖掘的生命周期,它在兼顧專業性的同時保持非常友好的易用性。Tempo友好的圖形化操作界面,使用鼠標即可完成數據挖掘全過程;便捷的參數設置窗口,使模型的構建更加靈活;自定義詞典、配置文件均為明文,可滿足不同業務場景的個性化需求。  
金融機構向客戶發送的短信是文本形式的,需要從這些文本短信中分析出用戶是否出現逾期記錄,逾期行為的具體信息,如逾期時間、逾期金額、借款機構等。以金融信貸短信的信息抽取為例子,我們講如何利用Tempo信息抽取節點從金融信貸短信中抽取出逾期金額、時間、借款機構等結構化信息點。抽取過程可分為下面三部分:
信息抽取流程
圖2 信息抽取流程

第一步,數據準備
在使用信息抽取算法時,需要將短信文本整理為Tempo可讀取的文件格式,關系數據庫表或者txt、 csv等文本文件。我們整理的數據格式如下表:
id 短信文本
1 【華嚴法務】尊敬的客戶,您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難,請立即聯系客服為您協調解決。回復TD退訂。
2 【信而富】尊敬的客戶,您的借款已逾期,需還款520.50元。請前往微信公眾號“信而富現金貸”還款,避免產生更多延遲還款服務費及不良的信用影響。點滴信用,成就未來!
3 【靠譜鳥】尊敬的客戶,您在更美貸借款1000逾期未還,我司將上報全國誠信系統并起訴至法院,請轉告盡快還款電話4008986985,回復TD退訂
 
第二步:構建信息抽取模型
 
這一步是最重要的一步,打開信息抽取節點,配置模版文件、槽位文件、可略詞文件。我們的目的是抽取,日期、逾期金額、貸款機構。
Tempo數據挖掘-信息抽取節點參數界面
圖3信息抽取節點參數界面

 
分別點擊下載模版文件、槽位文件、可略詞文件。下載完成后本地會出現三個txt文件,以第一條短信為例,我們看一下如何配置這三個文件,第一條的文本短信內容為:“【華嚴法務】尊敬的客戶,您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難,請立即聯系客服為您協調解決。回復TD退訂。”,目的是抽取日期,逾期金額,貸款機構。因為同一金融機構發送的短信信息格式相對固定,通過模板基于元字符匹配并提取文本中的可變字符,以上短信中紅字部分均為可變字符,這些可變字符正好對應我們想要抽取的貸款機構,逾期金額和日期。首先我們抽取貸款機構,短信中貸款機構出現的上下文為“在XXXX借款”,因為我們無法判定用戶在什么平臺上借款,所以匹配“閃電平臺”用任意字符匹配,我們就可以使用匹配出閃電平臺,接著通過內置的注冊函數匹配日期。最后我們匹配逾期金額,逾期金額出現的上下文為“逾期共計1000元”我們的目的是把“1000”抽取出來,逾期金額一般為數字,因此用[F:num]匹配數字,一般只有在“元”,或者“塊”,“美元”等詞前面出現的數字才為金額。所以在[F:num]后增加槽位。應此最終的匹配模板為:“【借款截止逾期共計 機構_6,還款日期_8:date,金額_10:double”。模板信息主要包含兩部分內容,其中“【借款截止逾期共計”為規則模板,“機構_6,還款日期_8:date,金額_10:double”為抽取的結構化信息,兩個字符串以Tab鍵間隔。“機構_6”表示抽取的信息字段名為“機構”值在第6個槽位,槽位索引從1開始,一個元字符代表一個槽位。“還款日期_8”表示抽取的信息字段名為“還款日期”值在第8個槽位,“date”表示輸出類型為日期型;“金額_10”表示抽取的信息字段名“金額”值在第10個槽位,“double”表示輸出的金額格式為double類型。以上短信文件信息抽取最終的規則模板文件為:
 
規則模板文件
借款截止逾期共計      機構_6,還款日期_8:date,金額_10:double
還款      機構_2,金額_6:double
借款逾期      機構_6,金額_8:double

槽位詞典文件為:
槽位詞典文件  

還款
還錢



美元
歐元


已在
已經
 
 
 

可忽略詞文件為:
可忽略詞文件  

 
 
 
 
將這三個文件分別上傳到對應為目錄下。算法在校驗規則模版文件、槽位文件、可略詞文件合法完成后會根據以上文件構建規則模版樹和槽位樹,把構造的對象分發到分布式節點上供各節點對文本分布式信息抽取。

Tempo數據挖掘-文本信息抽取流程
圖4文本信息抽取流程圖
第三步:開始信息抽取
信息抽取是基于Spark集群中的RDD數據實現文本信息抽取,基于RDD分布式遍歷每一條文本,通過分發到各節點的信息抽取模型實現對文本信息抽取的原子操作。抽取結果如下圖
Tempo數據挖掘-文本信息抽取結果
圖5文本信息抽取結果表

 
以上是美林數據小編對基于Tempo數據挖掘工具的文本挖掘中信息抽取的詳細介紹,想要了解更多Tempo數據挖掘平臺功能的小伙伴,歡迎您來電咨詢或試用我們的產品,我們將竭誠為您服務!
服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數據
微信掃描二維碼,立即在線咨詢
日本午夜免费一区二区,亚洲麻豆一区,国产伦精品一区二区三区千人斩,日韩高清电影一区
福利一区和二区| 国产亚洲精品v| 在线看片日韩| 欧美精品一卡| 伊人久久成人| 亚洲一区免费| 亚洲青青久久| 欧美亚洲三区| 国产午夜久久av| 美女av一区| 国产传媒在线观看| 日韩在线欧美| 亚洲午夜精品久久久久久app| 九色精品91| 亚洲一区日韩| 日本精品久久| 国产精品一区二区中文字幕| 国产精品观看| 国产精品毛片久久| 成人羞羞视频播放网站| 欧美精品黄色| 蜜臀91精品一区二区三区| 青青国产精品| 精品久久久中文字幕| av中文字幕在线观看第一页| 欧美中文一区二区| 美女日韩在线中文字幕| 欧美亚洲tv| 欧美欧美黄在线二区| 欧美激情视频一区二区三区免费 | 麻豆成人在线观看| 日本蜜桃在线观看视频| 国产一在线精品一区在线观看| 亚洲综合精品| 国产精品一区二区美女视频免费看 | 国产精品一区高清| 久久久久久一区二区| 精品1区2区3区4区| 欧美影院精品| 国产福利片在线观看| 99热精品在线观看| 国产亚洲精品美女久久| 欧洲av一区二区| 亚洲不卡视频| 日韩欧美在线中字| 99在线观看免费视频精品观看| 亚洲制服欧美另类| 久久永久免费| 亚洲男女av一区二区| 欧美一区自拍| 蜜桃视频欧美| 欧美日韩黄网站| 日韩av免费| 亚洲精品麻豆| 快播电影网址老女人久久| 99视频+国产日韩欧美| 久久99影视| 午夜日韩av| 精品99久久| 亚洲一区导航| 精品国产黄a∨片高清在线| 国精品一区二区三区| 国产欧美日韩一级| 宅男噜噜噜66国产日韩在线观看| 精品中文在线| 亚洲精品观看| 欧美jjzz| 国产成人精品999在线观看| 美国三级日本三级久久99| 91偷拍一区二区三区精品| 一区二区精品| 亚洲天堂黄色| 国产在线不卡一区二区三区| 红桃视频亚洲| 日韩美女一区二区三区在线观看| 欧美日韩伊人| 9色国产精品| 精品日韩视频| 久久亚洲国产精品尤物| 综合激情在线| 午夜久久99| 日韩欧美一区二区三区在线观看| 国产日韩欧美三区| 欧美日韩国产免费观看| 日韩av免费大片| 日本不卡一区二区三区| 老司机精品视频在线播放| 综合国产精品| 午夜久久免费观看| 日韩一区二区三区免费播放| 日韩精品视频网| 99亚洲精品| 久久麻豆精品| 深夜福利视频一区二区| 国产精品分类| 国产亚洲人成a在线v网站 | 亚洲va久久久噜噜噜久久| 蜜臀av免费一区二区三区| 国产夫妻在线| 精品一区电影| 国产精品最新| 91在线成人| 蜜臀av一区二区在线免费观看 | 久久婷婷激情| 中文在线а√天堂| 欧美精品成人| 国产精品亚洲综合色区韩国| 亚洲天堂免费| 久久亚洲色图| 久久国产精品亚洲77777| 亚洲成人日韩| 欧美精选一区二区三区| 久久久精品五月天| 成人片免费看| 日韩精品久久久久久久电影99爱| 日本一区二区免费高清| 国产精品久久久久蜜臀| 国产一区二区三区久久久久久久久| 久久成人av| 国产劲爆久久| 精品国产成人| 日韩欧美精品一区| 日韩精品午夜| 亚洲精品网址| 蜜臀av亚洲一区中文字幕| 亚洲最大av| 日韩欧美高清一区二区三区| 日韩av一区二| 欧美精品91| 成人污污视频| 午夜影院一区| 欧美日韩一二三四| 91精品国产成人观看| 欧美一区二区性| 亚洲综合不卡| 亚洲青青久久| 欧美日本三区| 精品五月天堂| 婷婷激情一区| 尤物网精品视频| 亚洲人成网77777色在线播放| 日本成人在线网站| 欧美a在线观看| 超碰超碰人人人人精品| av一区二区高清| 亚洲午夜免费| 免费一级欧美片在线观看网站 | 国产精品日本一区二区不卡视频| 欧美精品97| se01亚洲视频| 亚洲激情五月| 亚洲精品乱码| 麻豆国产精品| 久久人人88| 亚洲精品福利| 麻豆一区二区三区| 久久久久.com| 亚洲精品乱码久久久久久蜜桃麻豆 | 四虎4545www国产精品 | 三级精品视频| 老鸭窝毛片一区二区三区| 国产调教精品| 电影天堂国产精品| 亚洲综合精品四区| 国产精品片aa在线观看| 肉色欧美久久久久久久免费看| 好看不卡的中文字幕| 亚洲精品九九| 精品视频国产| 9国产精品视频| 久久中文字幕一区二区| 激情欧美丁香| 91亚洲精品视频在线观看 | 精品久久97| 99国产精品视频免费观看一公开| 18国产精品| 亚洲不卡av不卡一区二区| 亚欧洲精品视频在线观看| 久久精品五月| 视频在线观看91| 麻豆国产一区| 中文精品视频| 久久国内精品视频| 午夜影院一区| 欧美中文一区| 欧美日韩在线网站| 青青青国产精品| 欧美精选一区二区三区| 日韩av电影一区| 99精品电影| 国产精品伦一区二区| 蜜桃视频欧美| 精品日韩一区| 性一交一乱一区二区洋洋av| 国产精品久久久久久久久久久久久久久 | 国产毛片一区| 国产日本久久| 日本久久成人网| 欧美日本不卡| 日韩视频在线一区二区三区 |