手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
自然語言處理(又叫自然語言理解,計(jì)算語言學(xué))是當(dāng)前it領(lǐng)域的重要技術(shù)之一。隨著互聯(lián)網(wǎng)信息的急劇增長(zhǎng),搜索引擎成為人們獲取信息不可缺少的工具。但是基于關(guān)鍵字索引的工具已經(jīng)越來越無法滿足用戶的需求,相反用戶更希望計(jì)算機(jī)能理解句子的意思以幫助我們更好的處理信息和組織信息,這就需要自然語言處理技術(shù)來解決,例如中文分詞、詞性標(biāo)注、句法分析、依存關(guān)系分析、語義消岐等等。
自然語言具備兩個(gè)屬性:語言屬性與自然屬性!罢Z言”屬性表現(xiàn)為公認(rèn)的某些約定俗成的內(nèi)在規(guī)律性,如“把車開回北京去”是一個(gè)符合這種內(nèi)在規(guī)定性的構(gòu)成形式,而“車回開北京把去”就是一種不符合這種內(nèi)在規(guī)律性的構(gòu)成形式;“自然”屬性是說并不存在某個(gè)人為制造的、嚴(yán)格的語法規(guī)則體系來約定人們的語言表達(dá)方式,這是和程序設(shè)計(jì)語言大相徑庭的。自然語言需要遵循一定的內(nèi)在規(guī)律,但更大程度上是“存在即合理”。如“你先走”符合人們的正常使用習(xí)慣,后來隨著網(wǎng)絡(luò)的流行,“你走先”、“給個(gè)理由先”都逐漸成為了合理的語言新現(xiàn)象。按照相關(guān)文獻(xiàn)中的描述,計(jì)算機(jī)對(duì)自然語言的研究和處理,大抵經(jīng)過如下三個(gè)過程:
(1). 把需要研究的問題在語言學(xué)上加以形式化,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來;
(2). 把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,使之在計(jì)算上形式化;
(3). 根據(jù)算法編寫計(jì)算機(jī)程序,使之在計(jì)算機(jī)上加以實(shí)現(xiàn)。
一個(gè)自然語言處理系統(tǒng)必須考慮許多語言自身與結(jié)構(gòu)方面的知識(shí)——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對(duì)句子意義有什么貢獻(xiàn)等,但這些卻還是遠(yuǎn)遠(yuǎn)不夠的。比如一個(gè)系統(tǒng)如果要回答提問或者直接參與對(duì)話,它不僅需要知道很多語言結(jié)構(gòu)的知識(shí),而且還要知道人類世界的一般性知識(shí)并具備人類的推理能力。因此許多語言學(xué)家通常把對(duì)語言的分析和理解分成如下幾個(gè)主要層次:詞法分析、句法分析、語義分析、篇章分析。
按照多數(shù)文獻(xiàn)的觀點(diǎn),首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識(shí)別等——是通過分詞、詞頻和位置統(tǒng)計(jì)等手段獲得相關(guān)語言信息。其次,句法分析通過使句子成分特征化來分析句子結(jié)構(gòu)特征,通過對(duì)句子和短語結(jié)構(gòu)的分析找出詞、短語等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。第三,為了理解一個(gè)提問,一般還需要更多的語義和語用知識(shí)來幫助理解句子的意思,通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對(duì)句法成分做出細(xì)致的語義分類,它一般應(yīng)包括語言層面(即反映語言表面現(xiàn)象的知識(shí),如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語義關(guān)系)、常識(shí)層面等。雖然這項(xiàng)工作浩繁,但目前已經(jīng)取得了一些初步成果。最后,篇章分析用于對(duì)多個(gè)語句、段落之間在結(jié)構(gòu)或者語義上的相互關(guān)系進(jìn)行分析。
按照多數(shù)文獻(xiàn)中的分類方法,從技術(shù)路線上看,計(jì)算機(jī)自然語言處理可大致分為基于語言學(xué)規(guī)則分析的方法和基于統(tǒng)計(jì)的方法這兩類主要方法(當(dāng)然,也有不同的分類方法,限于篇幅在此不再贅述),前者通過對(duì)語言學(xué)知識(shí)的形式化規(guī)則處理將語言學(xué)知識(shí)轉(zhuǎn)化為計(jì)算機(jī)可處理的形式,而后者則是從大規(guī)模真實(shí)語料庫中獲得統(tǒng)計(jì)信息,并將之用于自然語言的分析處理;谝(guī)則分析的方法主張以建立形式化的知識(shí)系統(tǒng)來表述語言知識(shí),其本質(zhì)是一種確定性的演繹推理方法,如北京理工大學(xué)大數(shù)據(jù)實(shí)驗(yàn)室張華平主任研發(fā)的nlpir大數(shù)據(jù)語義智能分析技術(shù)是對(duì)語法、詞法和語義的綜合應(yīng)用。nlpir大數(shù)據(jù)語義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等功能。
另一方面,自上個(gè)世紀(jì)80年代以來,由于大量語料庫的出現(xiàn)以及計(jì)算機(jī)處理能力的提高,也由于基于規(guī)則的方法遲遲未能達(dá)到人們預(yù)期目標(biāo),基于統(tǒng)計(jì)的方法逐漸興起。該方法主張通過搜集實(shí)際語言材料形成語料庫,并在此基礎(chǔ)上進(jìn)行分析和處理。它通過構(gòu)造統(tǒng)計(jì)模型來對(duì)語料庫中描述的實(shí)際出現(xiàn)的語言現(xiàn)象進(jìn)行統(tǒng)計(jì),進(jìn)而得到統(tǒng)計(jì)意義上的語言知識(shí),其本質(zhì)是非確定性的基于概率的推理方式。
由于知識(shí)是通過對(duì)語料庫進(jìn)行分析后抽取出的,因此它可為語言處理提供較為客觀的依據(jù)。但基于統(tǒng)計(jì)的方法本質(zhì)上是一種非確定性推理方法,可能會(huì)掩蓋一些小概率事件。由于有些統(tǒng)計(jì)方法無法解決的問題利用規(guī)則方法卻容易得到解決,因此以實(shí)用性為目標(biāo),將基于規(guī)則的方法與基于統(tǒng)計(jì)的方法有機(jī)結(jié)合起來,構(gòu)建面向大規(guī)模真實(shí)文本的信息處理乃是未來發(fā)展之趨勢(shì)。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無產(chǎn)品詢價(jià)記錄 |
采購商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無購買記錄 |
地區(qū):汕頭
主營(yíng)產(chǎn)品:物流公司,貨運(yùn)站,國(guó)內(nèi)陸運(yùn)地區(qū):成都
主營(yíng)產(chǎn)品:聲屏障,護(hù)欄網(wǎng),石籠網(wǎng)地區(qū):三明
主營(yíng)產(chǎn)品:木荷苗,楓香苗,油茶苗地區(qū):廊坊
主營(yíng)產(chǎn)品:富卓液壓,施羅德液壓,海普洛液壓