熱心網(wǎng)友

知識處理是人工智能的核心,就相當(dāng)于人的靈魂是大腦,大腦的載體是知識。其中“知識”包括了信息、邏輯和推理的方法,而“處理”包括了知識的獲取、知識的加工、邏輯判斷、推理、知識的輸出等等,而最主要的知識獲取是通過自然語言,所以研究自然語言成為知識處理的核心。 本人通過多年來的經(jīng)驗和實踐,得出一套有關(guān)人工智能特別在知識處理方面的理論和方法,而這套理論和方法和其他人工智能的學(xué)術(shù)有所不同,其特點是拋開傳統(tǒng)的復(fù)雜理論,根據(jù)實踐和經(jīng)驗得出的一套可行的捷徑,對知識處理方法進(jìn)行全新的改造。 這里討論的自然語言確切的來說是中文日常語言或者說是漢語,身為中國人當(dāng)然是研究漢語,其實漢語比英語更能描繪世界萬象,更有利于知識的獲取。劃分句子 知識處理的第一步首先是“分”,就是把一段信息劃分成各分句,然后再把每句話劃分出各詞。把劃分好的內(nèi)容按序放到數(shù)組或其他數(shù)據(jù)結(jié)構(gòu)容器中,就能方便地調(diào)用了,這個“分”的作用是為了考察句與句、詞與詞之間的邏輯關(guān)系,讓計算機分析這段話,理解這段話。 分句的方法比較簡單,因為人類語言已經(jīng)用標(biāo)點符號標(biāo)記了各句之間的分界,讓計算機掃描標(biāo)點符號,就可以劃分出各句,不過其中有一點要注意的是有兩個標(biāo)點連在一起的情況,例如結(jié)尾的雙引號會和逗號或句號連在一起,這時候要求計算機不要把標(biāo)點也當(dāng)成字。信息容錯處理 漢語中,通常認(rèn)為計算機中一個漢字占了兩個字符的空間,所以很多人會覺得讓計算機劃分出一個漢字或者一個詞并不麻煩,其實不然,因為一句自然語言的成分除了漢字很可能還含有英文或者其他字符,例如:“ 是淘寶網(wǎng)的網(wǎng)址。”你不可能連網(wǎng)址也用中文來表達(dá)吧,所以問題就出現(xiàn)了。首先來看,若我們以四個字符的空間來從左到右掃描以上那句話,以便找出“網(wǎng)址”這個詞,這里所謂的掃描是指利用循環(huán)語句以一個字符的步速讀取內(nèi)容,把逐段內(nèi)容放進(jìn)數(shù)組等容器里,當(dāng)掃描到“。com”是沒有問題的,再掃描下去,com加半個“的”字的時候,問題來了,由于“的”字是占了兩個字符,而半個“的”字才算一個字符,加上com才算四個字符,那半個“的”字帶來的麻煩多著呢,例如SQL語言識別不了這半個“的”字,某些數(shù)據(jù)庫把這四個字裝起來會報錯,顯示字符串時半個字符可能和空格的效果一樣等等問題,所以先解決這方面的容錯問題吧,以便讓計算機下一步的工作順順利利。 其實解決這個容錯的問題是和掃描的過程結(jié)合在一起的,算法如下:1。建立四個容器裝掃描結(jié)果,例如可以用數(shù)組作為容器,分別用于裝兩個字符(一個漢字)、四個字符、六個字符、八個字符,再以四個相當(dāng)容量的窗口同時進(jìn)行掃描。2。先直接把對應(yīng)掃描窗的內(nèi)容裝進(jìn)各容器。3。當(dāng)掃描到第七個字符是非漢字編碼而第八個字符是漢字編碼時,把第一到七個字符更新入八個字符的容器里面,舍棄第八個字符,然后從第八個字符開始繼續(xù)掃描;當(dāng)掃描到第五個字符是非漢字編碼而第六個字符是漢字編碼時,把第一到七個字符更新入八個字符的容器里面,把第一到五個字符更新入六個字符的容器里面,從第六個字符開始繼續(xù)掃描;當(dāng)掃描到第三個字符是非漢字編碼而第四個字符是漢字編碼時,把第一到七個字符更新入八個字符的容器里面,把第一到五個字符更新入六個字符的容器里面,把第一到三個字符更新入四個字符的容器里面,從第四個字符開始繼續(xù)掃描;掃描到第一個字符是非漢字編碼而第二個字符是漢字編碼時如上類推。 在此最多只使用了八個字符的容器而沒有建立裝更多字符的容器是因為漢語中一個詞通常不超過四個漢字,所以沒有必要建立用于裝更多字符的容器。而調(diào)用以上算法、調(diào)用以上的容器內(nèi)容就能方便地實現(xiàn)某個詞的查找了,也不會因為編碼的問題而出錯。例如要找一句話中“網(wǎng)站”一詞,則可以先實現(xiàn)以上算法,然后調(diào)出四個字符容器的內(nèi)容,和“網(wǎng)站”一詞進(jìn)行對比,若等值,就找到了,若不等則繼續(xù)用以上算法掃描。 以上方法說白了就相當(dāng)于把掃描結(jié)果加工放到容器里面形成“健康”的內(nèi)容,而使其不會含有結(jié)尾半個漢字編碼等“不健康”的內(nèi)容,以便安全地使用SQL等查詢語句不至于出錯和排除對比字符串、顯示字符串時帶來差異性麻煩等其他問題。此問題或許有其他方法可以解決或者忽略,但本人以后的知識處理方法是基于以上容錯處理為基礎(chǔ)的,所以在此只提出以上的做法。。