時(shí)間:2024-03-28 11:07:29
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇社交媒體文本分析范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
中圖分類(lèi)號(hào): G206.2
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 10012435(2017)02022306
Key words: Gender Language;topic;corpus;text classification;priority sequence
Abstract:
The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.
性e語(yǔ)言研究是社會(huì)語(yǔ)言學(xué)的研究熱點(diǎn),同時(shí)也是心理學(xué)、社會(huì)學(xué)、人類(lèi)學(xué)等多個(gè)學(xué)科領(lǐng)域共同關(guān)注的課題。近年來(lái),性別語(yǔ)言研究的重點(diǎn)逐漸轉(zhuǎn)向交際中的話(huà)語(yǔ)模式。話(huà)語(yǔ)模式的性別差異主要表現(xiàn)在話(huà)題選擇、話(huà)語(yǔ)量、話(huà)輪控制和交際策略方面(Wardhaugh 2010)[1]。其中,話(huà)題選擇的性別差異一直受到國(guó)內(nèi)外學(xué)者的重視。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人階級(jí)、中產(chǎn)階級(jí)等不同社會(huì)階層,以及美國(guó)猶太社區(qū)等不同社會(huì)族群的日常言談話(huà)題,發(fā)現(xiàn)男性之間的話(huà)題焦點(diǎn)圍繞政治、經(jīng)濟(jì)、體育、商業(yè)等,通常不涉及個(gè)人情感;女性之間的話(huà)題焦點(diǎn)傾向于感情、家庭、孩子、夫妻關(guān)系等。許力生(1997)、李經(jīng)緯(1998)、趙蓉暉(2003)、崔艷英(2012)[811]等國(guó)內(nèi)學(xué)者也對(duì)此進(jìn)行過(guò)探討,但以介紹和綜述國(guó)外研究為主,缺少以漢語(yǔ)為語(yǔ)料的實(shí)證研究。
話(huà)題選擇優(yōu)先序列會(huì)因語(yǔ)境、地域、種族、文化等差異而產(chǎn)生變化,以往針對(duì)家庭和公共社交場(chǎng)合的調(diào)查研究,說(shuō)話(huà)人在話(huà)題選擇時(shí)容易受到交際對(duì)象、交際目的、交際場(chǎng)景等諸多因素的影響,雖然結(jié)論真實(shí),但并不具有普遍性。而網(wǎng)絡(luò)虛擬語(yǔ)境下,交際場(chǎng)合由現(xiàn)實(shí)的語(yǔ)言生活轉(zhuǎn)變?yōu)樘摂M的網(wǎng)絡(luò)空間,交際對(duì)象由特定受話(huà)人轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)中的預(yù)設(shè)受話(huà)人,外界環(huán)境因素對(duì)作者話(huà)題選擇的影響降低。尤其是新媒體中的博客,因其具有個(gè)性化、開(kāi)放性、交互性、共享性等特征,文章更接近于單向獨(dú)白式語(yǔ)體,不同于以往研究的雙向會(huì)話(huà)式語(yǔ)體。文章更能體現(xiàn)的博主對(duì)話(huà)題喜好,能更真實(shí)地反映兩性的話(huà)題選擇傾向。同時(shí),相比以往針對(duì)日常言談?wù)Z境的小樣本調(diào)查,基于新媒體語(yǔ)料的大規(guī)模統(tǒng)計(jì)分析在數(shù)據(jù)處理上占有獨(dú)特的優(yōu)勢(shì),避免了因小樣本和個(gè)案研究帶來(lái)的偏差。再者,由于中外語(yǔ)言文化的差異,國(guó)外的研究結(jié)論并不一定符合漢語(yǔ)的性別語(yǔ)言特征,而且重視漢語(yǔ)語(yǔ)料、加強(qiáng)本土化研究符合當(dāng)代語(yǔ)言性別差異研究的多元化、動(dòng)態(tài)化、微觀化和本土化的發(fā)展趨勢(shì)。因此,本文基于大規(guī)模新媒體博客語(yǔ)料庫(kù),在文本分類(lèi)處理的基礎(chǔ)上對(duì)漢語(yǔ)博客中兩性話(huà)題選擇的優(yōu)先序列所進(jìn)行的實(shí)證研究和探索,可以開(kāi)拓漢語(yǔ)性別研究的新前景,拓展新媒體下語(yǔ)言研究的新視野,展現(xiàn)性別語(yǔ)言差異在時(shí)代變動(dòng)中的新發(fā)展,對(duì)于新媒體語(yǔ)言研究和監(jiān)測(cè)具有理論和實(shí)踐上的啟示作用。
一、兩性話(huà)題的文本分類(lèi)過(guò)程
(一)實(shí)驗(yàn)文本的甄別與篩選
國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心的網(wǎng)絡(luò)媒體監(jiān)測(cè)分中心從2005年開(kāi)始對(duì)網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)論壇、網(wǎng)絡(luò)文學(xué),以及博客、微博、微信等新媒體進(jìn)行動(dòng)態(tài)監(jiān)測(cè),并建有網(wǎng)絡(luò)媒體監(jiān)測(cè)語(yǔ)料庫(kù)。其中,博客語(yǔ)料來(lái)源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中國(guó)博客(wwwblogcncom)、博客網(wǎng)(bokeecom)、和訊博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境內(nèi)著名博客網(wǎng)站。本文選取其中的博客語(yǔ)料,主要基于兩個(gè)方面的因素:首先,文章作者元信息的提取原因。博客、微博、論壇的作者在社交平臺(tái)上注冊(cè)時(shí)會(huì)提供包括性別在內(nèi)的作者身份信息,因此可以在語(yǔ)料爬取過(guò)程中對(duì)作者身份信息進(jìn)行元數(shù)據(jù)標(biāo)注,進(jìn)而便于提取出有性別信息的作者。其次,文本分類(lèi)的技術(shù)原因。微博和微信都比較短小,計(jì)算機(jī)對(duì)其進(jìn)行文本自動(dòng)分類(lèi)處理時(shí)效度不高,難度較大。而博客文本相對(duì)較長(zhǎng),分類(lèi)效果較好。因此,博客文本比微博、微信等其他新媒體語(yǔ)料更能有效地進(jìn)行話(huà)題分類(lèi)研究。
兩性博客語(yǔ)料的篩選步驟如下:第一步,甄別身份信息真實(shí)的作者,以篩選出有效的兩性博客文本。博客文本在抓取的過(guò)程中對(duì)作者身份等元數(shù)據(jù)信息進(jìn)行了采集和標(biāo)注,根據(jù)元數(shù)據(jù)信息篩選出標(biāo)注了性別的作者及其博文。由于少數(shù)作者雖然在博客平臺(tái)登記了性別等身份信息,但信息并不一定真實(shí),如果這些不確定的文本被用于統(tǒng)計(jì)分析,將會(huì)影響統(tǒng)計(jì)結(jié)果的可靠性與可信度,因此必須抽取作者身份相對(duì)真實(shí)的博文用于統(tǒng)計(jì)分析。為篩選身份可信度高的文本,本文依據(jù)博客作者的“博客等級(jí)”和“博客積分”高低、“博客訪問(wèn)量”和“博客關(guān)注量”大小,以及是否為“加V博客認(rèn)證”等標(biāo)準(zhǔn)進(jìn)行甄別,篩選出博客等級(jí)和積分較高,訪問(wèn)量和關(guān)注量較大,同時(shí)為加V認(rèn)證的作者。這類(lèi)作者的博客活躍度較高,作者身份信息較為真實(shí)可信。第二步,將篩選出的作者所有博客建立語(yǔ)料庫(kù),編寫(xiě)小型程序隨機(jī)抽取了博客文本共計(jì)1 008 755篇,其中男性500 889篇,女性507 866篇為了有效的進(jìn)行文本分類(lèi),本文在隨機(jī)抽取博客文本時(shí),剔除了文本詞匯量小于100詞的文本?!糧W)〗。第三步,將篩選出來(lái)的語(yǔ)料建設(shè)成兩性博客語(yǔ)料庫(kù),用于下一步的文本分類(lèi)處理。
(二)文本分類(lèi)步驟與統(tǒng)計(jì)結(jié)果
本文針對(duì)博客文本所特有的話(huà)題類(lèi)別,進(jìn)行了計(jì)算機(jī)文本分類(lèi)處理,具體步驟如下:第一步,對(duì)所有博客文本進(jìn)行繁簡(jiǎn)轉(zhuǎn)化,剔除表情符號(hào)、圖片等非文字符號(hào);第二步,采用中科院自動(dòng)化所的自動(dòng)分詞工具對(duì)文本進(jìn)行自動(dòng)分詞和詞性標(biāo)注;第三步,用正則表達(dá)式和停用詞表過(guò)濾已分好詞的博客;第四步,參考新浪博客、中國(guó)博客網(wǎng)(博尚網(wǎng))、網(wǎng)易博客、趙蓉暉(2003)[10]的主題類(lèi)別,同時(shí)在文本抽樣的基礎(chǔ)上,確定了博客文本分類(lèi)的27個(gè)話(huà)題類(lèi)別。第五步,從語(yǔ)料庫(kù)中人工篩選出用于機(jī)器學(xué)習(xí)的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。在這一過(guò)程中,人工篩選和機(jī)器學(xué)習(xí)兩個(gè)方法交替進(jìn)行,最后一共收集了26個(gè)話(huà)題(不包括雜談)的文本訓(xùn)練語(yǔ)料各約500篇,測(cè)試語(yǔ)料各約500篇,將52組話(huà)題的約26 000篇文本用于機(jī)器學(xué)習(xí),統(tǒng)計(jì)得到26個(gè)話(huà)題類(lèi)別的詞頻表;第六步,對(duì)26個(gè)話(huà)題的詞頻表進(jìn)行組間差異比較,篩選出各話(huà)題的高頻獨(dú)用詞,以及詞頻、頻序組間差異較大的詞。由于這類(lèi)詞與話(huà)題內(nèi)容關(guān)系較為密切,因此利用專(zhuān)家的領(lǐng)域知識(shí),通過(guò)人工干預(yù)加強(qiáng)這類(lèi)詞匯的權(quán)重;第七步,按照樸素貝葉斯算法判斷每篇博客的后驗(yàn)概率,取后驗(yàn)概率最大的類(lèi)別作為分類(lèi)結(jié)果。第八步,檢驗(yàn)文本識(shí)別的效度,并調(diào)整識(shí)別方法,優(yōu)化統(tǒng)計(jì)結(jié)果。表1為文本分類(lèi)后各話(huà)題的文本數(shù)量及其差值。
二、兩性話(huà)題選擇的優(yōu)先序列
兩性話(huà)題選擇的優(yōu)先序列是建立在文本分類(lèi)和數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ)上的定量分析,是指將不同的話(huà)題類(lèi)別按照其使用頻率的高低進(jìn)行分級(jí)或有序的排位,并對(duì)形成的優(yōu)先序列做出合理的解釋說(shuō)明。下面將分別考察兩性話(huà)題選擇的優(yōu)先序列,并剖析兩性高序位話(huà)題的特征及其形成原因。
(一)男性話(huà)題的優(yōu)先序列
在博客本文分類(lèi)時(shí),某些博客文本由于主題不明確而無(wú)法根據(jù)其后驗(yàn)效率將其有效歸類(lèi),這些無(wú)法有效歸類(lèi)的文本,本文統(tǒng)一將其另列為“雜談?lì)悺??!半s談?lì)悺蔽恼碌钠骄谋鹃L(zhǎng)度最短,僅為561個(gè)字符,但其文本數(shù)量最大,約占男性文本總量的3025%,其位序居27類(lèi)話(huà)題之首。其次是“家庭生活”話(huà)題,它是計(jì)算機(jī)自動(dòng)識(shí)別所得到的文本數(shù)量最多的話(huà)題,約占男性博客文本總量的2528%,平均文本長(zhǎng)度為793個(gè)字符,話(huà)語(yǔ)量高于“雜談?lì)悺?。位序居前列的“雜談、家庭生活、感情婚姻、電子數(shù)碼,體育運(yùn)動(dòng),電視電影”等6類(lèi)話(huà)題占據(jù)總文本數(shù)的8615%,而其他21類(lèi)話(huà)題的文本量?jī)H占文本總量的1385%,位序最低的“兩性生理”的文本僅占文本總數(shù)的0025%。
各話(huà)題文本量的分布特征與Zipf定律中的詞匯分布特征相似,呈現(xiàn)出典型的冪律分布特征,即只有少數(shù)的話(huà)題被經(jīng)常使用,而大多數(shù)話(huà)題很少被使用。將各話(huà)題按照文本數(shù)量大小排列,得到男性博客話(huà)題的優(yōu)先序列,見(jiàn)圖1。
將男性博客話(huà)題的優(yōu)先序列與日常言談時(shí)的話(huà)題選擇傾向比較后發(fā)現(xiàn),兩者的高位序話(huà)題存在較大差異。趙蓉暉(2003)[10]曾用雙向橫坐標(biāo)描繪了兩性的話(huà)題選擇傾向,男性話(huà)題的優(yōu)先序列依次是“政治、軍事、性、金錢(qián)、體育、科技、自然”,本文與之對(duì)應(yīng)的話(huà)題分別為“政治體制、軍事戰(zhàn)爭(zhēng)、兩性生理、經(jīng)濟(jì)金融、w育運(yùn)動(dòng)、科學(xué)技術(shù)”。從文本量上看,這6類(lèi)話(huà)題所占比例非常小,僅占全部話(huà)題總量的745%,除“體育運(yùn)動(dòng)”比例達(dá)到573%以外,其他話(huà)題均未達(dá)到百分之一;從話(huà)題的位序上看,除“體育運(yùn)動(dòng)”的位序相對(duì)靠前以外,其他話(huà)題位序都較為靠后,其中政治體制第23位、軍事戰(zhàn)爭(zhēng)第21位、兩性生理第27位、經(jīng)濟(jì)金融第14位、科學(xué)技術(shù)第19位??梢?jiàn),男性博客語(yǔ)境下的話(huà)題優(yōu)先序列明顯異于日常言談時(shí)的話(huà)題傾向,日常言談時(shí)的高頻話(huà)題在網(wǎng)絡(luò)博客虛擬環(huán)境下并非為優(yōu)先話(huà)題。
(二)女性話(huà)題的優(yōu)先序列
女性博客話(huà)題中,文本量最多的是“家庭生活”,占女性文本總數(shù)的4114%,然后依次為“雜談、感情婚姻、娛樂(lè)追星”,所占比例分別為2283%、156%、355%,這四類(lèi)位序居前的話(huà)題占女性文本總數(shù)的8312%,其他23個(gè)話(huà)題所占比例僅為1688%,位序最后的話(huà)題和男性相同,均為“兩性生理”。從女性各類(lèi)話(huà)題的文本量分布情況看,女性話(huà)題的文本量分布也呈冪律分布特征,但高頻話(huà)題比男性更集中。將各話(huà)題按照文本數(shù)量大小排列,得到女性博客話(huà)題的優(yōu)先序列,見(jiàn)圖2。
女性博客話(huà)題優(yōu)先序列中的高序話(huà)題與其日常言談時(shí)的話(huà)題選擇傾向比較相似。趙蓉暉(2003)[10]認(rèn)為女性最感興趣的話(huà)題依次為“時(shí)尚、感情、家務(wù)、家庭、兒童”等,本文與之對(duì)應(yīng)的話(huà)題依次為“時(shí)尚消費(fèi)、娛樂(lè)追星、情感婚姻、家庭生活”,這些話(huà)題位序都較為靠前,分別為第16、第4、第3、第1位??梢?jiàn),日常言談時(shí)的高頻話(huà)題在網(wǎng)絡(luò)博客虛擬環(huán)境同樣是優(yōu)先話(huà)題,主要圍繞家庭生活與感情婚姻展開(kāi)。
(三)高位序話(huà)題的穩(wěn)定與變化
通過(guò)以上考察發(fā)現(xiàn),雖然學(xué)界一致認(rèn)為現(xiàn)實(shí)語(yǔ)言生活中的兩性高頻話(huà)題存在明顯差異,“家庭、感情、婚姻、時(shí)尚”等為典型的女性話(huà)題,“政治、體育、經(jīng)濟(jì)、軍事”等則為典型的男性話(huà)題,但是這一規(guī)律并不適用于虛擬網(wǎng)絡(luò)環(huán)境下的新媒體語(yǔ)言生活。網(wǎng)絡(luò)博客中的兩性高頻話(huà)題已經(jīng)變得趨同,兩性話(huà)題優(yōu)先序列中的高位序話(huà)題都是“家庭生活”和“感情婚姻”。
通過(guò)比較現(xiàn)實(shí)語(yǔ)言生活的兩性高頻話(huà)題和網(wǎng)絡(luò)新媒體語(yǔ)言生活的高位序話(huà)題后發(fā)現(xiàn),女性的話(huà)題選擇傾向具有穩(wěn)定性,高位序話(huà)題沒(méi)有明顯變化,最熱衷的話(huà)題始終以家庭婚姻與情感生活展開(kāi);男性的話(huà)題選擇傾向具有較大變動(dòng)性,男性在日常言談?wù)Z境下“政治”“經(jīng)濟(jì)”等高頻話(huà)題成為博客文本中的低位序話(huà)題,這兩類(lèi)話(huà)題總數(shù)僅占男性博客文本總數(shù)的097%,而“家庭”“情感”等話(huà)題卻成為高位序話(huà)題,這兩類(lèi)話(huà)題總數(shù)占男性博客文本總數(shù)的39%。男性的高位序話(huà)題會(huì)因語(yǔ)境的改變而產(chǎn)生變化。
(四)穩(wěn)定的機(jī)制及變化的動(dòng)因
Tannen(1991)[7]將談話(huà)分為關(guān)系式談話(huà)(rapporttalk)和報(bào)告式談話(huà)(reporttalk)兩大類(lèi)。前者以感情交流為主,其目的是通過(guò)交談建立關(guān)系、維系感情;后者則是以信息交流為主,其目的是交流對(duì)事物的看法和意見(jiàn),提出某一問(wèn)題的解決辦法等。在日常言談中,女性談話(huà)以關(guān)系式為主,傾向于通過(guò)談?wù)撋婕皞€(gè)人生活的內(nèi)容,以交流情感的方式來(lái)建立社交關(guān)系;男性通常以報(bào)告式為主,信息交流量較大、目標(biāo)明確、針對(duì)性強(qiáng);在日常言談和網(wǎng)絡(luò)博客中,女性的話(huà)語(yǔ)方式始終以“關(guān)系式談話(huà)”為主,因此高頻話(huà)題比較穩(wěn)定;男性在網(wǎng)絡(luò)虛擬環(huán)境下“報(bào)告式”動(dòng)力相對(duì)減弱,“關(guān)系式”動(dòng)力增強(qiáng),話(huà)語(yǔ)方式的轉(zhuǎn)變導(dǎo)致高頻話(huà)題產(chǎn)生變化。
在公共社交場(chǎng)合,由于男性比女性更注重掌控話(huà)語(yǔ)權(quán),以說(shuō)教、演講等報(bào)告式的話(huà)語(yǔ)姿態(tài)展現(xiàn)自身能力,通過(guò)較為正式的話(huà)語(yǔ)風(fēng)貌獲得社會(huì)認(rèn)同和大眾賞識(shí),這種動(dòng)力驅(qū)使男性在言談時(shí)會(huì)優(yōu)先選擇擅長(zhǎng)的優(yōu)勢(shì)領(lǐng)域,如政治、軍事、經(jīng)濟(jì)、體育等。但是在非正式場(chǎng)合,尤其是在網(wǎng)絡(luò)社交媒體平臺(tái)中,兩性的話(huà)語(yǔ)交際目的都是以建立和維系社交關(guān)系為主,通過(guò)博客、微博、微信等自媒體平_抒感、記錄生活。因此,博客中的兩性話(huà)語(yǔ)方式都以“關(guān)系式”為主。在網(wǎng)絡(luò)虛擬語(yǔ)境下,由于作者身份信息相對(duì)隱匿,話(huà)語(yǔ)身份構(gòu)建和凸顯的動(dòng)力減弱,因而男性?xún)A向于選擇輕松的生活話(huà)題。
男性“報(bào)告式”動(dòng)力減弱是多種動(dòng)因共同作用的結(jié)果。首先,交際場(chǎng)合由公共社交場(chǎng)合轉(zhuǎn)變?yōu)樽悦襟w環(huán)境下的非正式場(chǎng)合;其次,交際場(chǎng)景由現(xiàn)實(shí)語(yǔ)言生活轉(zhuǎn)變?yōu)樘摂M網(wǎng)絡(luò)語(yǔ)言生活;第三,交際媒介變?yōu)榫W(wǎng)絡(luò)自媒體平臺(tái);第四,交際“對(duì)象”由現(xiàn)實(shí)語(yǔ)言生活的特定受話(huà)人轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)語(yǔ)境中的預(yù)設(shè)受話(huà)人,雖然博客文本的受眾具有不確定性,但是作者在撰寫(xiě)博文時(shí)會(huì)帶著認(rèn)知關(guān)聯(lián)假設(shè)信息,以吸引讀者、構(gòu)建虛擬關(guān)系為目的。Yus(2011)[12]也認(rèn)為作者對(duì)文章的受眾和交際對(duì)象存在一種預(yù)設(shè)或假定。第五,交際目的由自我展示型向社交關(guān)系型轉(zhuǎn)變;第六,交際身份由公共突顯型向虛擬隱匿型轉(zhuǎn)變,男性在正式和非正式場(chǎng)合下對(duì)性別話(huà)語(yǔ)身份凸顯程度的改變對(duì)話(huà)題選擇產(chǎn)生影響。以上因素促使社交媒體的話(huà)語(yǔ)方式以關(guān)系式為主,因此,女性的高位序話(huà)題保持不變,男性則發(fā)生改變。“家庭生活”“感情婚姻”等男性日常聊天較少談及的話(huà)題,成為男性博客文本中的高位序話(huà)題。
三、兩性話(huà)題選擇的組間差異
雖然兩性的高位序話(huà)題相似,但是話(huà)題優(yōu)先序列的組間差異仍然存在,主要表現(xiàn)在話(huà)題位序的組間序差和話(huà)題量分布的組間差異兩個(gè)方面。
(一)話(huà)題序差比較
由于同一話(huà)題在男性話(huà)題中的位序與其在女性話(huà)題中的位序存在一定差距,其組間序差反映了該話(huà)題在兩性話(huà)題序列中的地位差別,計(jì)算其組間序差可以用于比較兩性對(duì)該話(huà)題的偏好程度。序差越大,偏好差距越大,反之則小。例如“家庭生活”在男性話(huà)題序列中的位序?yàn)?,在女性話(huà)題序列中的位序?yàn)?,其組間序差為1,說(shuō)明女性比男性更傾向于優(yōu)先選擇“家庭生活”,但差距較??;“游戲網(wǎng)游”在男性話(huà)題序列中位序?yàn)?,在女性話(huà)題序列中的位序?yàn)?9,其組間序差為11,說(shuō)明男性比女性更傾向于優(yōu)先選擇“游戲網(wǎng)游”,且差距較大。將全部話(huà)題的組間序差有序排列,構(gòu)成話(huà)題“序差序列”?!靶虿钚蛄小蹦軐⒃?huà)題的“地位差別”集中并有序地表現(xiàn)出來(lái)。為較為直觀反映兩性對(duì)不同話(huà)題的選擇偏好,將升序排列的序差序列繪制散點(diǎn)圖,得到序差分布圖,見(jiàn)圖3。
從分布圖可以看出,除了“情感婚姻”“兩性生理”為零以外,其他話(huà)題均存在組間序差。男性比女性更優(yōu)先選擇的話(huà)題依次為:游戲網(wǎng)游、法律法規(guī)、體育運(yùn)動(dòng)、歷史文化、經(jīng)濟(jì)金融、、軍事國(guó)防、科學(xué)技術(shù)等;女性較男性更優(yōu)選選擇的話(huà)題依次為:美容護(hù)膚、時(shí)尚消費(fèi)、星座占卜、美食佳肴、醫(yī)療衛(wèi)生、教育培訓(xùn)、汽車(chē)房產(chǎn)、工作求職、娛樂(lè)明星等。
(二)話(huà)題量的組間差異顯著性檢驗(yàn)
為了進(jìn)一步考察兩性話(huà)題傾向的組間差異,下面以話(huà)題文本量為依據(jù)進(jìn)行差異顯著性檢驗(yàn)。由于27個(gè)話(huà)題分類(lèi)為非定距數(shù)據(jù),因此采用非參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn)是不依賴(lài)總體分布的統(tǒng)計(jì)分析方法,指在總體不服從正態(tài)分布且分布情況不明時(shí),用來(lái)檢驗(yàn)數(shù)據(jù)資料是否來(lái)自同一個(gè)總體假設(shè)的一類(lèi)檢驗(yàn)方法。本文采用卡方驗(yàn)證中的獨(dú)立性驗(yàn)證,借助統(tǒng)計(jì)軟件SPSS(220)得到卡方驗(yàn)證的結(jié)果,見(jiàn)表2。
通過(guò)表2中“Pearson ChiSquare”一欄對(duì)應(yīng)的Value值和AsympSig值可以查到,x2值為86702647,P值為0000。當(dāng)P值小于005,說(shuō)明兩者之間存在顯著性差異。假若P值大于005,說(shuō)明兩者之間沒(méi)有顯著性差異。由于獨(dú)立性驗(yàn)證中的自由度df=(r1)*(K1),即行的數(shù)目減1乘以列的數(shù)目減1,df=(271)*(31)=52。查卡方分布表,對(duì)應(yīng)的自由度df=52,a=005的x2的臨界值為6750,檢驗(yàn)統(tǒng)計(jì)值x2為86702647,遠(yuǎn)遠(yuǎn)大于臨界值,同時(shí)P值為0000,小于005。因此通過(guò)檢驗(yàn)統(tǒng)計(jì)值X2和P值的所在范圍可以判定:在博客文本中,兩性話(huà)題量的組間差異存在顯著性,具有統(tǒng)計(jì)學(xué)意義。
四、結(jié)語(yǔ)
通過(guò)以上研究發(fā)現(xiàn),兩性在言語(yǔ)交際中的話(huà)題優(yōu)先序列組間差異客觀存在,不同語(yǔ)境下的兩性話(huà)題差異不盡相同。日常言談等現(xiàn)實(shí)語(yǔ)言生活中的兩性高位序話(huà)題完全不同,男性話(huà)題以政治、軍事、體育、經(jīng)濟(jì)等男性擅長(zhǎng)的優(yōu)勢(shì)領(lǐng)域?yàn)橹鳎栽?huà)題則以情感、家庭、婚姻、生活等方面為主。但是在博客等虛擬網(wǎng)絡(luò)空間中,兩性的高位序話(huà)題變得趨同,話(huà)題優(yōu)先序列中的前三位話(huà)題都是家庭生活、感情婚姻、雜談。雖然高位序話(huà)題相同,但是優(yōu)先序列中話(huà)題的組間序差明顯,且話(huà)題量的差異具有顯著性。
造成兩性話(huà)題差異的原因有很多,諸如兩性固有的生理和心理基礎(chǔ)、受教育程度、身份角色以及社會(huì)交往方式等,但根本原因源于傳統(tǒng)社會(huì)文化下逐漸形成的性別文化、性別心理和性別角色的差異。男性由于更多地參與社會(huì)經(jīng)濟(jì)活動(dòng),表現(xiàn)在話(huà)題上更多地涉及政治、經(jīng)濟(jì)等方面內(nèi)容,而負(fù)責(zé)執(zhí)掌家庭內(nèi)務(wù)的女性們則更多地關(guān)注家庭生活等方面的話(huà)題,話(huà)題差異是兩性社會(huì)分工不同的必然結(jié)果。但是兩性的話(huà)題優(yōu)先序列不是絕對(duì)的,往往會(huì)因場(chǎng)合、交際對(duì)象、個(gè)人文化程度、年齡等因素而變化,并隨著社會(huì)、環(huán)境、文化的發(fā)展而相應(yīng)發(fā)展。
參考文獻(xiàn):
[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010
[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971
[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285
[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718
[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734
[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991
[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006
[8]S力生話(huà)語(yǔ)風(fēng)格上的性別差異研究[J]外國(guó)語(yǔ),1997(1):4348
[9]李經(jīng)偉語(yǔ)言性別差異及其原因解釋[J]山東外語(yǔ)教學(xué),1998(3):1216
在針對(duì)金融學(xué)領(lǐng)域進(jìn)行實(shí)證研究時(shí),傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見(jiàn)類(lèi)型如股票市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)表等。大數(shù)據(jù)技術(shù)發(fā)展后,計(jì)算機(jī)技術(shù)逐漸成熟,在實(shí)證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財(cái)經(jīng)媒體報(bào)道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語(yǔ)氣語(yǔ)調(diào)與語(yǔ)義特征等。
1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法
傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別,因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜,人工識(shí)別效率較低,而且信息識(shí)別質(zhì)量不穩(wěn)定,信息識(shí)別效果受到閱讀者專(zhuān)業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計(jì)算機(jī)技術(shù)獲取語(yǔ)料,對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開(kāi)展深入分析[1]。在分析文本大數(shù)據(jù)時(shí),主要采取如下流程:(1)從眾多信息來(lái)源中獲取語(yǔ)料,對(duì)語(yǔ)料文檔進(jìn)行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語(yǔ)義關(guān)聯(lián)性。(4)監(jiān)督機(jī)器學(xué)習(xí)、詞典語(yǔ)法處理[2]。
1.1獲取語(yǔ)料
獲取語(yǔ)料的方法主要分為兩種:(1)人工獲取;(2)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語(yǔ)料投入成本較高,耗時(shí)較長(zhǎng),需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語(yǔ)料時(shí),需要借助編程語(yǔ)言,通過(guò)直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語(yǔ)料獲取模式具有兩方面顯著優(yōu)勢(shì),不僅獲取文本信息耗時(shí)較短,效率較高,而且可直接使用編程語(yǔ)言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。
1.2預(yù)處理環(huán)節(jié)
獲取目標(biāo)語(yǔ)料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場(chǎng)通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計(jì)算機(jī)程序定位文本信息[5]。在該類(lèi)研究中,MD&A研究熱度較高,使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語(yǔ)文、腳本語(yǔ)等代碼信息、圖片信息、廣告信息等,該類(lèi)信息在文本分析中屬于噪聲內(nèi)容,需要?jiǎng)h除和清洗相關(guān)信息,從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語(yǔ)言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語(yǔ)言習(xí)慣,詞語(yǔ)為最小語(yǔ)言單位,可獨(dú)立使用?;诖朔N背景,分析文本時(shí)需要專(zhuān)門(mén)分詞處理中文文本,例如:使用Python開(kāi)源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績(jī)說(shuō)明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類(lèi)工具處理,完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí),其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí),需要科學(xué)選擇分詞方法,采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí),選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí),需要用戶(hù)在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識(shí)別新詞[7]。語(yǔ)義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語(yǔ)法特征,詞語(yǔ)切分后標(biāo)記詞語(yǔ)詞性操作被稱(chēng)為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語(yǔ)種類(lèi)識(shí)別,避免詞語(yǔ)歧義,對(duì)語(yǔ)法結(jié)構(gòu)進(jìn)行有效識(shí)別,從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語(yǔ)義分析。詞性標(biāo)注時(shí),中英文操作方法不同,詞性劃分英文單詞要求比較嚴(yán)謹(jǐn),利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語(yǔ)中,并無(wú)明確詞性指示,詞性識(shí)別依據(jù)主要為語(yǔ)法、語(yǔ)義等。簡(jiǎn)言之,英文詞性識(shí)別標(biāo)記注重形式,漢語(yǔ)詞性標(biāo)記以語(yǔ)義為主。在處理文本信息時(shí),需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達(dá)有限,然而對(duì)于句子語(yǔ)法結(jié)構(gòu)完整性而言非常重要的詞語(yǔ)。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見(jiàn)停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語(yǔ)言習(xí)慣分析停用詞,不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào),還需要處理連詞、俚語(yǔ)。除此之外,應(yīng)根據(jù)具體研究?jī)?nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí),特定標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞等會(huì)影響文本表達(dá)的情感信息,對(duì)于此類(lèi)信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。
1.3文檔表示環(huán)節(jié)
文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點(diǎn),使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高,預(yù)處理實(shí)施后,必須通過(guò)特定方式表示文檔信息,通過(guò)此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語(yǔ)技術(shù)具有可視化特點(diǎn),是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺(jué)符號(hào)顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過(guò)視覺(jué)獲取文本信息,實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無(wú)嚴(yán)格語(yǔ)序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語(yǔ)集合,采用向量化方法表達(dá)文本,在此過(guò)程中只計(jì)算各個(gè)詞語(yǔ)出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨(dú)熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢(shì)是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個(gè)文檔:(1)文檔一:“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對(duì)于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中,不同詞語(yǔ)在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語(yǔ)的作用,對(duì)單詞詞語(yǔ)賦予權(quán)重。TF-IDF是計(jì)算文檔定詞語(yǔ)權(quán)重的有效方法。含有詞語(yǔ)i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個(gè)文件中詞語(yǔ)i頻率描述為tfi,j,第j個(gè)文檔內(nèi)詞語(yǔ)數(shù)量描述為aj,第i個(gè)文檔內(nèi)詞語(yǔ)i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨(dú)熱表示法,TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時(shí)語(yǔ)料庫(kù)中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí),詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,促使其有效捕獲詞語(yǔ)中包含的上下文信息,對(duì)詞語(yǔ)進(jìn)行向量化映射,得到的向量語(yǔ)義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進(jìn)行文本分析屬于無(wú)監(jiān)督機(jī)器學(xué)習(xí)法,通過(guò)此種方法才能夠大量集中語(yǔ)料中提取主題信息。在應(yīng)用該方法時(shí),將生成文檔的過(guò)程分為兩步,首先假定各文檔具有對(duì)應(yīng)主題,從這些主題中抽取一個(gè)主題,然后假定文檔具有對(duì)應(yīng)詞匯,對(duì)比之前抽取的主題,從詞語(yǔ)中選取一個(gè)與主題對(duì)應(yīng)的詞語(yǔ)。完成上述迭代后,將其與文檔中各詞語(yǔ)擬合,從而獲得各文檔主題、主題中詞語(yǔ)分布情況。LDA模型主要優(yōu)勢(shì)是,與手動(dòng)編碼相比,該模型性能更完善,可有效分類(lèi)大規(guī)模文檔。該模型做出的文本主題分類(lèi)支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類(lèi)文本時(shí)較易受到主觀性影響。此外,使用此種模型時(shí),無(wú)需人工分類(lèi)進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí),受到研究者主觀因素影響,選擇主題個(gè)數(shù)的數(shù)量受此影響顯著,因此生成主題過(guò)程與歸類(lèi)文本主題時(shí)較易受到相關(guān)影響。
1.4抽取文本特征的方法
文本特征是指文本可讀性、相似性、文本情緒以及語(yǔ)義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性,保證投資者通過(guò)閱讀文本可有效理解文本信息,即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類(lèi)研究認(rèn)為,迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí),常見(jiàn)的問(wèn)題是,隨機(jī)排序句子中詞語(yǔ)將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過(guò)隨機(jī)排序處理的文本在分析計(jì)算時(shí),顯示相同迷霧指數(shù)。不僅如此,在進(jìn)行商業(yè)文本測(cè)量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí),難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?;诖朔N背景,在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí),需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時(shí),通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語(yǔ)氣語(yǔ)調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類(lèi)研究即支持復(fù)制。不僅如此,建設(shè)詞典時(shí)還需要融合大量金融學(xué)專(zhuān)業(yè)知識(shí),從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類(lèi)詞典、文獻(xiàn)等分析媒體報(bào)道情緒,針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析,以及進(jìn)行電話(huà)會(huì)議等進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析等。中文大數(shù)據(jù)分析時(shí),通常是以英文詞典、詞庫(kù)等為模板,構(gòu)建中文情緒詞典。使用該類(lèi)詞典輔助分析股票成交量、收益率,評(píng)估股市崩盤(pán)風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類(lèi)方法時(shí),重點(diǎn)環(huán)節(jié)在于對(duì)分類(lèi)效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見(jiàn)檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類(lèi)效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類(lèi)精確度較好。
2.文本大數(shù)據(jù)分析
大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過(guò)文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語(yǔ)義特征、語(yǔ)氣語(yǔ)調(diào)等,然后分析股票市場(chǎng)行為與文本特征等相關(guān)性。分析披露文本信息時(shí),主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營(yíng)、管理層長(zhǎng)效經(jīng)營(yíng)信息等進(jìn)行研究。在進(jìn)行此類(lèi)研究時(shí),重點(diǎn)是分析文本可讀性、相似性,以及分析語(yǔ)氣語(yǔ)調(diào)。披露文本可讀性較高時(shí),有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認(rèn)為,財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長(zhǎng)久的利潤(rùn)。此外,有研究者提出,財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測(cè)離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí),公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過(guò)控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場(chǎng)發(fā)展趨勢(shì)進(jìn)行分析時(shí),披露文本語(yǔ)氣語(yǔ)調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為,MD&A語(yǔ)氣內(nèi)含有增量信息,該類(lèi)信息為企業(yè)長(zhǎng)效經(jīng)營(yíng)能力進(jìn)行預(yù)測(cè),同時(shí)可根據(jù)該類(lèi)信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話(huà)會(huì)議語(yǔ)氣中,此種語(yǔ)氣分散情況與經(jīng)營(yíng)決策具有相關(guān)性,同時(shí)語(yǔ)氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí),主要關(guān)注媒體情緒,分析媒體報(bào)道著眼點(diǎn),針對(duì)經(jīng)濟(jì)政策進(jìn)行分析,了解其不確定性,此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí),主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過(guò)搜索指數(shù)了解投資者關(guān)注度。
引言
隨著web2.0的快速發(fā)展,社交網(wǎng)絡(luò)逐漸從各個(gè)方面影響著中國(guó)網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動(dòng)主要是獲取信息與信息,的信息含有自己對(duì)某事物的看法、觀點(diǎn)、感知等個(gè)人情感。
它們主要以文字,表情符號(hào)(新浪微博默認(rèn)表情及標(biāo)點(diǎn)符號(hào))形式出現(xiàn)。通過(guò)用戶(hù)之間的互動(dòng)傳播(一個(gè)微博用戶(hù)具有雙重角色,即博主與粉絲),這種社交網(wǎng)絡(luò)媒體具有傳播速度快,傳播范圍廣等特點(diǎn)。因此對(duì)微博情感識(shí)別與分類(lèi)就顯得尤為重要。
對(duì)微博文本的情感進(jìn)行識(shí)別與分類(lèi),不僅能讓企業(yè)及時(shí)了解客戶(hù)需求尋找到潛在的客戶(hù)群體,通過(guò)實(shí)時(shí)、準(zhǔn)確地評(píng)估其情感。能夠獲得客戶(hù)市場(chǎng)反饋信息及客戶(hù)的消費(fèi)習(xí)慣,幫助企業(yè)進(jìn)行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整,從而快速應(yīng)對(duì)市場(chǎng)變化,提高企業(yè)競(jìng)爭(zhēng)力。還能幫助政府部門(mén)實(shí)時(shí)監(jiān)控民眾情緒,對(duì)負(fù)面情緒及時(shí)采取措施,防止不法分子企圖通過(guò)微博平臺(tái)傳播謠言,以此保證社會(huì)的和諧穩(wěn)定,政府了解民意,為制訂國(guó)家政策提供參考。
同時(shí)也能協(xié)助醫(yī)生分析心理障礙者,及時(shí)掌握患者情緒波動(dòng),準(zhǔn)確對(duì)患者病情進(jìn)行有效的對(duì)癥下藥。避免了患者不能準(zhǔn)確描述病情,而帶來(lái)的不相關(guān)治療。
因此對(duì)微博情感進(jìn)行研究具有重要的理論與實(shí)踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。
鑒于自主采用Java語(yǔ)言開(kāi)發(fā)的新浪微博的情感識(shí)別與分類(lèi)系統(tǒng),對(duì)中文微博的情感進(jìn)行識(shí)別與分類(lèi)研究。系統(tǒng)使用爬蟲(chóng)技術(shù)[1],抓取微博的文本內(nèi)容,然后進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對(duì)文本情感識(shí)別與分類(lèi),最終輸出分類(lèi)結(jié)果。
一、相關(guān)工作
1.1文本獲取及預(yù)處理
對(duì)微博數(shù)據(jù)資源的獲取有兩種形式,一種是用戶(hù)以普通文本形式直接在系統(tǒng)前臺(tái)相應(yīng)位置輸入待分析的文本,系統(tǒng)可以自動(dòng)進(jìn)行情感識(shí)別與分類(lèi);另一種是用戶(hù)以微博文本URL形式輸入,系統(tǒng)對(duì)用戶(hù)輸入U(xiǎn)RL連接采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取微博正文內(nèi)容。
網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)先將用戶(hù)輸入U(xiǎn)RL作為爬蟲(chóng)起點(diǎn),通過(guò)web協(xié)議(主要是HTTP協(xié)議)采集頁(yè)面,使用多線程或并列技術(shù)獲取網(wǎng)頁(yè)數(shù)據(jù)信息,網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)也提供了鏈接過(guò)濾模塊(過(guò)濾掉不符合URL規(guī)范的鏈接),頁(yè)面數(shù)據(jù)庫(kù)模板(存儲(chǔ)已經(jīng)爬取到本地的原始頁(yè)面數(shù)據(jù),以備預(yù)處理階段建立索引使用)。
為了提高分類(lèi)的準(zhǔn)確率,減少獲取文本內(nèi)容不必要干擾,對(duì)文本進(jìn)行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括:
1.文本規(guī)范化處理,判斷待處理的文本是否含有由兩個(gè)#組成的話(huà)題標(biāo)簽,若有則刪除兩個(gè)#及它們之間的文字內(nèi)容。
2.使用正則表達(dá)式判斷微博文本是否含有以下三種含@微博標(biāo)簽,若有將它們刪除①以@開(kāi)頭,以:結(jié)尾②以@開(kāi)頭,以空格結(jié)尾③以回復(fù)@開(kāi)頭以:結(jié)尾。
3.判斷英文詞語(yǔ)是否含有感彩,刪除不必要的英文詞語(yǔ)。
4.用中文描述替代含有感情的“?”和“!”去除一些標(biāo)點(diǎn)符號(hào)。
5.使用得到普遍認(rèn)可的支持Java開(kāi)發(fā)語(yǔ)言的ICTCLAS分詞工具分詞,去除停用詞。
1.2文本特征抽取
文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計(jì)算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度,消除無(wú)關(guān)特征的噪音,通過(guò)選擇可區(qū)分性強(qiáng)的少量特征來(lái)提高分類(lèi)器的分類(lèi)精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡(jiǎn)單的特征約減技術(shù),常用自動(dòng)特征選擇,通過(guò)設(shè)置目標(biāo)特征的文檔頻率閾值來(lái)進(jìn)行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值,可表示為
信息增益法[5]是指文本包含該特征項(xiàng)與不包含該特征項(xiàng)時(shí)的信息熵的差值,根據(jù)所獲信息增益的多少篩選有效特征,已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計(jì)算公式可以表示為:
由于當(dāng)特征數(shù)目較少時(shí),使用該方法得到的數(shù)據(jù)稀疏,分類(lèi)結(jié)果會(huì)不理想,因此本文首先對(duì)預(yù)處理后待分析的文本里出現(xiàn)的每個(gè)詞計(jì)算其信息增益,設(shè)置一個(gè)閾值,抽取特征詞,按照信息增益值降序選擇特征項(xiàng)組成特征向量。
期望交叉熵[6](Expected Cross Entropy)反應(yīng)了文本類(lèi)別的概率分布與在出現(xiàn)了某個(gè)詞條的情況下文本類(lèi)別的概率分布之間的距離。
詞條的交叉熵越大,對(duì)文本類(lèi)別分布影響也就越大。所以選CE最大的K個(gè)詞條作為最終的特征項(xiàng)。
期望交叉熵計(jì)算公式:
為了提供特征詞抽取的時(shí)間效率,針對(duì)微博的數(shù)據(jù)量很大的特點(diǎn),使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。
1.3文本情感識(shí)別與分類(lèi)
采用基于樸素貝葉斯主客觀句識(shí)別方法[7]和支持向量機(jī)的分類(lèi)方法[8-11]對(duì)文本分類(lèi)。樸素貝葉斯方法是一種基于事件概率簡(jiǎn)單而誤差率較小的分類(lèi)方法?;驹硎牵涸谑录鄬?duì)獨(dú)立的條件下,事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類(lèi)概率表示為
系統(tǒng)應(yīng)用思想:對(duì)有已知類(lèi)別集合S(x1,x2,…,xn),求在待分類(lèi)項(xiàng)出現(xiàn)的條件下,集合中各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)類(lèi)別的概率值大,就認(rèn)為待分類(lèi)項(xiàng)屬于那一類(lèi)別。并將對(duì)每個(gè)特征項(xiàng)主客觀句的條件概率計(jì)算結(jié)果輸出,作為支持向量機(jī)分類(lèi)器的輸入值。
系統(tǒng)的工作流程圖如圖1所示。
二、實(shí)驗(yàn)分析
使用第二屆自然語(yǔ)言處理與中文計(jì)算機(jī)會(huì)議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語(yǔ)料,含有13252個(gè)句子,且主觀句中又表明了所屬具體情感類(lèi)。情感類(lèi)別分為7個(gè)類(lèi)別,分別是:喜好、安樂(lè)、驚奇、厭惡、悲哀、憤恨和恐懼。
選擇這些數(shù)據(jù)作為系統(tǒng)測(cè)評(píng)數(shù)據(jù)主要是與系統(tǒng)測(cè)試結(jié)果進(jìn)行比較,核實(shí)評(píng)價(jià)實(shí)驗(yàn)結(jié)果的召回率(R),準(zhǔn)確率(P),性能評(píng)價(jià)指標(biāo)F值。求解公式如下所示:
系統(tǒng)將實(shí)驗(yàn)測(cè)評(píng)數(shù)據(jù)首先進(jìn)行預(yù)處理,對(duì)其進(jìn)行規(guī)范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計(jì)算結(jié)果來(lái)識(shí)別主觀句,支持向量機(jī)方法先將抽取的特征詞轉(zhuǎn)換成向量形式,再將向量化后的文本放到向量機(jī)的模型中,最終輸出分類(lèi)結(jié)果。通過(guò)計(jì)算支持向量機(jī)的情感分類(lèi)方法召回率達(dá)到74.4%,準(zhǔn)確率高達(dá)63.76%,F(xiàn)值達(dá)到0.6534.
實(shí)驗(yàn)中采用準(zhǔn)確率,召回率,F(xiàn)值測(cè)評(píng)指標(biāo),對(duì)常見(jiàn)的情感特征抽取方法[16]實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,見(jiàn)表1,通過(guò)對(duì)比樸素貝葉斯和支持向量分類(lèi)方法對(duì)主客觀句的識(shí)別結(jié)果,得出結(jié)論:本實(shí)驗(yàn)中對(duì)主客觀句的識(shí)別樸素貝葉斯方法比支持向量機(jī)方法的實(shí)驗(yàn)結(jié)果更好。因?yàn)橹С窒蛄繖C(jī)方法準(zhǔn)確率雖更高,但召回率較低。
實(shí)驗(yàn)結(jié)果見(jiàn)表2。對(duì)已識(shí)別的主客觀句,我們采用支持向量機(jī)的一對(duì)一的多步分類(lèi)方法及一對(duì)其余的一次分類(lèi)方法進(jìn)行情感分類(lèi)。
實(shí)驗(yàn)結(jié)果見(jiàn)表3。實(shí)驗(yàn)結(jié)果表明:一對(duì)一多步情感分類(lèi)方法效果優(yōu)于一對(duì)其余一次分類(lèi)。因?yàn)橐粚?duì)其余分類(lèi)方法可能出現(xiàn)重疊現(xiàn)象或因不可分類(lèi)現(xiàn)象而引起數(shù)據(jù)集的抖動(dòng)。因此實(shí)驗(yàn)最終選擇支持向量機(jī)的一對(duì)一多步分類(lèi)方法。
三、結(jié)語(yǔ)
微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動(dòng)之一,逐漸從各個(gè)方面影響著人們,網(wǎng)民帶有情感的言論對(duì)各行各業(yè)都有著不可估量的使用價(jià)值。因而對(duì)微博文本的數(shù)據(jù)分析研究有一定的社會(huì)意義。
通過(guò)查閱文獻(xiàn)發(fā)現(xiàn)基于樸素貝葉斯識(shí)別主客觀句的方法及基于機(jī)器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對(duì)中文微博的研究大部分是理論性的研究,因此本文通過(guò)構(gòu)建系統(tǒng),將基于樸素貝葉斯的識(shí)別主客觀句個(gè)方法及支持向量機(jī)的方法的研究思路實(shí)踐化。實(shí)驗(yàn)結(jié)果對(duì)企業(yè)、政府及廣大網(wǎng)民均有重要的社會(huì)意義。
展望:
1.后期會(huì)打破僅在初步解決微博文本的情感識(shí)別和分類(lèi)問(wèn)題的研究,接下來(lái)會(huì)投入對(duì)用戶(hù)的圖片信息,鏈接的視頻聲音信息進(jìn)行研究。
2.本文去除英文詞語(yǔ),采用的是人工標(biāo)注方法。鑒于部分國(guó)人傾向于有使用英文的習(xí)慣,所以會(huì)不斷的完善系統(tǒng)情感庫(kù),或設(shè)計(jì)系統(tǒng)能自動(dòng)翻譯,以此減少人工工作量。
參 考 文 獻(xiàn)
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 張彪.基于關(guān)聯(lián)分析的文本分類(lèi)特征選擇算法[J].計(jì)算機(jī)工程.2010(22):184-186.
[3]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶大學(xué),2012.
[6] 廖一星.文本分類(lèi)及其特征降維研究[D].浙江大學(xué).2012
[7] 蔣良孝.樸素貝葉斯分類(lèi)器及其改進(jìn)算法研究[D].中國(guó)地質(zhì)大學(xué),2009
[8]楊鼎,陽(yáng)愛(ài)民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類(lèi)方法 [J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]趙暉.支持向量機(jī)分類(lèi)方法及其在文本分類(lèi)中的應(yīng)用研究[D].大連理工大學(xué),2006.
[11]張博.基于SVM的中文觀點(diǎn)句抽取.[D].北京.北京郵電大學(xué),2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類(lèi)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89-93.
中圖分類(lèi)號(hào):F820 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9031(2014)02-0054-05 DOI:10.3969/j.issn.1003-9031.2014.02.12
一、引言
截至2013年6月末,我國(guó)網(wǎng)民規(guī)模達(dá)到5.91億,互聯(lián)網(wǎng)普及率為44.1%。其中微博網(wǎng)民規(guī)模為3.31億,網(wǎng)民中的微博使用率達(dá)到了56.0%①。目前微博已經(jīng)成為網(wǎng)民獲取信息的重要途徑之一,由于微博具有龐大的用戶(hù)群體以及其開(kāi)放性、互動(dòng)性和低成本等特點(diǎn),越來(lái)越多的企業(yè)開(kāi)始挖掘微博潛在的商業(yè)價(jià)值并開(kāi)設(shè)企業(yè)官方微博。就汽車(chē)行業(yè)來(lái)說(shuō),自新浪微博2009年推出企業(yè)微博應(yīng)用,此后汽車(chē)品牌以每5天開(kāi)設(shè)一個(gè)新官方微博的速度平穩(wěn)增長(zhǎng),于2011年8月份基本達(dá)到飽和,說(shuō)明汽車(chē)企業(yè)對(duì)微博營(yíng)銷(xiāo)的重視,但是51.7%的汽車(chē)品牌官方微博粉絲數(shù)都在7萬(wàn)左右,相對(duì)于我國(guó)8839萬(wàn)私人汽車(chē)保有量來(lái)說(shuō),汽車(chē)品牌官方微博還是有很大的粉絲增長(zhǎng)空間②。總的來(lái)說(shuō),微博的發(fā)展以及其優(yōu)質(zhì)的傳播特性為企業(yè)營(yíng)銷(xiāo)提供了一個(gè)新的平臺(tái),也為企業(yè)實(shí)現(xiàn)品牌推廣、提高品牌價(jià)值提供了新的機(jī)遇。
但是,許多企業(yè)使用微博營(yíng)銷(xiāo)效果與其品牌不能匹配,實(shí)施效果并不理想,存在諸如戰(zhàn)略與資金的匹配、營(yíng)銷(xiāo)策略的制定和執(zhí)行等問(wèn)題,使得企業(yè)在微博中的營(yíng)銷(xiāo)效果往往會(huì)向兩極發(fā)展,要么通過(guò)持續(xù)運(yùn)作贏得更多粉絲關(guān)注和響應(yīng),要么不溫不火,直到消失(Court,2009; Shandwick,2009; Passant,2010; Xu,2010)[1-4]。
綜合以上考慮,企業(yè)如何通過(guò)官方微博提高微博營(yíng)銷(xiāo)效果成為了研究的重點(diǎn),長(zhǎng)期的微博營(yíng)銷(xiāo)效果是由短期效果的疊加形成的,而短期微博營(yíng)銷(xiāo)效果是由每條微博文本內(nèi)容的價(jià)值等體現(xiàn)的。企業(yè)微博的目的是希望其具有盡可能廣的傳播范圍,而微博文本內(nèi)容是影響其傳播的重要因素之一。微博與文本分析的結(jié)合是近年來(lái)理論和實(shí)務(wù)界研究的熱點(diǎn),本文以沃爾沃汽車(chē)官方微博為案例,將其的微博文本分為公共類(lèi)、有獎(jiǎng)活動(dòng)類(lèi)、產(chǎn)品宣傳類(lèi)、品牌事件類(lèi),研究不同類(lèi)型的微博對(duì)總轉(zhuǎn)發(fā)量的影響;與此同時(shí),將微博的時(shí)間分為空閑時(shí)間和非空閑時(shí)間,研究不同時(shí)間段微博對(duì)總轉(zhuǎn)發(fā)量是否有影響,從而為沃爾沃汽車(chē)微博平臺(tái)管理提供指導(dǎo)意見(jiàn),提高其微博營(yíng)銷(xiāo)效果。
二、文獻(xiàn)回顧和問(wèn)題提出
(一)微博營(yíng)銷(xiāo)效果的評(píng)估
傳統(tǒng)營(yíng)銷(xiāo)效果的度量指標(biāo)有很多,如產(chǎn)品的銷(xiāo)售額、所占的市場(chǎng)份額、營(yíng)銷(xiāo)的回報(bào)率等,這些指標(biāo)的數(shù)據(jù)獲取相對(duì)容易,但運(yùn)用到社會(huì)化媒體(如微博)的營(yíng)銷(xiāo)效果評(píng)估存在一定的局限性。國(guó)內(nèi)外對(duì)社會(huì)化媒體的營(yíng)銷(xiāo)效果研究至今仍沒(méi)有一個(gè)公認(rèn)的評(píng)估模式,比較有代表性如下幾個(gè):Chris(2009)總結(jié)了具有一定普適性的社會(huì)化媒體營(yíng)銷(xiāo)效果度量標(biāo)準(zhǔn)框架,其中包括定性的評(píng)估指標(biāo)(用戶(hù)評(píng)論的觀點(diǎn)和討論的主題等)以及定量的評(píng)估指標(biāo)(評(píng)論量、粉絲數(shù)、產(chǎn)品手冊(cè)的下載量等)[5];Richard(2010)將社會(huì)化媒體影響用戶(hù)的過(guò)程劃分為四個(gè)階段(Awareness-Appreciation-Action-Advocacy),根據(jù)4As不同階段定義核心指標(biāo)[6],但該模型的構(gòu)建表現(xiàn)為單方向遞進(jìn),針對(duì)企業(yè)微博營(yíng)銷(xiāo)互動(dòng)反饋的特性,具有一定的局限性;Yamaguchi(2010)等將提出TURank ( Twitter User Rank) 來(lái)計(jì)算用戶(hù)影響力排名[7];Park等(2011)通過(guò)TAM模型實(shí)證分析了企業(yè)微博用戶(hù)的知名度、互動(dòng)性、信任度對(duì)Twitter上的企業(yè)微博營(yíng)銷(xiāo)有顯著影響[8]。上述研究的重點(diǎn)在于整個(gè)企業(yè)微博營(yíng)銷(xiāo)效果的評(píng)估,對(duì)博文營(yíng)銷(xiāo)效果進(jìn)行評(píng)價(jià)的研究尚不多見(jiàn)。
國(guó)內(nèi)微博起步較晚,API開(kāi)放性較低,數(shù)據(jù)獲取相對(duì)困難,也導(dǎo)致了國(guó)內(nèi)以企業(yè)微博營(yíng)銷(xiāo)為研究對(duì)象的學(xué)術(shù)文章相對(duì)較少。金永生等(2011)指出對(duì)企業(yè)微博營(yíng)銷(xiāo)效果的測(cè)量主要針對(duì)短期效果,用“被微博用戶(hù)轉(zhuǎn)發(fā)的含有有獎(jiǎng)營(yíng)銷(xiāo)信息標(biāo)簽的企業(yè)微博的總數(shù)”作為衡量企業(yè)微博營(yíng)銷(xiāo)短期效果的評(píng)價(jià)指標(biāo)[9],但是筆者在咨詢(xún)新浪微博客服后發(fā)現(xiàn),微博搜索引擎會(huì)將相同結(jié)果合并,所以該評(píng)價(jià)指標(biāo)的可靠性值得商榷。趙愛(ài)琴(2012)借鑒了Murdough 的研究框架,結(jié)合國(guó)內(nèi)企業(yè)微博運(yùn)營(yíng)現(xiàn)狀,提出企業(yè)微博營(yíng)銷(xiāo)效果的評(píng)估模型AESAR(Awareness 注意-Engagement參與-Sentiment 態(tài)度-Action 行動(dòng)-Retention保留) 與評(píng)估指標(biāo)[10],但模型沒(méi)有給出各個(gè)指標(biāo)相對(duì)于營(yíng)銷(xiāo)效果的重要程度,也沒(méi)有實(shí)證數(shù)據(jù)的支持。陳曉明(2012)給出了微博營(yíng)銷(xiāo)的投資回報(bào)率(ROI)的計(jì)算公式[11],但沒(méi)有用于實(shí)證分析,因?yàn)楣街械奈⒉I(yíng)銷(xiāo)總收益難以衡量。畢凌燕(2013)根據(jù)微博傳播信息流,運(yùn)用PageRank算法思想和用戶(hù)行為權(quán)值,提出一種評(píng)價(jià)企業(yè)微博博文營(yíng)銷(xiāo)效果的量化方案[12]。由于新浪對(duì)企業(yè)微博數(shù)據(jù)進(jìn)行了保護(hù),這種方法的數(shù)據(jù)抓取有一定的難度。
本文擬以單條微博的總轉(zhuǎn)發(fā)量作為博文營(yíng)銷(xiāo)效果的評(píng)價(jià)指標(biāo),該做法的意義及理由如下:一是研究博文的營(yíng)銷(xiāo)效果對(duì)企業(yè)管理微博平臺(tái)具有更強(qiáng)的可操作性;二是從2012年3月起,新浪微博等實(shí)施實(shí)名認(rèn)證,沒(méi)有通過(guò)認(rèn)證的用戶(hù)只能瀏覽微博內(nèi)容,而不能進(jìn)行評(píng)論、轉(zhuǎn)發(fā)等相關(guān)操作,這對(duì)打擊“僵尸粉”、保證傳播效果的真實(shí)性起到了一定的作用,也使得用“總轉(zhuǎn)發(fā)量”作為評(píng)價(jià)指標(biāo)具有一定的可靠性;三是畢凌燕(2013)的研究指出博文被評(píng)論和轉(zhuǎn)發(fā)的次數(shù)(而不是粉絲數(shù)),更能確切反應(yīng)其微博被用戶(hù)關(guān)注的程度和營(yíng)銷(xiāo)效果;四是程雪芬(2012)研究得出企業(yè)微博營(yíng)銷(xiāo)效果與真實(shí)粉絲數(shù)和平均轉(zhuǎn)發(fā)量正相關(guān)[13],本文假設(shè)短期內(nèi)企業(yè)微博真實(shí)粉絲數(shù)保持不變,故“總轉(zhuǎn)發(fā)量”一定程度上可以用于衡量企業(yè)微博營(yíng)銷(xiāo)效果。
(二)微博文本分析
微博平臺(tái)與文本挖掘技術(shù)的相結(jié)合是近年來(lái)理論與實(shí)務(wù)界研究的熱點(diǎn),但其研究成果還處于初級(jí)階段。陳致中(2012)以騰訊微博為例,采用問(wèn)卷調(diào)查法探討什么樣的文本組合最能起到改變受眾態(tài)度的效果,結(jié)果發(fā)現(xiàn)廣告類(lèi)信息的態(tài)度改變效果不明顯,而非廣告類(lèi)的信息能夠有效改變受眾對(duì)企業(yè)微博的態(tài)度[14],由于其采用的是問(wèn)卷調(diào)查法,而非真實(shí)的微博數(shù)據(jù),其可靠性有待檢驗(yàn)。程雪芬(2012)把微博文本內(nèi)容分為工具型和情感型,結(jié)果得出工具型微博對(duì)粉絲數(shù)和平均轉(zhuǎn)發(fā)量都有顯著的正向影響,情感型微博對(duì)二者幾乎沒(méi)有影響。
本文選取“沃爾沃汽車(chē)中國(guó)”官方微博為案例,將其微博文本分為公共類(lèi)、有獎(jiǎng)活動(dòng)類(lèi)、產(chǎn)品宣傳類(lèi)和品牌事件類(lèi),根據(jù)前人的研究以及經(jīng)驗(yàn)提出如下假設(shè):
H1:公共類(lèi)微博對(duì)總轉(zhuǎn)發(fā)量有正影響;
H2:有獎(jiǎng)活動(dòng)類(lèi)微博對(duì)總轉(zhuǎn)發(fā)量有正影響;
H3:產(chǎn)品宣傳類(lèi)微博對(duì)總轉(zhuǎn)發(fā)量有負(fù)影響;
H4:品牌事件類(lèi)微博對(duì)總轉(zhuǎn)發(fā)量有正影響。
(三)微博時(shí)間
學(xué)術(shù)界目前尚未有探究微博時(shí)間對(duì)企業(yè)微博短期營(yíng)銷(xiāo)效果的影響,這也是本文最大的創(chuàng)新點(diǎn)所在。前人與微博時(shí)間相關(guān)的研究有:Schneider等(2009)通過(guò)對(duì)Facebook, LinkedIn, Hi5, StudiVZ等四種社交網(wǎng)站上同樣賬號(hào)的屬性、特點(diǎn)、動(dòng)態(tài)變化等進(jìn)行跟蹤分析,得出用戶(hù)喜歡在不同社交網(wǎng)站做相同的事情,用戶(hù)總上網(wǎng)時(shí)間有限,在某個(gè)社交網(wǎng)站停留時(shí)間越多,會(huì)明顯擠占在其它社交網(wǎng)站的停留時(shí)間[15],這從側(cè)面反映了企業(yè)微博需要迎合用戶(hù)的興趣及使用時(shí)間;新浪的《2012企業(yè)微博白皮書(shū)》顯示,企業(yè)微博集中在周一到周五,從24小時(shí)分布情況看,早上9點(diǎn)至10點(diǎn)是企業(yè)發(fā)博的最高峰。筆者在前期研究江淮乘用車(chē)官方微博時(shí)發(fā)現(xiàn),可能是由于企業(yè)聘用專(zhuān)職員工管理微博平臺(tái),其微博的時(shí)間集中在周一至周五的上班時(shí)間;而個(gè)人發(fā)博時(shí)間(也可看成是個(gè)人微博活躍時(shí)間)比較均勻,而在22點(diǎn)到凌晨24點(diǎn)達(dá)到峰值(見(jiàn)圖1)。
本文認(rèn)為,企業(yè)微博的時(shí)間與真實(shí)用戶(hù)活躍時(shí)間不一致,可能會(huì)導(dǎo)致微博營(yíng)銷(xiāo)效果受到影響。在此,從個(gè)人用戶(hù)使用微博的角度來(lái)看,定義“非空閑時(shí)間”為工作日的上午8:00至下午18:00,其余時(shí)間定義為“空閑時(shí)間”,并提出如下假設(shè):
H5a:空閑時(shí)間的微博對(duì)總轉(zhuǎn)發(fā)量有正影響;
H5b:非空閑時(shí)間的微博對(duì)總轉(zhuǎn)發(fā)量有負(fù)影響。
本文研究的創(chuàng)新點(diǎn)在于,研究單個(gè)企業(yè)微博文本的營(yíng)銷(xiāo)效果的影響因素,對(duì)企業(yè)微博平臺(tái)管理更具有可操作性;由于文本分類(lèi)的靈活性,為其他企業(yè)研究其自身微博營(yíng)銷(xiāo)效果提供了方向;提出了微博時(shí)間對(duì)博文營(yíng)銷(xiāo)效果可能的影響。
三、主要研究變量與數(shù)據(jù)樣本
(一)主要研究變量
1.因變量
本文以單條微博的總轉(zhuǎn)發(fā)量作為博文營(yíng)銷(xiāo)效果的評(píng)價(jià)指標(biāo),由于總轉(zhuǎn)發(fā)量的數(shù)字不僅包括一級(jí)轉(zhuǎn)發(fā),還包括以后的各級(jí)轉(zhuǎn)發(fā)(即:A發(fā)表原創(chuàng)微博a,B轉(zhuǎn)發(fā)該條微博a;C再轉(zhuǎn)發(fā)B轉(zhuǎn)發(fā)的a,D再轉(zhuǎn)發(fā)C轉(zhuǎn)發(fā)的a……所有的這些轉(zhuǎn)發(fā)量都體現(xiàn)a的轉(zhuǎn)發(fā)量中),所以總轉(zhuǎn)發(fā)量在一定程度上體現(xiàn)了微博文本的傳播廣度和深度,可作為博文營(yíng)銷(xiāo)效果的評(píng)價(jià)指標(biāo)。
2.主要解釋變量
前人研究的企業(yè)微博營(yíng)銷(xiāo)影響因素主要有粉絲數(shù)量、企業(yè)品牌本身的影響力、微博數(shù)量、微博內(nèi)容價(jià)值等等,本文針對(duì)單個(gè)企業(yè)短期的博文營(yíng)銷(xiāo)效果進(jìn)行研究,并假設(shè)短期內(nèi)企業(yè)品牌本身的影響力和活躍粉絲數(shù)等因素保持不變,故主要解釋變量設(shè)定為微博文本內(nèi)容和發(fā)博時(shí)間。
(1)微博文本內(nèi)容
在對(duì)“沃爾沃汽車(chē)中國(guó)”微博文本閱讀后,本文將其微博文本內(nèi)容分為公共類(lèi)、有獎(jiǎng)活動(dòng)類(lèi)、產(chǎn)品宣傳類(lèi)和品牌事件類(lèi)。公共類(lèi)指與企業(yè)無(wú)直接關(guān)系的內(nèi)容,如公共事件、時(shí)事、趣聞、祝福、實(shí)用信息等;有獎(jiǎng)活動(dòng)類(lèi)指用戶(hù)參與并有機(jī)會(huì)獲得獎(jiǎng)勵(lì)的內(nèi)容,如轉(zhuǎn)發(fā)送禮品、話(huà)費(fèi)充值等;產(chǎn)品宣傳類(lèi)指與企業(yè)產(chǎn)品或服務(wù)有關(guān)的介紹,如車(chē)型介紹、廣告、產(chǎn)品設(shè)計(jì)等;品牌事件類(lèi)指與企業(yè)有關(guān)的客觀事件的報(bào)道,如企業(yè)新聞、品牌活動(dòng)等。
為分析不同類(lèi)型文本對(duì)總轉(zhuǎn)發(fā)量的影響,引入虛擬變量sort1、sort2、sort3,其中:
sort1=1 公共類(lèi)0 有獎(jiǎng)活動(dòng)類(lèi)、產(chǎn)品宣傳類(lèi)或品牌事件類(lèi)
sort2=1 有獎(jiǎng)活動(dòng)類(lèi)0 產(chǎn)品宣傳類(lèi)或品牌事件類(lèi)
sort3=1 產(chǎn)品宣傳類(lèi)0 品牌事件類(lèi)
(2)發(fā)博時(shí)間
考慮到2013年9~10月期間中秋節(jié)和國(guó)慶節(jié)的放假安排,將所有法定工作日的8:00~18:00定義為“非空閑時(shí)間”,其余時(shí)間為“空閑時(shí)間”,引入虛擬變量time,并定義:
time=1 空閑時(shí)間0 非空閑時(shí)間
(二)數(shù)據(jù)樣本
本文記錄了“沃爾沃汽車(chē)中國(guó)”官方微博2013年9月1日至10月24日的所有341條微博作為基本研究對(duì)象,對(duì)其微博文本進(jìn)行了人工分類(lèi),公共類(lèi)、有獎(jiǎng)活動(dòng)類(lèi)、產(chǎn)品宣傳類(lèi)和品牌事件類(lèi)的微博占比分別為41.9%、1.2%、49.0%和7.9%,說(shuō)明沃爾沃主要利用微博平臺(tái)進(jìn)行產(chǎn)品的宣傳。發(fā)博時(shí)間方面,空閑時(shí)間與非空閑時(shí)間占比分別為42.5%和57.5%,此處空閑時(shí)間的樣本量占比并不低,可能是9~10月中秋和國(guó)慶長(zhǎng)假的原因(微博平臺(tái)在假期有專(zhuān)人維護(hù))。
四、實(shí)證分析
考慮到空閑時(shí)間與非空閑時(shí)間企業(yè)微博的內(nèi)容可能存在差異,故將類(lèi)型虛擬變量與時(shí)間變量的乘積作為模型的交叉項(xiàng),構(gòu)建計(jì)量模型(見(jiàn)表1)。
以上所有自變量及交叉項(xiàng)均通過(guò)檢驗(yàn),R2值較高,F(xiàn)統(tǒng)計(jì)量也在1%水平下通過(guò)檢驗(yàn)??傮w來(lái)看,有獎(jiǎng)活動(dòng)類(lèi)微博最能夠刺激轉(zhuǎn)發(fā),其次是品牌事件類(lèi),公共類(lèi)和產(chǎn)品宣傳類(lèi)促進(jìn)轉(zhuǎn)發(fā)效果較差,假設(shè)H2、H3、H4得到驗(yàn)證;空閑時(shí)間相比于非空閑時(shí)間更能夠促進(jìn)轉(zhuǎn)發(fā),假設(shè)H5a、H5b得到驗(yàn)證。具體到各類(lèi)微博內(nèi)容的分析,相關(guān)數(shù)據(jù)見(jiàn)表2。
由表2可知,公共類(lèi)微博在促進(jìn)轉(zhuǎn)發(fā)方面表現(xiàn)最差,企業(yè)可適當(dāng)減少公共類(lèi)微博的,或者精選優(yōu)質(zhì)的公共類(lèi)微博;公共類(lèi)微博在空閑時(shí)間的總轉(zhuǎn)發(fā)量要高于非空閑時(shí)間,故企業(yè)可將部分公共類(lèi)微博的時(shí)間調(diào)整到晚上或者周末,以迎合個(gè)人用戶(hù)的上網(wǎng)時(shí)間,提高微博營(yíng)銷(xiāo)效果。
有獎(jiǎng)活動(dòng)類(lèi)微博的總轉(zhuǎn)發(fā)量都比較大,但是企業(yè)不太可能增加太多該類(lèi)微博的,所以如何利用好有獎(jiǎng)活動(dòng)類(lèi)微博加強(qiáng)與用戶(hù)的互動(dòng)聯(lián)系以及提高活躍粉絲數(shù)成為微博營(yíng)銷(xiāo)的關(guān)鍵,如在實(shí)際操作中,企業(yè)可以在有獎(jiǎng)活動(dòng)類(lèi)微博時(shí)設(shè)置關(guān)于品牌的相關(guān)問(wèn)答題。
產(chǎn)品宣傳類(lèi)比較特殊,其在空閑時(shí)間的總轉(zhuǎn)發(fā)量不如非空閑時(shí)間,可能的原因是,空閑時(shí)間大量微博充斥,對(duì)個(gè)人用戶(hù)而言,其興趣點(diǎn)可能并不在企業(yè)產(chǎn)品宣傳上(此結(jié)論并不一定適用于其他行業(yè)的企業(yè))。對(duì)汽車(chē)企業(yè)來(lái)說(shuō),在空閑時(shí)間要控制產(chǎn)品宣傳類(lèi)微博的數(shù)量,以免引起用戶(hù)的反感。
品牌事件類(lèi)微博總體轉(zhuǎn)發(fā)量較好,空閑時(shí)間比非空閑時(shí)間的營(yíng)銷(xiāo)效果更好,可能是因?yàn)槠放剖录?lèi)微博比較客觀,對(duì)于傳播品牌理念和提升品牌影響力有積極的作用,企業(yè)應(yīng)當(dāng)增加該類(lèi)微博的量。
五、結(jié)論與展望
本文的研究結(jié)果表明,有獎(jiǎng)活動(dòng)類(lèi)微博最能刺激轉(zhuǎn)發(fā),企業(yè)應(yīng)充分利用有獎(jiǎng)活動(dòng)提高真實(shí)粉絲數(shù);品牌事件類(lèi)微博較公共類(lèi)和產(chǎn)品宣傳類(lèi)微博具有更好的傳播效果,企業(yè)可以對(duì)品牌事件類(lèi)和公共類(lèi)微博進(jìn)行精選后,促進(jìn)品牌價(jià)值的傳播;總體上空閑時(shí)間的微博具有更好的營(yíng)銷(xiāo)效果,企業(yè)可根據(jù)不同類(lèi)別的微博內(nèi)容選擇合適的時(shí)間。
本文采用案例分析方法,其研究結(jié)論的可推廣性有待檢驗(yàn)。可能進(jìn)一步的研究方向是采用大數(shù)據(jù),以前沿的文本和圖片分析技術(shù),更細(xì)致地分析企業(yè)微博內(nèi)容的價(jià)值,為提高企業(yè)微博營(yíng)銷(xiāo)效果提供更為精確的指導(dǎo)建議。■
參考文獻(xiàn):
[1]David C., Dave E., Susan M., Ole J.V.. The consumer decision journey[EB/OL].[2009-06].,http:///insights/marketing_sales/the_consumer_decision_journey.
[2]Shandwick W. Do for 100 companies need a vention
[EB/OL].[2009-11], http:///resources/ws/flash/Twittervention_Study.pdf.
[3]Passant A, Bojars U, Breslin J G, et al. An Overview of SMOB 2: Open, Semantic and Distributed Microblogging[C].//ICWSM.2010.303-306.
[4]Xu T, Chen Y, Fu X, et al. Twittering by cuckoo: decentralized and socio-aware online microblogging services[C].//ACM SIGCOMM Computer Communication Review. ACM, 2010, 40(4): 473-474.
[5]Murdough C. Social media measurement: it's not impossible[J]. Journal of Interactive Advertising, 2009(10):94-95.
[6]Pentin R, Senior Planner T M W. A New Framework For Measuring Social Media Activity[R]. TMW, 2010.
[7]Yamaguchi Y, Takahashi T. TURank: Twitter User
Ranking based on User-tweet Graph Analysis[C].WISE 2010:240-253.
[8]ByungHee P., JungHoon L., SoYeon P.. A study focusing the factors that influence SNS users' usage of corporate SNS sites focusing on Twitter[C].//The 11th International Conference of Decision Sciences Institute and The 16th Annual Conference of Asia-Pacific Decision Sciences Institute, Taipei: IEEE Press, 2011: 681-687.
[9]金永生,王睿,陳祥兵.企業(yè)微博營(yíng)銷(xiāo)效果和粉絲數(shù)量的短期互動(dòng)模型[J].管理科學(xué),2011(4):71-83.
[10]趙愛(ài)琴,朱景煥.企業(yè)微博營(yíng)銷(xiāo)效果評(píng)估研究[J].江蘇商論,2012(1):89-92.
[11]陳曉明.企業(yè)微博客營(yíng)銷(xiāo)效果的影響因素分析[D].廣州:暨南大學(xué),2012.
[12]畢凌燕,張鎮(zhèn)鵬,左文明.基于微博傳播信息流的微博效果評(píng)價(jià)模型及實(shí)證研究[J].情報(bào)雜志,2013(7):69-73.
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員劉世霞博士告訴CHIP,之所以現(xiàn)有的文本挖掘技術(shù)不夠用,首先是因?yàn)槟壳凹夹g(shù)尚處于研究階段,精準(zhǔn)度不夠;其次是因?yàn)榧夹g(shù)的靈活性不足,很難滿(mǎn)足不同人的需求。她和同組的副研究員崔為煒以及香港科技大學(xué)屈華民教授共同主導(dǎo)的TextFlow項(xiàng)目在破解這個(gè)難題方面提出了新的思路,他們將文本挖掘技術(shù)與可視化這種交互技術(shù)結(jié)合在一起,不僅突破了傳統(tǒng)靜態(tài)文本挖掘技術(shù)的限制,而且能讓人利用直觀的流式圖形迅速把握海量信息的發(fā)展脈絡(luò)。在國(guó)際最頂尖的信息可視化學(xué)術(shù)會(huì)議IEEE InfoVis 2011上,TextFlow論文的引發(fā)了業(yè)內(nèi)人士的關(guān)注。有評(píng)委表示,“該論文的主要貢獻(xiàn)是在海量文本分析中引入主題合并和分裂的理念,這是分析主題演化時(shí)面臨的最大挑戰(zhàn)之一,從文本挖掘和可視化兩個(gè)角度來(lái)說(shuō)都意義非凡?!?/p>
有趣的是,他們?cè)谡撐闹幸宰陨碜钍煜さ念I(lǐng)域——可視化研究作為其中一個(gè)案例,將2001年至2010年間發(fā)表在IEEE Vis和InfoVis兩個(gè)學(xué)術(shù)會(huì)議上的933篇論文作為文本數(shù)據(jù)集合,通過(guò)TextFlow模型得出了與實(shí)際學(xué)術(shù)發(fā)展潮流相當(dāng)吻合的圖表,其結(jié)論令人信服。例如,整體上看,過(guò)去10年間Vis相關(guān)主題有日漸式微的趨勢(shì),2006年之后各個(gè)主題獨(dú)立發(fā)展;InfoVis與之相反,整體的趨勢(shì)是上升的,主題之間的合并和分割非常多,說(shuō)明該領(lǐng)域的研究更活躍。
他們是如何做到的呢?崔為煒向我們解釋了文本可視分析的步驟(如上圖所示)。首先,主要由機(jī)器來(lái)完成海量文本的收集和預(yù)處理工作。然后,利用自然語(yǔ)言分析中的概率模型HDP(Hierarchical Dirichlet Process)計(jì)算出文本所屬的主題(topic)。這里假設(shè)每個(gè)主題都是由一組關(guān)鍵詞來(lái)描述的,關(guān)鍵詞以不同的概率出現(xiàn)在不同的主題中,每篇文章自然也會(huì)以一定的概率屬于不同的主題(注:傳統(tǒng)聚類(lèi)方法會(huì)認(rèn)為每個(gè)文本只屬于一個(gè)主題)。劉世霞強(qiáng)調(diào),HDP模型的優(yōu)勢(shì)是可以自動(dòng)確定文本中的主題數(shù)量,但是它只能計(jì)算出一組靜態(tài)文本數(shù)據(jù)的主題,無(wú)法進(jìn)一步找出主題之間的關(guān)系。2010年的時(shí)候,他們成功改進(jìn)了HDP模型,將這個(gè)語(yǔ)言模型擴(kuò)展到能處理動(dòng)態(tài)的文本數(shù)據(jù)流。簡(jiǎn)單地說(shuō),就是跟蹤比較T1和T2兩個(gè)時(shí)刻文本內(nèi)容的變化情況,由此來(lái)確定主題之間是否發(fā)生了合并或者分裂。文本分析的最后一步就是利用前面得出的主題演化結(jié)果,計(jì)算出其中的關(guān)鍵事件和關(guān)鍵詞,從而更好地展示事件發(fā)展的來(lái)龍去脈。
在談到TextFlow模型對(duì)于主題合并和分割判斷的準(zhǔn)確率時(shí),劉世霞表示目前還沒(méi)有一個(gè)固定的樣本集可供測(cè)試,但把多個(gè)領(lǐng)域的分析結(jié)果拿給相關(guān)領(lǐng)域?qū)<也榭磿r(shí),他們都認(rèn)為結(jié)果比較準(zhǔn)確,可以達(dá)到滿(mǎn)足應(yīng)用的水平。另外,我們還了解到TextFlow模型的主要算法本身與語(yǔ)言是無(wú)關(guān)的,中文與英文的區(qū)別主要在于海量文本預(yù)處理階段的分詞技術(shù),這方面已經(jīng)有成熟的技術(shù)可以完成。
William Ribarsky是北卡羅萊納州大學(xué)Charlotte可視化研究中心創(chuàng)始董事,非常關(guān)注微軟亞洲研究院在文本可視分析方面所做的工作,他在美國(guó)召開(kāi)的一次學(xué)術(shù)會(huì)議的發(fā)言中提到劉世霞所做的交互式可視文本分析,并稱(chēng)“這項(xiàng)成果令人刮目相看”。在撲面而來(lái)的大數(shù)據(jù)時(shí)代,相信未來(lái)利用TextFlow模型可以做許多幫助企業(yè)提升生產(chǎn)效率的事情。崔為煒向我們演示的案例中既包括對(duì)歷史新聞事件的回放,也包括跟蹤社交媒體的數(shù)據(jù)預(yù)測(cè)即將發(fā)生的新聞事件。由此引申開(kāi)來(lái),所有之前難以度量的文本數(shù)據(jù)或許都能迎來(lái)一次重生的機(jī)會(huì)。在信息時(shí)代,誰(shuí)能把握住信息的脈搏,誰(shuí)就能更好地把握住時(shí)代的脈搏。
文章開(kāi)頭虛構(gòu)的面試題,大家找到答案了嗎?
聲音
我們應(yīng)該把文本挖掘技術(shù)和可視化這種交互技術(shù)結(jié)合在一起,讓人去做人擅長(zhǎng)的事情,機(jī)器去做機(jī)器擅長(zhǎng)的事情。機(jī)器擅長(zhǎng)做什么呢?機(jī)器比較擅長(zhǎng)去存儲(chǔ),做大數(shù)據(jù)量的運(yùn)算,而人有分析的能力。因此,我們的工作主要就是把人的智能和機(jī)器的計(jì)算能力結(jié)合在一起。
——?jiǎng)⑹老?/p>
微軟亞洲研究院網(wǎng)絡(luò)圖形組主管研究員
1.時(shí)代背景
自21世紀(jì)以來(lái),數(shù)據(jù)爆炸已是人類(lèi)的重大挑戰(zhàn),人們淹沒(méi)在數(shù)據(jù)海洋中,卻對(duì)信息,知識(shí)極其缺乏,人類(lèi)分析數(shù)據(jù)的能力與獲取數(shù)據(jù)的能力相差甚遠(yuǎn)。同時(shí),數(shù)據(jù)的多態(tài)、高維、獲取的動(dòng)態(tài)性、數(shù)據(jù)關(guān)系的異構(gòu)更增加了數(shù)據(jù)使用的難度。在傳統(tǒng)企業(yè)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫(kù)有越來(lái)越多無(wú)法進(jìn)行管理的數(shù)據(jù)。這類(lèi)數(shù)據(jù)的量巨大,具有多樣性,如各類(lèi)文本、圖像、視頻、傳感器信息,且數(shù)據(jù)產(chǎn)生和更新的頻率上升到一個(gè)新層次。總結(jié)下即為海量化(Volume),多樣化(Variety),快速化(Velocity),這三點(diǎn)為大數(shù)據(jù)的主要特征。人們要從海量非結(jié)構(gòu)化數(shù)據(jù)中挖掘有用信息的這種推力,使大數(shù)據(jù)技術(shù)正逐步代替?zhèn)鹘y(tǒng)信息管理技術(shù)。伴隨著推力巨大的互聯(lián)網(wǎng),大數(shù)據(jù)時(shí)代的大幕正逐步拉起。而在這發(fā)展過(guò)程中,能有效呈現(xiàn)多元化數(shù)據(jù), 便于決策的數(shù)據(jù)可視化便越來(lái)越引起關(guān)注。
2.數(shù)據(jù)可視化的作用
在信息科學(xué)與知識(shí)管理中,DIKW(Data,Information,Knowledge,Wisdom)體系作為最基礎(chǔ)的模型,在數(shù)據(jù)處理流程中完成從數(shù)據(jù)到智慧的轉(zhuǎn)化。人們急切的需要能展示演繹數(shù)據(jù)的工具,并且能夠傳達(dá)數(shù)據(jù)身后真正的知識(shí)與智慧的工具。在整個(gè)轉(zhuǎn)化過(guò)程中,可視化于溝通,傳遞,表達(dá)方面表現(xiàn)出明顯的優(yōu)勢(shì)。
數(shù)據(jù)可視化運(yùn)用計(jì)算機(jī)圖形學(xué),圖像處理等技術(shù),并以其在視覺(jué)感知與人腦認(rèn)知上的優(yōu)勢(shì)使美學(xué)因素融合在數(shù)據(jù)分析中。優(yōu)秀的數(shù)據(jù)信息圖甚至可以達(dá)到藝術(shù)的層面,令人賞心悅目。其在數(shù)據(jù)處理流程中持續(xù)的優(yōu)勢(shì),使數(shù)據(jù)可視化交互工具市場(chǎng)逐步做大。
數(shù)據(jù)就是石油,傳統(tǒng)的各類(lèi)領(lǐng)域中不被重視的數(shù)據(jù)重新歸納總結(jié)會(huì)釋放出巨大潛力。新聞中的數(shù)據(jù)信息可以歸納為信息圖表,再與其他新聞進(jìn)行分析整合,人們往往可以從中有收獲。政府機(jī)關(guān)的數(shù)據(jù)通過(guò)有效整理并進(jìn)行可視化,可以增加其透明度,民眾可以更容易獲取有效信息。企業(yè)數(shù)據(jù)可視化,可以對(duì)整個(gè)企業(yè)運(yùn)營(yíng)流程有很好的掌控,便于管理與盈利。網(wǎng)絡(luò)數(shù)據(jù)及公共資源的潛在價(jià)值也極大,各類(lèi)社交網(wǎng)站開(kāi)放的API可以供開(kāi)發(fā)研究人員挖掘人們生活消費(fèi)習(xí)慣,甚至可以通過(guò)文本分析并進(jìn)行可視化發(fā)現(xiàn)流行病的爆發(fā)趨勢(shì),購(gòu)物網(wǎng)站對(duì)用戶(hù)已購(gòu)貨物記錄進(jìn)行地域偏好分析,也可獲得有價(jià)值的情報(bào)。
3.主要應(yīng)用
3.1 文本可視化
將文本信息提取技術(shù)與可視化相結(jié)合的文本可視化可以輔助用戶(hù)將文本中的信息簡(jiǎn)潔地呈現(xiàn)出來(lái)。原始文本經(jīng)過(guò)文本信息挖掘,視圖繪制和人機(jī)交互,這便是基本的可視化流程。在諸多網(wǎng)站上,文本可視化的標(biāo)簽云技術(shù)已越來(lái)越常見(jiàn),其為基于關(guān)鍵詞的最簡(jiǎn)單的文本可視化技術(shù),用顏色和字體的大小體現(xiàn)關(guān)鍵詞于文本中的分布差異,衍生的Wordle技術(shù)改進(jìn)了空間布局,提升了美學(xué)效果。在進(jìn)行信息檢索時(shí),也可以使用TileBar,Sparkler等可視化方法來(lái)提升檢索效果。除此之外,文本信息中還包含了大量的人類(lèi)主觀信息,可以在RSS新聞內(nèi)容,社交平臺(tái)中挖掘用戶(hù)情感傾向信息,幫助調(diào)查者從宏觀角度進(jìn)行分析并為決策提供依據(jù)。
3.2 多媒體數(shù)據(jù)可視化
大數(shù)據(jù)時(shí)代,人們?cè)缫褜?duì)半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)充滿(mǎn)了好奇。圖像,視頻,音頻中的數(shù)據(jù)價(jià)值推動(dòng)了多媒體數(shù)據(jù)的可視化。比如社交照片中群體成員之間的關(guān)聯(lián)多使用了海賽圖方法;視頻的可視化則經(jīng)常使用將圖像堆疊成立方的方法,為抽取視頻中的運(yùn)動(dòng)信息提供方便;音樂(lè)的可視化如今也多是媒體播放工具的一個(gè)功能。
3.3 商業(yè)智能的數(shù)據(jù)可視化
如今的大量在線商業(yè)數(shù)據(jù)具有強(qiáng)烈的跨媒體特征與豐富的時(shí)空地理屬性,用戶(hù)的消費(fèi)日志包含了大量個(gè)人信息,這些都催生了該領(lǐng)域的可視化發(fā)展。當(dāng)前商業(yè)智能的數(shù)據(jù)分析大多借助于OLAP的多維分析模式實(shí)現(xiàn),采用可視化技術(shù)進(jìn)行數(shù)據(jù)探索。從最早的柱狀圖、餅圖、網(wǎng)狀圖等簡(jiǎn)單圖表,發(fā)展到呈現(xiàn)公司狀態(tài)與商業(yè)環(huán)境的儀表盤(pán)、子彈圖,新成長(zhǎng)的技術(shù)能有效地傳達(dá)數(shù)據(jù)背后的知識(shí)和思想。同時(shí)隨著Tableau,Spotfire等軟件的推廣,可視化極大推動(dòng)商業(yè)智能的大眾化,降低了普通人進(jìn)行數(shù)據(jù)分析的門(mén)檻。
3.4 Web端可視化
Web端的可視化是通過(guò)HTML,CSS,Javas-cript技術(shù),在網(wǎng)頁(yè)上實(shí)現(xiàn)可交互的可視化作品及時(shí)全面顯示信息。Web端的可視化可以提升用戶(hù)效率,使選擇操作更加方便,感官更加舒服。D3.js就是一套面向Web的數(shù)據(jù)可視化的Javascript庫(kù),具有極大的設(shè)計(jì)靈活性和可移植性。國(guó)內(nèi)開(kāi)發(fā)的DataV.js同樣出色,可以便捷的調(diào)用且兼容各類(lèi)瀏覽器。
4.數(shù)據(jù)可視化的注意點(diǎn)
可視化雖然是非常好的了解數(shù)據(jù)的方式,不過(guò)也很容易以錯(cuò)誤的方式執(zhí)行從而背離了其價(jià)值所在。為充分展示信息而不顧圖表的整體協(xié)調(diào),想要包含更多的信息效果卻適得其反,這樣做很容易使圖表缺乏美感。有限的儀表盤(pán)空間要包含的是重要的且值得優(yōu)先考慮的數(shù)據(jù),且當(dāng)圖表顯示過(guò)多的信息時(shí),過(guò)于緊密的布局很容易顯示出錯(cuò)誤的信息。而另一種錯(cuò)誤則是為了追求畫(huà)面的美觀,卻使數(shù)據(jù)內(nèi)容的表達(dá)不佳。所以在可視化的過(guò)程中,目標(biāo)的確立是最為基本的,專(zhuān)注于自己的目標(biāo)有助于更好地傳遞表達(dá)數(shù)據(jù),同時(shí)與圖表的美觀之間也能達(dá)到一種平衡。
真實(shí)的數(shù)據(jù)往往需要占用大量時(shí)間進(jìn)行規(guī)范化,特征選擇,維歸約等預(yù)處理操作,數(shù)據(jù)集的清洗與規(guī)范化或許是實(shí)踐中占最多時(shí)間的部分,此點(diǎn)不容忽視。同時(shí),數(shù)據(jù)可視化是一種輔助分析的工具,非分析工具,正常的處理流程還要借助傳統(tǒng)的統(tǒng)計(jì)手段及其他專(zhuān)業(yè)的知識(shí)??偠灾?,數(shù)據(jù)可視化作為一種對(duì)數(shù)據(jù)信息進(jìn)行專(zhuān)業(yè)化處理的優(yōu)秀工具,其理論與技術(shù)將在未來(lái)獲得逐步提升,最終一定會(huì)對(duì)商業(yè)社會(huì)及科研領(lǐng)域的發(fā)展作出重大貢獻(xiàn)。
參考文獻(xiàn)
然而,NPS模型也面臨著一個(gè)挑戰(zhàn)。通過(guò)反饋把客戶(hù)分成3組,然后通過(guò)計(jì)算方法{凈推薦值(NPS)=(推薦者數(shù)/總樣本數(shù))×100%—(貶損者數(shù)/總樣本數(shù))×100%}得到一個(gè)單一的平均分,這一方法盡管簡(jiǎn)便,但同時(shí)也使企業(yè)也許失去了對(duì)客戶(hù)更全貌信息的寶貴見(jiàn)解。在當(dāng)今日益以客戶(hù)為中心的市場(chǎng)環(huán)境中,要求客戶(hù)反饋,言下之意是你打算用收集到的信息采取后續(xù)行動(dòng)。如果你不打算利用這個(gè)信息來(lái)傾聽(tīng)或沒(méi)有能力積極跟進(jìn),要求客戶(hù)反饋可能會(huì)導(dǎo)致弊大于利。尤其是對(duì)于你企業(yè)客戶(hù)中的“貶損者”。甚至是NPS模型的支持者都同意,如果只是簡(jiǎn)單地問(wèn)一個(gè)問(wèn)題,而沒(méi)有任何額外的細(xì)節(jié)或跟進(jìn)是不夠的。如客戶(hù)把你的企業(yè)評(píng)價(jià)為零分,并且不告訴你為什么,那么你也就無(wú)法跟進(jìn)及采取行動(dòng)。而監(jiān)控一個(gè)你并不知道如何提高的指標(biāo),往往非常令人沮喪。
盡管添加太多后續(xù)問(wèn)題會(huì)影響簡(jiǎn)單的一題式調(diào)查的吸引力及顯著降低客戶(hù)的響應(yīng)率。但是,很多企業(yè)依然在它們的NPS調(diào)查中添加了一些問(wèn)題,以試圖找出和確定高分?jǐn)?shù)及低分?jǐn)?shù)背后的驅(qū)動(dòng)因素。另外,專(zhuān)注郵件、短信、微信及APP等多渠道個(gè)性化會(huì)員營(yíng)銷(xiāo)服務(wù)的webpower中國(guó)區(qū)也在服務(wù)企業(yè)的客戶(hù)實(shí)踐中看到,一些企業(yè)也嘗試通過(guò)電話(huà)、短信或電子郵件等渠道跟進(jìn)調(diào)查對(duì)象。這使得企業(yè)能夠收集更多豐富的洞察力信息,以為了解驅(qū)使客戶(hù)作出響應(yīng)的動(dòng)機(jī)提供見(jiàn)解。除此之外,還有一些企業(yè)也試圖通過(guò)建立一個(gè)服務(wù)補(bǔ)救與客戶(hù)挽留流程以接觸到“貶損者“,并且在某些情況下,設(shè)法使企業(yè)過(guò)去的“貶損者”轉(zhuǎn)變?yōu)樾碌摹巴扑]者”。而通過(guò)邀請(qǐng)“推薦者”加入顧問(wèn)理事會(huì)或客戶(hù)座談小組,以爭(zhēng)取進(jìn)一步了解客戶(hù)見(jiàn)解,并鼓勵(lì)其成為品牌擁護(hù)者,也成為企業(yè)的策略之一。
不管企業(yè)在跟蹤、衡量及量化客戶(hù)忠誠(chéng)度的過(guò)程中采用了哪些指標(biāo)、策略和方法,在目前的內(nèi)外部環(huán)境下,以下重點(diǎn)非常值得關(guān)注:
強(qiáng)化可操作性細(xì)節(jié) 全方位理解客戶(hù)體驗(yàn)
保持客戶(hù)調(diào)查的簡(jiǎn)短和簡(jiǎn)單是至關(guān)重要的,因?yàn)榭蛻?hù)幾乎被其使用的每一個(gè)供應(yīng)商的多個(gè)請(qǐng)求“轟炸”。這使得企業(yè)必須創(chuàng)建一個(gè)關(guān)于重購(gòu)愿意、購(gòu)買(mǎi)更多等客戶(hù)忠誠(chéng)度的簡(jiǎn)短調(diào)查。但是,它是否使你全面理解整個(gè)客戶(hù)生命周期旅程了呢?哪些是企業(yè)希望去影響客戶(hù)體驗(yàn)的關(guān)鍵因素?
webpower中國(guó)區(qū)認(rèn)為,通過(guò)加入哪怕一個(gè)開(kāi)放式的問(wèn)題,如“我們?cè)鯓硬拍芴岣撸俊逼髽I(yè)就可以顯著地增強(qiáng)搜集到的信息的可操作性細(xì)節(jié)。對(duì)于大型企業(yè)來(lái)說(shuō),最重要的是還要使該方法具有可擴(kuò)展性,并且需要一個(gè)可挖掘非結(jié)構(gòu)化意見(jiàn)的解決方案。如挖掘文本評(píng)論的文本分析,挖掘錄制語(yǔ)音批注的語(yǔ)音分析。同時(shí),如今的消費(fèi)者有太多可以發(fā)表自己意見(jiàn)的場(chǎng)所,除網(wǎng)站、博客等傳統(tǒng)渠道外,社交媒體也在成為流行的客戶(hù)意見(jiàn)平臺(tái)。所以,這要求不管企業(yè)愿不愿,它都必須監(jiān)控社交傳媒上正在發(fā)生的事情,而有一些企業(yè)也將用戶(hù)主動(dòng)張貼在社交傳媒網(wǎng)站上的評(píng)論納入VoC的范疇。而VoC現(xiàn)在也變種成任何形式的用戶(hù)反饋,包括未經(jīng)請(qǐng)求的用戶(hù)輸入。
超越NPS調(diào)查反饋 挖掘所有客戶(hù)接觸點(diǎn)
一 非結(jié)構(gòu)化數(shù)據(jù)處理流程
非結(jié)構(gòu)化處理流程主要以網(wǎng)頁(yè)處理為例來(lái)闡述,包括三個(gè)階段,分別是信息采集、網(wǎng)頁(yè)預(yù)處理和網(wǎng)頁(yè)分類(lèi)。
信息采集是將非結(jié)構(gòu)化的信息從大量的網(wǎng)頁(yè)中抽取出來(lái)保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中的過(guò)程;網(wǎng)頁(yè)預(yù)處理主要是進(jìn)行一些數(shù)據(jù)清洗的工作,保證分類(lèi)質(zhì)量;網(wǎng)頁(yè)分類(lèi)工作則是通過(guò)數(shù)據(jù)挖掘算法訓(xùn)練出來(lái)的分類(lèi)模型,對(duì)分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)提煉,得出有價(jià)值的信息。
信息采集
信息采集面對(duì)的是特定的專(zhuān)業(yè)人群,其采集的信息只限定于特定的主題和相關(guān)的領(lǐng)域,出于對(duì)性能和成本的考慮其不必也不可能對(duì)整個(gè)互聯(lián)網(wǎng)進(jìn)行遍歷,因此主題信息采集中通常需要研究以何種方式預(yù)測(cè)鏈接指向的頁(yè)面與主題的相關(guān)性,并判斷其是否值得訪問(wèn);需要研究以何種爬行策略訪問(wèn)Web,以在盡可能多地采集到主題相關(guān)頁(yè)面的同時(shí)盡可能少地采集到主題無(wú)關(guān)的頁(yè)面。
信息采集的基本方法是通過(guò)預(yù)先設(shè)定的種子鏈接集,利用HTrP協(xié)議訪問(wèn)并下載頁(yè)面,在用各種分析算法分析頁(yè)面與主題的相關(guān)性之后提取出待訪問(wèn)的鏈接,預(yù)測(cè)鏈接指向主題相關(guān)頁(yè)面的可能性,再以各種不同的爬行策略循環(huán)迭代地訪問(wèn)網(wǎng)頁(yè)。
信息采集根據(jù)基于主題的不同可分為以下兩類(lèi):一類(lèi)是基于內(nèi)容的主題信息采集:它需要建立一個(gè)針對(duì)主題的詞表。另一類(lèi)是基于超鏈接的主題信息采集:它是基于網(wǎng)頁(yè)之間的引用關(guān)系,類(lèi)似Page rank算法。
網(wǎng)頁(yè)預(yù)處理
網(wǎng)頁(yè)預(yù)處理部分本文主要介紹一下網(wǎng)頁(yè)去重,網(wǎng)頁(yè)去重可以歸為兩類(lèi):一類(lèi)是基于URL的對(duì)比去重,它適用哈希算法;另一類(lèi)是基于內(nèi)容的對(duì)比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁(yè)去重需要先對(duì)文檔對(duì)象的特征抽取,需要將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,該步驟主要是為了方便特征比較計(jì)算相似度。之后需要針對(duì)特征的壓縮編碼,主要通過(guò)哈希編碼等文本向數(shù)字串映射方式以方便后續(xù)的特征存儲(chǔ)以及特征比較,起到減少存儲(chǔ)空間,加快比較速度的作用。最后需要進(jìn)行文檔的相似度計(jì)算,這一步需要根據(jù)文檔特征重合比例來(lái)確定是否重復(fù)文檔。一般是對(duì)網(wǎng)頁(yè)提取一個(gè)信息特征,通常是一組詞,或者是詞加權(quán)重,調(diào)用特定的算法,轉(zhuǎn)化為一組代碼,也被稱(chēng)為指紋。若兩個(gè)頁(yè)面有相當(dāng)數(shù)量的相同指紋,那么可以認(rèn)為這兩個(gè)頁(yè)面內(nèi)容重復(fù)性很高。
網(wǎng)頁(yè)分類(lèi)
分類(lèi)問(wèn)題是人類(lèi)所面臨的一個(gè)非常重要且具有普遍意義的問(wèn)題。將事物正確地分類(lèi),有助于人們認(rèn)識(shí)世界,使雜亂無(wú)章的現(xiàn)實(shí)世界變得有條理。自動(dòng)文本分類(lèi)就是對(duì)大量的自然語(yǔ)言文本按照一定的主題類(lèi)別進(jìn)行自動(dòng)分類(lèi),它是自然語(yǔ)言處理的一個(gè)十分重要的問(wèn)題。文本分類(lèi)主要應(yīng)用于信息檢索,機(jī)器翻譯,自動(dòng)文摘,信息過(guò)濾,郵件分類(lèi)等任務(wù)。文本分類(lèi)的一個(gè)關(guān)鍵問(wèn)題是特征詞的選擇問(wèn)題及其權(quán)重分配。
在搜索引擎中,文本分類(lèi)主要有以下用途:相關(guān)性排序會(huì)根據(jù)不同的網(wǎng)頁(yè)類(lèi)型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁(yè)是索引頁(yè)面還是信息頁(yè)面,下載調(diào)度時(shí)會(huì)做不同的調(diào)度策略;在做頁(yè)面信息抽取的時(shí)候,會(huì)根據(jù)頁(yè)面分類(lèi)的結(jié)果做不同的抽取策略;在做檢索意圖識(shí)別的時(shí)候,會(huì)根據(jù)用戶(hù)所點(diǎn)擊的URL所屬的類(lèi)別來(lái)推斷檢索串的類(lèi)別等等。
網(wǎng)頁(yè)分類(lèi)方法有SVM分類(lèi)方法和樸素貝葉斯方法:其中比較推薦的是SVM分類(lèi)方法,Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類(lèi)器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。其原理也從線性可分說(shuō)起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類(lèi)器被稱(chēng)為支持向量機(jī)(SupportVector Machine,簡(jiǎn)稱(chēng)SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來(lái)提出的一種新方法。
典型的SVM分類(lèi)有兩種,一種是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;另一種是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿(mǎn)足一定上界。
典型的樸素貝葉斯分類(lèi),它可以分為模型訓(xùn)練、模型分類(lèi)和分類(lèi)結(jié)果評(píng)估三個(gè)階段:模型訓(xùn)練階段,主要計(jì)算訓(xùn)練集下所有類(lèi)別的先驗(yàn)概率,以及所有特征詞在每一個(gè)類(lèi)別下的條件概率;模型分類(lèi)階段,對(duì)訓(xùn)練集建立模型;對(duì)每個(gè)待分類(lèi)文檔計(jì)算后驗(yàn)概率,后驗(yàn)概率大的類(lèi)別為文檔所屬類(lèi);分類(lèi)結(jié)果評(píng)估階段:對(duì)分類(lèi)結(jié)果進(jìn)行抽樣、人工檢驗(yàn)。分別計(jì)算出每個(gè)類(lèi)別分類(lèi)的查準(zhǔn)率和查全率,通過(guò)F―度量公式評(píng)估模型準(zhǔn)確度。
二 自然語(yǔ)言處理的典型方法與應(yīng)用
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的理論和方法。自然語(yǔ)言處理是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。
自然語(yǔ)言處理部分主要以輿情分析為例,輿情分析系統(tǒng)的數(shù)據(jù)來(lái)源有三個(gè)渠道,一是網(wǎng)絡(luò)上公開(kāi)的信息,如各大交易所每日評(píng)論,社交網(wǎng)絡(luò)各方觀點(diǎn)和財(cái)經(jīng)門(mén)戶(hù)網(wǎng)站。二是從合作方獲取的信息,如交易信息等。三是微博、人人網(wǎng)等社交網(wǎng)絡(luò)信息。
網(wǎng)頁(yè)信息摘要
網(wǎng)頁(yè)信息摘要需要將同一主題下的多個(gè)文本描述的主要信息,按壓縮比提煉出一個(gè)文本的自然語(yǔ)言處理技術(shù)。對(duì)于互聯(lián)網(wǎng)上海量的期貨分析報(bào)道,如果能從中提煉出一個(gè)覆蓋性強(qiáng)、形式簡(jiǎn)潔的摘要將具有重要的意義。
如何收集企業(yè)的戰(zhàn)略信息?面對(duì)海量信息,一個(gè)研究員需要花費(fèi)4個(gè)小時(shí)閱讀相關(guān)信息。借助語(yǔ)義引擎,把50篇文獻(xiàn)縮略成10余條概要,面對(duì)概要信息,一個(gè)研究員需要花費(fèi)3分鐘閱讀相關(guān)信息,并形成思考。借助文字情緒引擎,把概要內(nèi)容指數(shù)化、知識(shí)化,面對(duì)指數(shù)信息,一個(gè)研究員需要花費(fèi)2秒鐘閱讀相關(guān)信息,并獲得決策支持所需的知識(shí)。
熱點(diǎn)事件預(yù)測(cè)
熱點(diǎn)事件的發(fā)現(xiàn)與預(yù)測(cè)的算法有很多,最行之有效的方法是做大規(guī)模的邏輯回歸。在大數(shù)據(jù)的背景下,我們拿到的數(shù)據(jù)是全量并非抽樣,這使得類(lèi)似邏輯回歸等簡(jiǎn)單算法起到事半功倍的效果。通過(guò)歷史事件傳播數(shù)據(jù),提取向量,并做邏輯回歸出規(guī)則,就可以做很多預(yù)測(cè)。例如美國(guó)大選,疾病傳播,甚至預(yù)測(cè)死亡。
維克托?邁爾-舍恩伯格寫(xiě)的《大數(shù)據(jù)時(shí)代》一書(shū)中就有這么幾個(gè)關(guān)于熱點(diǎn)事件預(yù)測(cè)的案例:
案例一:華爾街“德溫特資本市場(chǎng)”公司首席執(zhí)行官保羅霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶(hù)的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再?zèng)Q定如何處理手中數(shù)以百萬(wàn)美元計(jì)的股票。他的判斷原則很簡(jiǎn)單:如果所有人似乎都高興,那就買(mǎi)入;如果大家的焦慮情緒上升,那就拋售。這一招收效顯著――當(dāng)年第一季度,霍延的公司獲得了7%的收益率。
案例二:美國(guó)一個(gè)超市將女性顧客中的孕婦視作購(gòu)物的黃金消費(fèi)者。為了將這部分目標(biāo)人群在懷孕前就爭(zhēng)取過(guò)來(lái),該超市通過(guò)調(diào)查羅列出幾十種購(gòu)物偏好,當(dāng)某位顧客的收銀條上集中呈現(xiàn)這類(lèi)商品時(shí),就會(huì)被認(rèn)定為可能是孕婦或家中有孕婦,超市隨后向其發(fā)送孕婦產(chǎn)品廣告。一次,當(dāng)有人以“家中并無(wú)孕婦卻總是收到相關(guān)產(chǎn)品廣告”為由控告這家超市后,卻發(fā)現(xiàn)原來(lái)是自己還在上高中的女兒懷孕了。
案例三:2009年甲型H1N1流感病毒出現(xiàn),在沒(méi)有疫苗的情況下,公共衛(wèi)生專(zhuān)家能做的只是減慢傳播速度,要做到這一點(diǎn),專(zhuān)家必須先知道流感出現(xiàn)在哪里,這只能依靠各地醫(yī)生發(fā)現(xiàn)并告知疾控中心,信息肯定是滯后的??墒牵珿oogle的工程師們比疾控專(zhuān)家更早地判斷出流感從哪里傳播出來(lái),他們依靠的就是Google所掌握的大數(shù)據(jù)。
歷史相似事件可使用文檔相似度比較。文檔相似度比較算法首先采用TF-IDF方法把文檔建模為詞頻向量,然后使用向量距離計(jì)算算法求得。常用的距離計(jì)算方法如:Jaccard距離、歐式距離、余弦相似度等。
情感分析
正負(fù)情感度量化統(tǒng)計(jì)分析一般用于分析金融機(jī)構(gòu)和大眾對(duì)期貨產(chǎn)品的態(tài)度、情感和觀點(diǎn)傾向,對(duì)行情走勢(shì)往往具有十分重要的意義。通過(guò)對(duì)收集來(lái)的信息進(jìn)行情感度分析后,可以統(tǒng)計(jì)出社會(huì)輿論對(duì)期貨未來(lái)走勢(shì)的觀點(diǎn)傾向度。通過(guò)計(jì)算歷史輿論觀點(diǎn)與走勢(shì)的相關(guān)度可以驗(yàn)證情感度分析模型的有效性。
情感詞監(jiān)測(cè)模塊是通過(guò)對(duì)金融期貨網(wǎng)站定時(shí)采集更新,對(duì)輿論話(huà)題進(jìn)行連續(xù)監(jiān)控,提取熱點(diǎn)關(guān)鍵詞,實(shí)現(xiàn)熱點(diǎn)信息的實(shí)時(shí)發(fā)現(xiàn)。通過(guò)搜索引擎抓取情感關(guān)鍵詞熱度,計(jì)算關(guān)鍵詞與趨勢(shì)相關(guān)性。
主題詞表的優(yōu)劣在相當(dāng)程度上影響了系統(tǒng)后續(xù)的信息采集內(nèi)容和效果。首先,由領(lǐng)域?qū)<医o出相關(guān)領(lǐng)域的權(quán)威網(wǎng)站作為基礎(chǔ)語(yǔ)料來(lái)源,通過(guò)對(duì)權(quán)威網(wǎng)站網(wǎng)頁(yè)內(nèi)容的整站抓取獲得領(lǐng)域語(yǔ)料資源。之后對(duì)語(yǔ)料資源進(jìn)行中文切分詞和詞頻統(tǒng)計(jì),獲得一張高頻詞表。再由領(lǐng)域?qū)<覍?duì)高頻詞表中的高頻詞匯進(jìn)行整理,人工選取出與領(lǐng)域相關(guān)的詞語(yǔ)。然后,對(duì)從高頻詞表中選取出的領(lǐng)域主題詞進(jìn)行上位詞(花是鮮花的上位詞,植物是花的上位詞)、下位詞、同義詞、近義詞擴(kuò)展,去除重復(fù)詞匯,從而最終形成相關(guān)領(lǐng)域的主題詞表。在信息采集系統(tǒng)后續(xù)的采集中還將不斷收集相關(guān)領(lǐng)域的新詞匯,在發(fā)現(xiàn)領(lǐng)域新詞后加入到領(lǐng)域主題詞表中,形成系統(tǒng)性的反饋機(jī)制,從而不斷對(duì)主題詞表進(jìn)行更新維護(hù)。
正負(fù)情感度量化統(tǒng)計(jì)分析是從抓取的文章中進(jìn)行情感度分析打分,分?jǐn)?shù)范圍為不等。負(fù)數(shù)越大表示負(fù)面觀點(diǎn)強(qiáng)度越強(qiáng),正數(shù)越大表示正面觀點(diǎn)強(qiáng)度越強(qiáng),0表示持有中立態(tài)度;通過(guò)情感度分析可以統(tǒng)計(jì)出一段時(shí)間內(nèi)社會(huì)輿論對(duì)于某個(gè)話(huà)題的正負(fù)面態(tài)度,輿論壓力往往可以導(dǎo)致市場(chǎng)波動(dòng)。
情感詞檢測(cè)通過(guò)對(duì)金融期貨網(wǎng)站定時(shí)采集更新,對(duì)輿論話(huà)題進(jìn)行連續(xù)監(jiān)控,提取熱點(diǎn)關(guān)鍵詞,出現(xiàn)頻率較高的詞語(yǔ)作為熱點(diǎn)信息詞,實(shí)現(xiàn)金融熱點(diǎn)的實(shí)時(shí)發(fā)現(xiàn)。
趨勢(shì)分析和預(yù)測(cè)
根據(jù)交易的價(jià)格曲線走勢(shì),與綜合指數(shù)對(duì)比,使輿論指數(shù)趨勢(shì)體現(xiàn)與交易價(jià)格曲線的相關(guān)性和一定的前瞻性。通過(guò)構(gòu)建時(shí)間序列模型,對(duì)未來(lái)走勢(shì)進(jìn)行預(yù)測(cè),如圖1所示。綜合指數(shù)包括各個(gè)相關(guān)因素的變化趨勢(shì)(天氣因素等)以及輿論指數(shù)。
三 行業(yè)應(yīng)用案例
數(shù)據(jù)挖掘和自然語(yǔ)言處理的應(yīng)用范圍廣泛,其中也不乏一些有意思的案例,它可能應(yīng)用于運(yùn)營(yíng)商、銀行、傳統(tǒng)企業(yè)和券商,挑選幾個(gè)具有代表性的案例與大家分享。
電信行業(yè)
某城市電信運(yùn)營(yíng)商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過(guò)收集用戶(hù)上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個(gè)用戶(hù)的偏好。首先該系統(tǒng)通過(guò)并行統(tǒng)計(jì)清洗出每個(gè)人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁(yè)內(nèi)容,提取正文,并通過(guò)文本分類(lèi)算法計(jì)算分類(lèi);最后通過(guò)統(tǒng)計(jì)出每個(gè)用戶(hù)上網(wǎng)關(guān)注類(lèi)別總數(shù),分析出每個(gè)用戶(hù)的偏好。
金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險(xiǎn)評(píng)估系統(tǒng),該系統(tǒng)通過(guò)抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報(bào)、公司變動(dòng)、領(lǐng)導(dǎo)情況、財(cái)務(wù)狀況等數(shù)據(jù),分析公司運(yùn)營(yíng)指數(shù);通過(guò)計(jì)算各供應(yīng)商社交數(shù)據(jù),對(duì)其社會(huì)影響力做評(píng)估;通過(guò)同行之間的數(shù)據(jù)分析對(duì)比,對(duì)供應(yīng)商進(jìn)行實(shí)力評(píng)估。這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進(jìn)行供應(yīng)商風(fēng)險(xiǎn)評(píng)估。
地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會(huì)化品牌實(shí)時(shí)營(yíng)銷(xiāo)系統(tǒng),該系統(tǒng)通過(guò)社交媒體(微信、微博等)數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)口碑監(jiān)測(cè),負(fù)面情緒被及時(shí)發(fā)現(xiàn)并制止;通過(guò)與客戶(hù)進(jìn)行互動(dòng),爭(zhēng)取客戶(hù)忠誠(chéng)度;通過(guò)監(jiān)控同行及競(jìng)爭(zhēng)對(duì)手的各方面資訊,量化評(píng)估競(jìng)爭(zhēng)態(tài)勢(shì);快速提升品牌知曉度和美譽(yù)度,將媒體影響力轉(zhuǎn)換為客戶(hù)量,縮短人氣聚集周期。
一手打造網(wǎng)絡(luò)體育社區(qū),一手出品足球電視節(jié)目的“歡呼吧”創(chuàng)始人兼CEO陳昊認(rèn)為,用“足球魔方”的文本分析和數(shù)據(jù)挖掘技術(shù),足以將各種體育現(xiàn)象背后的實(shí)質(zhì)提煉出來(lái)。
給你好看的體育
陳昊把與查立的認(rèn)識(shí)歸結(jié)為一種“緣分”。在一場(chǎng)起點(diǎn)創(chuàng)業(yè)營(yíng)舉辦的派對(duì)中,不同于那些不斷向查立演說(shuō)項(xiàng)目方案的創(chuàng)業(yè)者,陳昊更多的只是靜靜站在一邊旁聽(tīng),甚至忍不住開(kāi)口幫助查立回答一些創(chuàng)業(yè)的基礎(chǔ)問(wèn)題。雖然與查立之間的交流很少,但僅僅這樣的一次會(huì)面,卻讓查立記住了他,也邀請(qǐng)他入駐了起點(diǎn)創(chuàng)業(yè)營(yíng)。
當(dāng)時(shí),陳昊正在進(jìn)行一個(gè)互聯(lián)網(wǎng)媒體項(xiàng)目,欲從傳統(tǒng)電視媒體對(duì)于足球賽事轉(zhuǎn)播的主流中另辟蹊徑,擺脫頻道資源和轉(zhuǎn)播費(fèi)用的束縛,建成一個(gè)體育新聞和數(shù)據(jù)的社交分享源和體育垂直社區(qū)(這就是后來(lái)的“歡呼吧”),以及包含全球大量比賽新聞和數(shù)據(jù)的賽前分析預(yù)測(cè)節(jié)目“足球魔方”。
在他看來(lái),國(guó)內(nèi)體育傳媒嚴(yán)重滯后于發(fā)達(dá)國(guó)家的水平。“國(guó)內(nèi)體育賽事的轉(zhuǎn)播模式十分單一,而且深度、專(zhuān)業(yè)的體育內(nèi)容不多?!币舱?yàn)榇嬖谥T多問(wèn)題,才讓陳昊嗅到了商機(jī)。做國(guó)內(nèi)跨媒體體育社交服務(wù)商的想法也剛好迎合了查立對(duì)于互聯(lián)網(wǎng)的判斷。
有激情、有夢(mèng)想、執(zhí)行力強(qiáng)、善于思考……是陳昊給記者最直觀的印象,剛好吻合了起點(diǎn)創(chuàng)業(yè)營(yíng)喜愛(ài)的創(chuàng)業(yè)者的特征。而更為重要的,是一份破釜沉舟的決心:“為了創(chuàng)業(yè),我鼓勵(lì)我們團(tuán)隊(duì)全部都搬到園區(qū)附近租住,以便全心全意地實(shí)施我們的創(chuàng)業(yè)大計(jì)”。
讓創(chuàng)業(yè)不再孤獨(dú)
雖然陳昊在此之前已經(jīng)從事體育產(chǎn)業(yè)十幾年,并追隨“溫格教授”的足跡,專(zhuān)赴足球經(jīng)濟(jì)最發(fā)達(dá)的英國(guó)拿下了足球營(yíng)銷(xiāo)的MBA學(xué)位,然而要落實(shí)到具體的操作層面,遇見(jiàn)具體的事情時(shí),依然會(huì)有很多困惑。
畢竟,入駐起點(diǎn)創(chuàng)業(yè)營(yíng),要獲取的不僅是較為低廉的租金和辦公成本,更重要的是內(nèi)在的“軟件”優(yōu)勢(shì)。
“這里有一個(gè)較好的培訓(xùn)機(jī)制,每周的創(chuàng)業(yè)公開(kāi)課,會(huì)根據(jù)創(chuàng)業(yè)者自身需要面對(duì)的問(wèn)題進(jìn)行詳細(xì)的講解?!弊鳛閯?chuàng)業(yè)公開(kāi)課的忠實(shí)聽(tīng)眾,陳昊之前所學(xué)的理論知識(shí)通過(guò)梳理和實(shí)戰(zhàn)漸漸“落地”。在入駐“起點(diǎn)創(chuàng)業(yè)營(yíng)”短短幾個(gè)月的時(shí)間里,“歡呼吧”網(wǎng)站以及“足球魔方”電視節(jié)目已經(jīng)開(kāi)始運(yùn)作。
不僅如此,創(chuàng)業(yè)者的聚集,帶給陳昊更多的交流。“通過(guò)別人的成功和失敗來(lái)反觀自己,而且創(chuàng)業(yè)過(guò)程中遇到的諸多問(wèn)題還可以進(jìn)行深入的討論,這樣的分享非常有用?!倍鼮橹匾?,陳昊認(rèn)為這消除了創(chuàng)業(yè)者的孤獨(dú)感。
考慮到這一點(diǎn),IBM 與 Twitter建立合作,旨在管理與利用當(dāng)今社交互動(dòng)平臺(tái)所傳輸信息中蘊(yùn)含的能量。研究團(tuán)隊(duì)訪問(wèn)了數(shù)十名高管與行業(yè)專(zhuān)家,并對(duì)兩家公司的數(shù)百個(gè)客戶(hù)互動(dòng)案例進(jìn)行了分析,以更好地了解各個(gè)企業(yè)如何利用社交數(shù)據(jù)參與當(dāng)今數(shù)字市場(chǎng)的競(jìng)爭(zhēng)。
不止于營(yíng)銷(xiāo)部門(mén)
社交互動(dòng)平臺(tái)在過(guò)去10年里的使用越來(lái)越普遍,許多企業(yè)已開(kāi)始將其作為市場(chǎng)營(yíng)銷(xiāo)與品牌推廣的工具,并逐漸開(kāi)發(fā)出包括“傾聽(tīng)”客戶(hù)在內(nèi)的被動(dòng)式實(shí)踐方法。與客戶(hù)間的大部分直接互動(dòng),一直局限于品牌管理、客戶(hù)服務(wù)、社交推廣、公共關(guān)系和危機(jī)干預(yù)等五大職能領(lǐng)域。例如,針對(duì)領(lǐng)先品牌的用戶(hù)名或“標(biāo)簽”的推文,在過(guò)去兩年里增加了 2.5 倍。
但是,從這些社交互動(dòng)平臺(tái)獲取的強(qiáng)大數(shù)據(jù)可能會(huì)影響更多的業(yè)務(wù)流程。Twitter、Foursquare、博客、論壇、瀏覽網(wǎng)站及內(nèi)部協(xié)作工具等平臺(tái),正在以前所未有的方式提供有關(guān)客戶(hù)、員工、競(jìng)爭(zhēng)對(duì)手和市場(chǎng)的深刻洞察力。
目前,全球約40%的企業(yè)會(huì)收集實(shí)時(shí)事件與數(shù)據(jù)。這些企業(yè)中有些會(huì)將來(lái)自社交平臺(tái)的數(shù)據(jù)與內(nèi)部和外部數(shù)據(jù)相結(jié)合,以改進(jìn)業(yè)務(wù)流程并推動(dòng)創(chuàng)新,從而打造由此類(lèi)平臺(tái)的互動(dòng)所支持的沉浸式體驗(yàn)。在該過(guò)程中,它們逐步獲得競(jìng)爭(zhēng)優(yōu)勢(shì)并建立全新的業(yè)務(wù)模式。
互動(dòng)性社交平臺(tái)的價(jià)值,源于其具有能在公共平臺(tái)上實(shí)時(shí)揭示買(mǎi)家、賣(mài)家和競(jìng)爭(zhēng)對(duì)手等因素的獨(dú)特能力。借助此類(lèi)平臺(tái),企業(yè)便可了解圍繞價(jià)值鏈的各項(xiàng)因素,從而得到以前無(wú)法獲取的深入洞察力。從互動(dòng)式社交平臺(tái)產(chǎn)生的信號(hào)中“獲取或?qū)W習(xí)”是真實(shí)可靠的,其影響力非常強(qiáng)大,甚至能創(chuàng)建快速捕捉全球10多億人和企業(yè)的日常生活、關(guān)注問(wèn)題、愿望和需求的能力。
精通社交的企業(yè)正將從社交平臺(tái)中獲取的公開(kāi)數(shù)據(jù)融入到業(yè)務(wù)流程之中,并將此類(lèi)數(shù)據(jù)與已有的內(nèi)部數(shù)據(jù)或其他公開(kāi)數(shù)據(jù)源相結(jié)合。在此過(guò)程中,它們能夠持續(xù)辨別并發(fā)現(xiàn)有助于在整個(gè)業(yè)務(wù)流程中做出決策的洞察力。此外,這種綜合數(shù)據(jù)還能夠?yàn)闆Q策者提供更好的情境、深度和執(zhí)行信心。
我們已經(jīng)識(shí)別了企業(yè)可通過(guò)融入社交數(shù)據(jù)改變業(yè)務(wù)流程的五大職能領(lǐng)域:
銷(xiāo)售與營(yíng)銷(xiāo)
除了社交傾聽(tīng)和推送式營(yíng)銷(xiāo),現(xiàn)在一些領(lǐng)先企業(yè)還將社交平臺(tái)用作“預(yù)警系統(tǒng)”,幫助它們了解如何、何時(shí)以及為何與客戶(hù)互動(dòng)。
USAA 是一家主要服務(wù)于軍屬的全球性金融服務(wù)機(jī)構(gòu)。它不僅將 Twitter 用作與其分布廣泛的會(huì)員進(jìn)行互動(dòng)的主要平臺(tái),還將其作為不良運(yùn)營(yíng)事件和消費(fèi)者事件的主要指示器。社交商務(wù)副總裁 Renee Horne發(fā)現(xiàn),在社交中圍繞某一具體話(huà)題產(chǎn)生的討論峰值,通常預(yù)示著將發(fā)生可能具有更大下游影響的事件,因此她使用這類(lèi)信息作為支持運(yùn)營(yíng)的預(yù)警機(jī)制。她的團(tuán)隊(duì)還分析了圍繞負(fù)面消費(fèi)者事件(如零售商數(shù)據(jù)泄露)發(fā)生的社交聊天內(nèi)容。
研究與開(kāi)發(fā)
消費(fèi)者驅(qū)動(dòng)型企業(yè)也利用該功能更深入地了解潛在客戶(hù)和最終客戶(hù)的愿望與需求,以便在產(chǎn)品使用周期內(nèi)做出戰(zhàn)略決策。
傳奇娛樂(lè) (Legendary Entertainment)電影公司就借助社交活動(dòng)平臺(tái)鎖定具有影響力的消費(fèi)者?!霸跒榻巧x演員時(shí),你必須觀看他們之前的作品,與他們的經(jīng)紀(jì)人談話(huà)并和曾與他們一起工作的人交流,從而對(duì)他們形成一定印象?!眰髌鎶蕵?lè)首席分析官 Matthew Marolda說(shuō)道,“你為什么不通過(guò)社交媒體去了解公眾對(duì)他們的看法呢?我們會(huì)運(yùn)用先進(jìn)的文本分析技術(shù)全面分析他們對(duì)話(huà)中的音調(diào)與音色,然后考慮他們是否適合我們要拍攝的電影題材。”
供應(yīng)鏈
企業(yè)正在運(yùn)用社交數(shù)據(jù)更好地了解并滿(mǎn)足消費(fèi)者在某些情況下的非直觀需求。一家全球零售商綜合使用包括天氣、競(jìng)爭(zhēng)對(duì)手的促銷(xiāo)政策、Twitter 信息、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)和新聞資料在內(nèi)的內(nèi)部與實(shí)時(shí)公開(kāi)數(shù)據(jù),識(shí)別強(qiáng)烈但目前屬于非直觀的需求信號(hào)。該公司開(kāi)發(fā)了一套基于算法的形勢(shì)引擎,用于針對(duì)無(wú)法對(duì)其進(jìn)行準(zhǔn)確趨勢(shì)和季節(jié)性預(yù)測(cè)的特定產(chǎn)品提供非直觀預(yù)測(cè)。結(jié)果是,根據(jù)這些實(shí)時(shí)預(yù)測(cè),該公司從根本上重新調(diào)整了商品輸送的大規(guī)模供應(yīng)鏈。
規(guī)劃部
深入反映用戶(hù)日常生活情況的社交平臺(tái)對(duì)話(huà),可幫助企業(yè)和研究人員更準(zhǔn)確地了解并預(yù)測(cè)世界各地的趨勢(shì)和事件,使其更具戰(zhàn)略眼光。農(nóng)業(yè)是利用社交數(shù)據(jù)制訂戰(zhàn)略規(guī)劃的領(lǐng)域之一,利用大數(shù)據(jù)和分析,該行業(yè)正在迅速發(fā)生著變化。
孟山都公司是一家跨國(guó)農(nóng)業(yè)公司,正在尋找可以更好地預(yù)測(cè)未來(lái)消費(fèi)需求的新方式。由于新產(chǎn)品的育種周期長(zhǎng)達(dá)15年之久,因此該公司的全球創(chuàng)新與戰(zhàn)略團(tuán)隊(duì)需要預(yù)測(cè)哪種食品的發(fā)展趨勢(shì)能夠維持10年。孟山都早在 10 年前便開(kāi)始了消費(fèi)趨勢(shì)的研究,但那時(shí)都是采用掃描的零售與食品服務(wù)數(shù)據(jù)。
該公司發(fā)現(xiàn),在零售級(jí)數(shù)據(jù)到達(dá)峰值的前幾個(gè)月,零售食品趨勢(shì)就開(kāi)始在 Twitter 等社交媒體平臺(tái)上顯示出來(lái)。孟山都非常注重了解對(duì)食品話(huà)題最熱衷且影響力最大的消費(fèi)者,并與他們進(jìn)行互動(dòng)。
行政管理
交互式社交平臺(tái)對(duì)涵蓋從人力資源到法律合規(guī)的內(nèi)部運(yùn)營(yíng)流程具有巨大影響。例如,一流企業(yè)使用了內(nèi)部互動(dòng)社交平臺(tái),來(lái)了解并處理與員工流失、員工保留、雇主品牌推廣和勞資關(guān)系相關(guān)的問(wèn)題。它們還采用開(kāi)放政策所無(wú)法替代的方式,以聽(tīng)取客戶(hù)和員工等人群的意見(jiàn)。
一家美國(guó)食品與飲料供應(yīng)商曾對(duì)同店銷(xiāo)售額的異常波動(dòng)感到困惑,因?yàn)闆](méi)有哪項(xiàng)常規(guī)指標(biāo)能夠給出合理解釋。但是客戶(hù)在Twitter上的推文給出了解釋?zhuān)阂坏┠成痰曜钍芸蛻?hù)喜愛(ài)的員工離職,客戶(hù)總會(huì)想換一家商店買(mǎi)早點(diǎn)?;谶@樣的認(rèn)識(shí),現(xiàn)在該公司更加注重員工保留項(xiàng)目,除了提供標(biāo)準(zhǔn)的培訓(xùn)外,該公司還推出了助學(xué)金和職業(yè)認(rèn)同等項(xiàng)目。
超越社交傾聽(tīng)
將重點(diǎn)從傾聽(tīng)轉(zhuǎn)移到社交商務(wù)的第一步,是找到社交平臺(tái)中尚未被開(kāi)發(fā)的價(jià)值,也就是從產(chǎn)品開(kāi)發(fā)到政策合規(guī),以及二者之間其他職能領(lǐng)域在內(nèi)的整個(gè)企業(yè)內(nèi)可以實(shí)現(xiàn)的價(jià)值。
作為上海報(bào)業(yè)集團(tuán)改革后問(wèn)世的第一個(gè)新媒體成果,澎湃新聞自2014年推出以來(lái),其網(wǎng)站、微博、微信公眾平臺(tái)及新聞客戶(hù)端等多款新媒體產(chǎn)品共同推進(jìn),作為傳統(tǒng)媒體數(shù)字化轉(zhuǎn)型的樣本,澎湃新聞的多媒體融合及數(shù)字化發(fā)展模式具有一定的研究意義。
今日頭條則是完全脫胎于互聯(lián)網(wǎng)環(huán)境、基于數(shù)據(jù)挖掘技術(shù)的新媒體產(chǎn)品,以移動(dòng)客戶(hù)端為主打產(chǎn)品。自2012年8月上線至2015年12月以來(lái),今日頭條已吸納用戶(hù)超過(guò)3.5億,且在2014年6月獲得1億美元的C輪融資,并仍保持每天超過(guò)3500萬(wàn)的用戶(hù)增長(zhǎng)速度。這一基于數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)算法來(lái)完成的新媒體項(xiàng)目,對(duì)媒介融合和新媒體的創(chuàng)新發(fā)展也具有可研究?jī)r(jià)值。
一、平臺(tái):多渠道并進(jìn)與專(zhuān)注APP的差異
(一)多渠道并進(jìn)的澎湃新聞格局
媒介渠道是新聞信息流動(dòng)的通路,合理有效的媒介布局是信息有效傳播的基礎(chǔ)。①向社交媒體平臺(tái)延伸已成為傳統(tǒng)媒體應(yīng)對(duì)移動(dòng)互聯(lián)網(wǎng)時(shí)代的挑戰(zhàn)、尋求生存渠道必不可少的轉(zhuǎn)型方式之一。具備多元化傳播渠道的澎湃新聞,不僅注重多平臺(tái)內(nèi)容傳播,也重視不同平臺(tái)間的關(guān)聯(lián)性?;诰W(wǎng)絡(luò)端與移動(dòng)端的使用差異,其界面設(shè)計(jì)和部分細(xì)節(jié)功能上也有所差異,而且相較于網(wǎng)站或WAP網(wǎng)頁(yè)版的運(yùn)作,澎湃新聞更重視對(duì)移動(dòng)客戶(hù)端的推廣,例如其網(wǎng)站首頁(yè)右側(cè)頂端吸引用戶(hù)的位置展示對(duì)移動(dòng)端的推廣信息,首頁(yè)右側(cè)則放置了微信二維碼提醒用戶(hù)掃碼下載客戶(hù)端。這種推廣趨勢(shì)意在表明,移動(dòng)客戶(hù)端在未來(lái)將會(huì)成為澎湃新聞的主要推廣平臺(tái),也是其未來(lái)應(yīng)對(duì)移動(dòng)互聯(lián)網(wǎng)發(fā)展進(jìn)行多媒體轉(zhuǎn)型的主要渠道。但重視推廣移動(dòng)客戶(hù)端的同時(shí),與同類(lèi)新聞客戶(hù)端相似,澎湃新聞也在客戶(hù)端的文章結(jié)尾處提供了微博、微信等社交媒體的分享按鈕,以期以此形成信息的多平臺(tái)、多層次傳播。
盡管如此,澎湃新聞以移動(dòng)客戶(hù)端為主要新媒介傳播平臺(tái)的渠道戰(zhàn)略趨勢(shì)仍較為明確,例如在其新浪微博和騰訊微博的每條博文中,都附有下載移動(dòng)客戶(hù)端的超鏈接,其官方微信賬號(hào)的菜單欄設(shè)置有“下載APP”的按鈕,且每篇推送文章結(jié)尾處也都提示讀者通過(guò)“閱讀原文”下載移動(dòng)客戶(hù)端。值得注意的是,除了澎湃新聞的官方微信之外,其運(yùn)營(yíng)團(tuán)隊(duì)還推出了包括“市政廳”等與其新聞客戶(hù)端的子欄目同名的微信公眾號(hào),并分屬給各自的內(nèi)容團(tuán)隊(duì)運(yùn)營(yíng),從而形成多平臺(tái)緊密聯(lián)系又各有專(zhuān)攻的渠道運(yùn)作結(jié)構(gòu)。
(二)以客戶(hù)端為主的今日頭條數(shù)據(jù)挖掘者
今日頭條平臺(tái)最大的特點(diǎn)在于它以自己的客戶(hù)端為連接點(diǎn),鏈接各大新聞門(mén)戶(hù)網(wǎng)站的熱門(mén)新聞,使其以新聞聚合工具的身份出現(xiàn)在媒介市場(chǎng)和公眾視野。根據(jù)其對(duì)自身“基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品”而非新聞客戶(hù)端的定位,今日頭條得以運(yùn)營(yíng)、推廣和盈利的基礎(chǔ)是技術(shù)。如何實(shí)現(xiàn)網(wǎng)絡(luò)媒體資源的再利用和再傳播是今日頭條的關(guān)注焦點(diǎn)。作為新聞聚合類(lèi)應(yīng)用,今日頭條的算法模式與美國(guó)Prismatic公司有相似之處,即“收集網(wǎng)上資源并排序,這種排序建立在文本分析、用戶(hù)喜好、社交網(wǎng)絡(luò)普及和大數(shù)據(jù)分析的基礎(chǔ)之上?!雹谶@與其公司屬性有關(guān):雖然今日頭條是新聞?lì)惍a(chǎn)品,但其公司六成員工為技術(shù)開(kāi)發(fā)人員,使該產(chǎn)品可以根據(jù)算法技術(shù)對(duì)用戶(hù)偏好進(jìn)行較為精準(zhǔn)的分析與判斷,并通過(guò)智能推薦方式,根據(jù)用戶(hù)對(duì)推送設(shè)置的偏好,向用戶(hù)實(shí)時(shí)推送信息。
同時(shí),作為一款社交媒體,今日頭條并不局限于重點(diǎn)打造的客戶(hù)端平臺(tái),與澎湃新聞的多媒體關(guān)聯(lián)運(yùn)作方式相似,今日頭條的客戶(hù)端也通過(guò)分享功能將其與自身的微信、微博等其他社交媒體平臺(tái)相關(guān)聯(lián),為用戶(hù)收藏、分享或轉(zhuǎn)發(fā)新聞資訊提供可能。這一方面使用戶(hù)成為今日頭條資訊的二次傳播者;另一方面,通過(guò)用戶(hù)自發(fā)傳播的方式,今日頭條也通過(guò)其他社交媒體平臺(tái)再次推廣了自己的移動(dòng)客戶(hù)端。
二、內(nèi)容:側(cè)重時(shí)政與海量信息的差異
(一)專(zhuān)注時(shí)政與思想的澎湃新聞
澎湃新聞的定位是“專(zhuān)注時(shí)政與思想的互聯(lián)網(wǎng)平臺(tái)”,以此定位為基礎(chǔ),“內(nèi)容原創(chuàng)”成為澎湃新聞致力發(fā)展的目標(biāo)和方向,同時(shí)也是其重點(diǎn)打造的核心競(jìng)爭(zhēng)力。憑借上海報(bào)業(yè)集團(tuán)的新聞品牌和公信力優(yōu)勢(shì),澎湃新聞采集并匯聚大量原創(chuàng)報(bào)道,突出內(nèi)容的獨(dú)特性和不可替代性。而且澎湃新聞的采編隊(duì)伍依托其傳統(tǒng)媒體――《東方早報(bào)》,在內(nèi)容采編觀念上與傳統(tǒng)媒體“內(nèi)容為王”的核心理念相契合,使其能夠利用并強(qiáng)化基于紙媒基礎(chǔ)發(fā)展起來(lái)的深度報(bào)道特長(zhǎng),將內(nèi)容集中在“時(shí)事、財(cái)經(jīng)、思想、生活”四個(gè)方面,以時(shí)政新聞報(bào)道為主。同時(shí),澎湃新聞并不拘泥于單一的新聞報(bào)道角度,而是多視角、多方面地報(bào)道同類(lèi)新聞。