參與用戶往往多達(dá)數(shù)千萬。無論是發(fā)帖、轉(zhuǎn)發(fā)、點(diǎn)贊還是閱讀、搜索,都構(gòu)成了輿情大數(shù)據(jù)。
盡管學(xué)界和業(yè)界對于什么是大數(shù)據(jù)尚未形成統(tǒng)一的定義,但綜合來看,大數(shù)據(jù)通常具有4個(gè)要素,也稱作4V,即海量(Volume)、快速(Velocity)、多樣(Variety)和價(jià)值(Value),即數(shù)據(jù)量空前巨大,并且以非常快的速度不斷產(chǎn)生,數(shù)據(jù)的形式多種多樣,結(jié)構(gòu)化數(shù)據(jù)只占很小部分,多數(shù)是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2]。在這種大背景下,只有具備從海量數(shù)據(jù)中快速抓取和分析數(shù)據(jù)的能力,才能使大數(shù)據(jù)產(chǎn)生價(jià)值。否則,只是不斷累積的數(shù)據(jù)垃圾。
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)是運(yùn)用數(shù)據(jù)采集和挖掘技術(shù),對非結(jié)構(gòu)化的互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行輿情挖掘和研判的一種主要手段。一般的輿情監(jiān)測系統(tǒng)都包含兩大功能。一是信息自動(dòng)采集功能,主要是通過網(wǎng)絡(luò)頁面之間的鏈接關(guān)系,從網(wǎng)上自動(dòng)獲取頁面信息,并且隨著鏈接不斷向整個(gè)網(wǎng)絡(luò)擴(kuò)展。而新的技術(shù)突破點(diǎn)是關(guān)于社交媒體的信息采集和音視頻信息的抓取。二是輿情分析引擎功能,涉及的最主要的技術(shù)包括文本分類、聚類、觀點(diǎn)傾向性識別、主題檢測與跟蹤、自動(dòng)摘要等計(jì)算機(jī)文本信息內(nèi)容識別技術(shù)和音視頻識別技術(shù)。
輿情分析引擎的功能是整個(gè)監(jiān)測系統(tǒng)的核心,通常包括以下幾個(gè)方面。①識別功能。熱點(diǎn)話題、敏感話題識別??梢愿鶕?jù)新聞出處權(quán)威度、評論數(shù)量、發(fā)言時(shí)間密集程度等參數(shù),識別出給定時(shí)間段內(nèi)的熱門話題。利用關(guān)鍵字布控和語義分析,識別敏感話題。②追蹤功能。對主題、人物或機(jī)構(gòu)的追蹤和聚焦。跟蹤的具體內(nèi)容包括:信息來源、轉(zhuǎn)載量、轉(zhuǎn)載地址、地域分布、信息發(fā)布者等相關(guān)信息元素。③關(guān)注度分析功能。通過參與度和波及度等要素來考量,是衡量相關(guān)話題網(wǎng)絡(luò)影響力的重要指標(biāo),網(wǎng)絡(luò)關(guān)注度越高,表明其在網(wǎng)絡(luò)中越受關(guān)注,網(wǎng)民參與討論越活躍,相關(guān)話題在網(wǎng)站間的傳播越廣。④趨勢分析功能。對突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢。⑤信息自動(dòng)摘要功能。能夠根據(jù)文檔內(nèi)容自動(dòng)抽取文檔摘要信息。用戶無須查看全部文章內(nèi)容,通過該智能摘要即可快速了解文章大意與核心內(nèi)容,提高用戶信息利用效率。⑥報(bào)警功能。對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時(shí)發(fā)現(xiàn)并發(fā)出危機(jī)預(yù)警。可以根據(jù)事件的危機(jī)等級,啟動(dòng)不同的危機(jī)公關(guān)處理方案,從而快速控制事件的發(fā)展方向。⑦統(tǒng)計(jì)報(bào)告功能。根據(jù)輿情分析引擎處理后的結(jié)果庫生成報(bào)告,為用戶提供決策支持。
近年來,上海輿情監(jiān)測系統(tǒng)的功能在不斷升級,專業(yè)的輿情分析方法也在不斷改善,并且有各種各樣的輿情分析師專業(yè)培訓(xùn)來不斷提升輿情分析人員的技能。盡管如此,網(wǎng)絡(luò)監(jiān)測的從業(yè)者和研究人員都感受到了一種巨大壓力,那就是采用網(wǎng)絡(luò)監(jiān)測的方法來研究網(wǎng)絡(luò)輿情,特別是真實(shí)的社會輿情的局限性越來越突出,各種技術(shù)和方法的改進(jìn)都難以突破這一瓶頸。究其原因,主要有以下幾個(gè)方面。
1.代表性偏差
盡管我國互聯(lián)網(wǎng)普及程度日益提高,但用戶仍然只占總?cè)丝诎霐?shù)左右,農(nóng)村人口、低收入階層等,不上網(wǎng)的人比例非常大。即使有上網(wǎng)能力的人,也幾乎不會在網(wǎng)絡(luò)上發(fā)表自己的意見,網(wǎng)民中大都屬于“沉默的大多數(shù)”。此外,越來越多的網(wǎng)絡(luò)社交平臺,對于來自外部的數(shù)據(jù)抓取采取種種技術(shù)手段進(jìn)行限制,因此,很難采集到完整數(shù)據(jù)。同時(shí),這些網(wǎng)站也為用戶提供了定制化隱私設(shè)置選項(xiàng),多數(shù)人會選擇將個(gè)人隱私設(shè)定為非公開。這樣的數(shù)據(jù)缺失進(jìn)一步加大了數(shù)據(jù)的偏差值。
2.信息源頭的污染
互聯(lián)網(wǎng)時(shí)代,盡管網(wǎng)民享有了表達(dá)自己意見的自由,但網(wǎng)絡(luò)信息卻并非其態(tài)度、意見和情緒的直接和客觀反映。首先,由于網(wǎng)絡(luò)的虛擬性,網(wǎng)民的真實(shí)身份不為他人所知,網(wǎng)絡(luò)言論往往呈現(xiàn)情緒化和極端化現(xiàn)象,較少有客觀理性的分析與言論。其次,大量網(wǎng)絡(luò)“水軍”出于獲利的目的,故意歪曲事實(shí)和炮制假新聞。再次是由于各種形式的網(wǎng)絡(luò)評論員的存在。雖然有一種觀點(diǎn)認(rèn)為網(wǎng)絡(luò)評論員在維護(hù)中國社會穩(wěn)定,消除不利于政府的網(wǎng)絡(luò)謠言,維護(hù)政府形象,促進(jìn)政府與民眾溝通,建設(shè)和諧社會方面能起到積極作用;但更多意見認(rèn)為,組織網(wǎng)絡(luò)評論員制造輿論壓制對方,以及利用公權(quán)力來制造虛假輿論,進(jìn)一步增大了網(wǎng)絡(luò)輿情的噪聲。
3.中文的“高語境”帶來的分析難題
美國學(xué)者愛德華·霍爾創(chuàng)建了“高語境”與“低語境”概念。所謂高語境是指那些對語境依賴程度較高的語言,主要代表是中文和日文。在以“高語境”為特點(diǎn)的傳播過程里,語言的絕大部分信息藏匿于語境之中,或高度依附于語境,很少清晰呈現(xiàn)于文字里,如說話拐彎抹角、含糊不清,空話、套話、官話泛濫,正話反說等現(xiàn)象,使基于關(guān)鍵詞正負(fù)面評價(jià)的分析常常失效。
以上就是小編為大家介紹的無論是發(fā)帖、轉(zhuǎn)發(fā)、點(diǎn)贊還是閱讀、搜索,都構(gòu)成了輿情大數(shù)據(jù)的全部內(nèi)容,如果大家還對相關(guān)的內(nèi)容感興趣,請持續(xù)關(guān)注上海危機(jī)公關(guān)公司
本文標(biāo)題:無論是發(fā)帖、轉(zhuǎn)發(fā)、點(diǎn)贊還是閱讀、搜索,都構(gòu)成了輿情大數(shù)據(jù) 地址:/pinpaiweihu/2022/0117/2605.html
以下相關(guān)文章是否符合您的胃口