參與用戶往往多達數千萬。無論是發帖、轉發、點贊還是閱讀、搜索,都構成了輿情大數據。
盡管學界和業界對于什么是大數據尚未形成統一的定義,但綜合來看,大數據通常具有4個要素,也稱作4V,即海量(Volume)、快速(Velocity)、多樣(Variety)和價值(Value),即數據量空前巨大,并且以非常快的速度不斷產生,數據的形式多種多樣,結構化數據只占很小部分,多數是半結構化和非結構化數據[2]。在這種大背景下,只有具備從海量數據中快速抓取和分析數據的能力,才能使大數據產生價值。否則,只是不斷累積的數據垃圾。
網絡輿情監測系統是運用數據采集和挖掘技術,對非結構化的互聯網大數據進行輿情挖掘和研判的一種主要手段。一般的輿情監測系統都包含兩大功能。一是信息自動采集功能,主要是通過網絡頁面之間的鏈接關系,從網上自動獲取頁面信息,并且隨著鏈接不斷向整個網絡擴展。而新的技術突破點是關于社交媒體的信息采集和音視頻信息的抓取。二是輿情分析引擎功能,涉及的最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤、自動摘要等計算機文本信息內容識別技術和音視頻識別技術。
輿情分析引擎的功能是整個監測系統的核心,通常包括以下幾個方面。①識別功能。熱點話題、敏感話題識別。可以根據新聞出處權威度、評論數量、發言時間密集程度等參數,識別出給定時間段內的熱門話題。利用關鍵字布控和語義分析,識別敏感話題。②追蹤功能。對主題、人物或機構的追蹤和聚焦。跟蹤的具體內容包括:信息來源、轉載量、轉載地址、地域分布、信息發布者等相關信息元素。③關注度分析功能。通過參與度和波及度等要素來考量,是衡量相關話題網絡影響力的重要指標,網絡關注度越高,表明其在網絡中越受關注,網民參與討論越活躍,相關話題在網站間的傳播越廣。④趨勢分析功能。對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢。⑤信息自動摘要功能。能夠根據文檔內容自動抽取文檔摘要信息。用戶無須查看全部文章內容,通過該智能摘要即可快速了解文章大意與核心內容,提高用戶信息利用效率。⑥報警功能。對突發事件、涉及內容安全的敏感話題及時發現并發出危機預警。可以根據事件的危機等級,啟動不同的危機公關處理方案,從而快速控制事件的發展方向。⑦統計報告功能。根據輿情分析引擎處理后的結果庫生成報告,為用戶提供決策支持。
近年來,上海輿情監測系統的功能在不斷升級,專業的輿情分析方法也在不斷改善,并且有各種各樣的輿情分析師專業培訓來不斷提升輿情分析人員的技能。盡管如此,網絡監測的從業者和研究人員都感受到了一種巨大壓力,那就是采用網絡監測的方法來研究網絡輿情,特別是真實的社會輿情的局限性越來越突出,各種技術和方法的改進都難以突破這一瓶頸。究其原因,主要有以下幾個方面。
1.代表性偏差
盡管我國互聯網普及程度日益提高,但用戶仍然只占總人口半數左右,農村人口、低收入階層等,不上網的人比例非常大。即使有上網能力的人,也幾乎不會在網絡上發表自己的意見,網民中大都屬于“沉默的大多數”。此外,越來越多的網絡社交平臺,對于來自外部的數據抓取采取種種技術手段進行限制,因此,很難采集到完整數據。同時,這些網站也為用戶提供了定制化隱私設置選項,多數人會選擇將個人隱私設定為非公開。這樣的數據缺失進一步加大了數據的偏差值。
2.信息源頭的污染
互聯網時代,盡管網民享有了表達自己意見的自由,但網絡信息卻并非其態度、意見和情緒的直接和客觀反映。首先,由于網絡的虛擬性,網民的真實身份不為他人所知,網絡言論往往呈現情緒化和極端化現象,較少有客觀理性的分析與言論。其次,大量網絡“水軍”出于獲利的目的,故意歪曲事實和炮制假新聞。再次是由于各種形式的網絡評論員的存在。雖然有一種觀點認為網絡評論員在維護中國社會穩定,消除不利于政府的網絡謠言,維護政府形象,促進政府與民眾溝通,建設和諧社會方面能起到積極作用;但更多意見認為,組織網絡評論員制造輿論壓制對方,以及利用公權力來制造虛假輿論,進一步增大了網絡輿情的噪聲。
3.中文的“高語境”帶來的分析難題
美國學者愛德華·霍爾創建了“高語境”與“低語境”概念。所謂高語境是指那些對語境依賴程度較高的語言,主要代表是中文和日文。在以“高語境”為特點的傳播過程里,語言的絕大部分信息藏匿于語境之中,或高度依附于語境,很少清晰呈現于文字里,如說話拐彎抹角、含糊不清,空話、套話、官話泛濫,正話反說等現象,使基于關鍵詞正負面評價的分析常常失效。
以上就是小編為大家介紹的無論是發帖、轉發、點贊還是閱讀、搜索,都構成了輿情大數據的全部(bu)內(nei)容(rong),如果大家還對(dui)相關的內(nei)容(rong)感興趣,請(qing)持續關注上海危機公(gong)關公(gong)司
本文標題:無論是發帖、轉發、點贊還是閱讀、搜索,都構成了輿情大數據 地址:/pinpaiweihu/2022/0117/2605.html