另類文字探勘手藝－cliftofghk4s6@outlook.com

西語口譯人員

首先，要快速擷取文字，網路達人開辟的JComicDownloader是一個不錯的選擇，以JAVA為執行情況，可跨平台利用，免費、免安裝、無告白，且開放原始碼。（https://sites.google.com/site/jcomicdownloader/step-by-step/blog-download）。它供給部落格文章批次下載功能，可選擇txt或html此兩種貯存格式，目前支援Blogger、Pixnet、Xuite和天空部落等。

面臨這麼多的文字檔，是否有股莫名的興奮呢？因為寶藏就在這些文章中。接著，使用一個奇異的文字檔內容合併東西AeroMerge（又是一免費軟體，且已中文化，http://ftp.isu.edu.tw/pub/CPatch/fileutil/aeromerge/source/），可以將多個 TXT 文字檔的內容，合併為一個單一的文字檔(*.txt)。只要把所有TXT檔拖曳到AeroMerge便可。假如檔名或路徑有非凡符號，如♥，記得先改名囉！（把全部檔案拔取，F2改名便可）翻譯合併後的文字檔高達7萬5千多列，20多萬字，真是壯觀。

到這裏，算是完成第一步：擷取文字資料，接下來該怎麼辦呢？下回待續囉！

所以這方面闡發統計方式難度並不高，重點在於如何擷取文字資料、主動辨別字詞與計數。前者會因為來曆分歧而需要分歧的手藝或軟體，而後者則需要事前建立龐大的字詞資料庫以供比對。今天筆者介紹一種運用在部落格分析上的方式，極度簡單且輕易進修，最重要的是免費。

下載執行後，只要輸入部落格網址，按［到場］，勾選想要的文章，肯定後即呈現鄙人載使命視窗。建議先按［選項］，設定貯存位置合格式，以避免不知你的文章下載到那邊去了翻譯肯定後再按［下載］，不多久便可看到所選的316篇文章乖乖的存在你的電腦裏囉！~~高興。（詳細操作在上述網站有圖文說明哦！）

在鉅量資料時期，資料是多樣性的，一般經常使用來闡明的結構化資料只佔20%，更多的是文字資料，如訪談稿、機器記錄檔（log）、FB臉書、Twitter推特、網誌、部落格、留言版等，所取得的資料都是一堆文字，對統計學家來講，其闡發意義首要在字詞呈現頻率翻譯淩駕現次數代表被接頭或關注的頻率高，也就是該字詞多是一種大都人的主流定見翻譯