bloom-filter

Summary

  • 用途: 用來快速判斷元素是否存在於一個集合中
  • 優點: 快速、節省空間
  • 缺點: 可能有 false positive (不存在但判定為存在)
  • 應用:
    • Check Duplicate: name、email 等是否已被使用
    • Filters: 過濾惡意請求 (ex: Cache penetration)、垃圾郵件等
閱讀全文 »

前言

cover image

因為課堂專案的關係需要用到MongoDB所以小學了一下,發現MongoDB真的是很香,撇開資料庫易用性,光是MongoDB Atlas提供每位使用者免費10GB的雲端資料庫空間(免填信用卡),就很值得你辦個帳號來玩一下了。這篇文章會簡單介紹一下MongoDB,以及如何用python PyMongo完成資料庫的CRUD操作。

閱讀全文 »

前言

Spectral Clustering

在社群網絡中分析中,有時候會想要找出網絡當中的社群(community detection),一個最直觀的想法是直接對網絡進行分群,那麼分群結果就是各個community了。
如果我們能夠計算各個節點之間的相似性,那麼我們當然可以直接套用傳統的分群方法,如cosine similiarity,但一來是相似度特徵可能很難取得,二來是這樣分群的話就沒有利用到網絡的結構了,這時我們可以改為使用基於圖論的分群方法。
今天這篇文章會帶大家簡單瞭解什麼是cut approach, balanced-cut approach以及其代表方法spectral clustering,並示範不依賴其他套件,僅使用numpy實作spectral clustering。

閱讀全文 »

前言

cover

Hexo Next雖然已經將許多常見的設定整合到主題當中,但大家都採用一樣的設定的話其實挺無聊的,所以今天要在Hexo Next的基礎上帶大家來美化自己的部落格,為部落格加入個人風格,如果還不知道Hexo或者NexT是什麼可以參考我之前寫的Hello Hexo!系列文章。

閱讀全文 »

前言

google and bing logo

好不容易架設好Hexo網站,下一個問題就是如何讓自己寫的文章被其他人看見,大家可以在Google搜尋中輸入site: 你的網站url,看看Google能不能找到你的網站,沒意外的話Google應該還找不到你的網站,換做是Bing也一樣,原因是這些搜尋引擎還不認識我們的網站,本篇文章會帶大家使用Google Search Console以及Bing Webmaster來進行SEO。
(ps. 網路上已經有很多文章介紹Hexo的Google SEO,但在Bing與ChatGPT合作後,搜尋量有了明顯的提升,因此這篇文章除了介紹Google SEO外,也會介紹Bing SEO)

閱讀全文 »

介紹

Betweenness Centrality

介數中心性(Betweenness Centrality)是社會網絡分析中常用的一種指標,用於度量一個節點在整個網絡中扮演了多重要的角色,簡單來說,介數中心性指標評估了一個節點在網絡中擔任了多少條最短路徑的中介者角色。

更白話一點,介數中心性看的是一個節點有多常被其他人經過,舉例來說:某些公車站點連接了不同的公車路線,這些公車站點對於連接整個公車網絡起著重要的作用,如果這些公車站發生了任何問題,整個公車路線都會受到影響。這些公車站點就是具有高介數中心性的節點。

閱讀全文 »

前言

寫完上一篇Implement Trie (字典樹)後,沒過兩天LeetCode每日一題又出現Trie的題目了(笑),題目是211. Design Add and Search Words Data Structure,簡單來說就是字典樹加上一點正規表達(regular expression)的概念,舉例來說trie裡有bad,那搜尋b.d的話也要回傳true,詳細題目一樣自己到LeetCode去看囉。

閱讀全文 »

前言

今天在寫LeetCode每日一題時遇到208. Implement Trie (Prefix Tree),之前因為覺得Trie好像很難所以一直不願面對,但這題就是要跟Trie的直球對決了想躲也躲不掉XD,Anyway,看了一下發現Trie其實蠻好理解的,今天就來認識一下Trie,然後看看這一題可以怎麼寫吧!(Python, C++)

閱讀全文 »
0%