第 24 期：非等值分組

資料庫 · 發表 2018-11-02 16:52:20

摘要：前一期【資料蔣堂】第 23 期：還原分組運算的本意我們在上一期研究了分組運算的實質，即將一個集合按某種規則拆分成若干子集。不過，上期的關注重點在於還原分組運算的步驟，而沒有討論拆分規則，例子中都是用某些欄位（或表示式）來定義拆分規則，也就是 SQL 中使用的方法。我們把這種拆分方...

前一期【資料蔣堂】第 23 期：還原分組運算的本意

我們在上一期研究了分組運算的實質，即將一個集合按某種規則拆分成若干子集。不過，上期的關注重點在於還原分組運算的步驟，而沒有討論拆分規則，例子中都是用某些欄位（或表示式）來定義拆分規則，也就是 SQL 中使用的方法。

我們把這種拆分方式稱為等值分組。

等值分組在數學上的描述，相當於在一個集合上定義了一個等價關係：分組欄位（表示式）相等的成員（記錄）就認為等價。

等價關係是指滿足如下條件的關係：

1）交換性，若 a=b 則 b=a

2）傳遞性，若 a=b,b=c 則 a=c

3）排他性，對任何 a,b，a=b 和 a!=b 有且只有一個成立

可以證明，任何等價關係一定能把原集合完全劃分成若干個子集，每個子集中的成員互相等價。

完全劃分具有這樣的性質：

1）沒有空子集

2）原集合的任何成員都屬於且只屬於某一個子集

考查等值分組，我們會發現它能夠精確地滿足等價關係的定義，因而等值分組的結果一定是完全劃分。

有等值分組和完全劃分，那是不是還有非等值分組和不完全劃分？還有沒有別的方式產生完全劃分？這些是否有業務意義呢？

答案是肯定的。

比如我們要統計男女員工數量。我們可以寫成這樣：

SELECT gender,COUNT(*) FROM employee GROUP BY gender

但如果公司員工全是男性或女性，這個運算結果就只有一行了，那可能就不是我們想要的了。

為解決這個問題，我們可以設計這樣一種分組方案：先羅列出一個基準集合，然後將待分組集合成員的某個屬性（欄位或表示式）與基準集合成員比較，相同者則分到一個子集中，最後拆分出來的子集數量和基準集合成員數是相同的。這種分組我們稱為對位分組。

使用對位分組統計男女員工數量可以寫成這樣：

a=[男,女] // 基準集合

g=employee.align(a,gender) // 設計函式align實現對位分組，拆分集合

g.new(a(#),~.len()) // 用分組子集計算彙總

可以想象，這種對位分組在日常統計中是很常見的，比如按地區、按部門統計，都可以事先把基準集合列出來，而且我們經常還要求結果集必須按基準集合的次序出現，而等值分組不能保證這個次序，還要再排序（排序時還是要提供這個基準集合，原集合成員屬性中沒有這個資訊）。

對位分組可能出現空子集，它也不能保證任何原集合的成員都被拆到某個子集中（比如有些不重要的成員沒有被列入基準集合），不過對位分組能保證每個成員最多隻出現在一個子集中。

我們還能把對位分組推廣成更一般的列舉分組。

列舉分組是指，事先指定一組條件，將待分組集合的成員作為引數計算這批條件，條件成立者都被劃分到與該條件對應的一個子集中，結果集的子集和事先指定的條件一一對應。

比如，將員工按年齡段分組統計人數：

a=[?<=30,?<=40,?>40] // 用?表示要代入的引數

g=employee.enum(a,age) // 設計函式enum實現列舉分組，拆分集合

….

顯然，列舉分組在日常業務中也是不少見的。

列舉分組和對位分組很象，都需要先列出一個基準集合，事實上，對位分組就是一種特殊的列舉分組。不過，不同的是，列舉分組可能製造出有重複成員的子集，也就是可重分組。

a=[?<=30,?>20 && ?<=40,?>50] // 條件有重疊

g=employee.enum(a,age)

可重分組在實際業務中相對罕見一些，不過了解一下也有助於再次理解分組運算的實質。

表面上看，對位分組和列舉分組和 SQL 的 GROUP BY 差別很大，但理解了分組運算的本質後，就會明白它們其實是一回事：把某個集合拆分成若干子集。只是拆分的方法各有不同。

還有其它不完全依賴於成員屬性的分組方式，但仍然是一種“把集合拆成子集”的方法，我們在後續文章會再提及。

還有一個問題，SQL 只提供了等值分組，那會不會不夠用呢？用 SQL 又是如何解決對位分組和列舉分組問題的？

其實 SQL 的運算能力是完備的，上述兩種非等值分組都可以轉換成等值分組，就是會麻煩一些。

對於對位分組，可以用基準集合和待分組集合做 LEFT JOIN，對這個結果集再做 GROUP BY 就可以得到相同的效果。注意一定要用 LEFT JOIN，用 JOIN 可能會失去空子集，用 FULL JOIN 又會多出基準集合之外的成員。列舉分組也是類似，但語句會更復雜些，要根據列舉條件去設計 JOIN 的條件，難以給出通用寫法。

第 24 期：非等值分組

您可能也會喜歡…