devilkun · pull · Mar 28, 2020 · Mar 28, 2020 · Mar 28, 2020 · Mar 29, 2020
diff --git a/.docsifytopdfrc.js b/.docsifytopdfrc.js
@@ -0,0 +1,7 @@
+module.exports = {
+  contents: ["summary.md"],
+  pathToPublic: "pdf/advanced-java.pdf",
+  pdfOptions: "<options for puppeteer.pdf()>",
+  removeTemp: true,
+  emulateMedia: "screen",
+};
diff --git a/.github/workflows/branch-merge.yml b/.github/workflows/branch-merge.yml
@@ -0,0 +1,18 @@
+name: Merge Branch
+
+on:
+  push:
+    branches: [ imgbot ]
+
+jobs:
+  merge-branch:
+    runs-on: ubuntu-latest
+    if: github.repository == 'doocs/advanced-java'
+    steps:
+      - uses: actions/checkout@v2
+      - uses: everlytic/branch-merge@1.1.0
+        with:
+          github_token: ${{ github.token }}
+          source_ref: ${{ github.ref }}
+          target_branch: 'master'
+          commit_message_template: '[Automated] Merged {source_ref} into {target_branch}'
diff --git a/.github/workflows/prettier.yml b/.github/workflows/prettier.yml
@@ -0,0 +1,25 @@
+name: Prettier
+
+on:
+  pull_request:
+  push:
+    branches:
+    - master
+
+jobs:
+  prettier:
+    runs-on: ubuntu-latest
+
+    steps:
+    - name: Checkout
+      uses: actions/checkout@v2
+      with:
+        ref: ${{ github.head_ref }}
+
+    - name: Prettify code
+      uses: creyD/prettier_action@v3.0
+      with:
+        prettier_options: --write **/*.{html,js,md}
+        commit_message: 'docs: prettify code'
+      env:
+        GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
diff --git a/.github/workflows/sync.yml b/.github/workflows/sync.yml
@@ -0,0 +1,25 @@
+name: Sync
+
+on:
+  push:
+    branches: [ master ]
+
+jobs:
+  build:
+    runs-on: ubuntu-latest
+    if: github.repository == 'doocs/advanced-java'
+    steps:
+      - name: Sync To Gitee
+        uses: wearerequired/git-mirror-action@master
+        env:
+          SSH_PRIVATE_KEY: ${{ secrets.GITEE_RSA_PRIVATE_KEY }}
+        with:
+          source-repo: git@github.com:doocs/advanced-java.git
+          destination-repo: git@gitee.com:Doocs/advanced-java.git
+
+      - name: Build Gitee Pages
+        uses: yanglbme/gitee-pages-action@master
+        with:
+          gitee-username: yanglbme
+          gitee-password: ${{ secrets.GITEE_PASSWORD }}
+          gitee-repo: doocs/advanced-java
diff --git a/.gitignore b/.gitignore
@@ -1,2 +1,44 @@
+
+# See https://help.github.com/articles/ignoring-files/ for more about ignoring files.
+
+# dependencies
+/node_modules
+/.pnp
+.pnp.js
+
+# testing
+/coverage
+
+# production
+/build
+
+# misc
 .DS_Store
-.vscode
+.env.local
+.env.development.local
+.env.test.local
+.env.production.local
+.vscode
+
+npm-debug.log*
+yarn-debug.log*
+yarn-error.log*
+
+dist
+package-lock.json
+lib
+
+node_modules
+
+# Log files
+npm-debug.log*
+yarn-debug.log*
+yarn-error.log*
+
+# Editor directories and files
+.idea
+*.suo
+*.ntvs*
+*.njsproj
+*.sln
+*.sw?
diff --git a/README.md b/README.md
diff --git a/docs/big-data/README.md b/docs/big-data/README.md
@@ -1,4 +1,5 @@
 # 海量数据处理
+
 - [如何从大量的 URL 中找出相同的 URL？](/docs/big-data/find-common-urls.md)
 - [如何从大量数据中找出高频词？](/docs/big-data/find-top-100-words.md)
 - [如何找出某一天访问百度网站最多的 IP？](/docs/big-data/find-top-1-ip.md)
@@ -13,21 +14,26 @@
 ---
 
 ## 公众号
-GitHub 技术社区 Doocs 旗下唯一公众号“Doocs 开源社区”，欢迎关注，专注于分享有价值的文章；当然，也可以加我个人微信（备注：GitHub）。
+
+[Doocs](https://github.com/doocs) 技术社区旗下唯一公众号「**Doocs 开源社区**」，欢迎扫码关注，**专注分享技术领域相关知识及行业最新资讯**。当然，也可以加我个人微信（备注：GitHub），拉你进技术交流群。
 
 <table>
-    <tr>
-      <td align="center" style="width: 200px;">
-        <a href="https://github.com/doocs">
-          <img src="./images/qrcode-for-doocs.jpg" style="width: 400px;"><br>
-          <sub>公众平台</sub>
-        </a><br>
-      </td>
-      <td align="center" style="width: 200px;">
-        <a href="https://github.com/yanglbme">
-          <img src="./images/qrcode-for-yanglbme.jpg" style="width: 400px;"><br>
-          <sub>个人微信</sub>
-        </a><br>
-      </td>
-    </tr>
-</table>
+  <tr>
+    <td align="center" style="width: 200px;">
+      <a href="https://github.com/doocs">
+        <img src="./images/qrcode-for-doocs.jpg" style="width: 400px;"><br>
+        <sub>公众平台</sub>
+      </a><br>
+    </td>
+    <td align="center" style="width: 200px;">
+      <a href="https://github.com/yanglbme">
+        <img src="./images/qrcode-for-yanglbme.jpg" style="width: 400px;"><br>
+        <sub>个人微信</sub>
+      </a><br>
+    </td>
+  </tr>
+</table>
+
+关注「**Doocs 开源社区**」公众号，回复 **PDF**，即可获取本项目离线 PDF 文档（283 页精华），学习更加方便！
+
+![](./images/pdf.png)
diff --git a/docs/big-data/count-different-phone-numbers.md b/docs/big-data/count-different-phone-numbers.md
@@ -1,9 +1,11 @@
 ## 如何统计不同电话号码的个数？
 
 ### 题目描述
+
 已知某个文件内包含一些电话号码，每个号码为 8 位数字，统计不同号码的个数。
 
 ### 解答思路
+
 这道题本质还是求解**数据重复**的问题，对于这类问题，一般首先考虑位图法。
 
 对于本题，8 位电话号码可以表示的号码个数为 10<sup>8</sup> 个，即 1 亿个。我们每个号码用一个 bit 来表示，则总共需要 1 亿个 bit，内存占用约 100M。
@@ -13,4 +15,5 @@
 申请一个位图数组，长度为 1 亿，初始化为 0。然后遍历所有电话号码，把号码对应的位图中的位置置为 1。遍历完成后，如果 bit 为 1，则表示这个电话号码在文件中存在，否则不存在。bit 值为 1 的数量即为 不同电话号码的个数。
 
 ### 方法总结
-求解数据重复问题，记得考虑位图法。
+
+求解数据重复问题，记得考虑位图法。
diff --git a/docs/big-data/find-a-number-if-exists.md b/docs/big-data/find-a-number-if-exists.md
@@ -1,17 +1,21 @@
 ## 如何在大量的数据中判断一个数是否存在？
 
 ### 题目描述
+
 给定 40 亿个不重复的没排过序的 unsigned int 型整数，然后再给定一个数，如何快速判断这个数是否在这 40 亿个整数当中？
 
 ### 解答思路
 
 #### 方法一：分治法
+
 依然可以用分治法解决，方法与前面类似，就不再次赘述了。
 
 #### 方法二：位图法
-40 亿个不重复整数，我们用 40 亿个 bit 来表示，初始位均为 0，那么总共需要内存：4,000,000,000b≈512M。
+
+40 亿个不重复整数，我们用 40 亿个 bit 来表示，初始位均为 0，那么总共需要内存：4, 000, 000, 000b≈512M。
 
 我们读取这 40 亿个整数，将对应的 bit 设置为 1。接着读取要查询的数，查看相应位是否为 1，如果为 1 表示存在，如果为 0 表示不存在。
 
 ### 方法总结
-**判断数字是否存在、判断数字是否重复的问题**，位图法是一种非常高效的方法。
+
+**判断数字是否存在、判断数字是否重复的问题**，位图法是一种非常高效的方法。
diff --git a/docs/big-data/find-common-urls.md b/docs/big-data/find-common-urls.md
@@ -1,21 +1,24 @@
 ## 如何从大量的 URL 中找出相同的 URL？
 
 ### 题目描述
+
 给定 a、b 两个文件，各存放 50 亿个 URL，每个 URL 各占 64B，内存限制是 4G。请找出 a、b 两个文件共同的 URL。
 
 ### 解答思路
-每个 URL 占 64B，那么 50 亿个 URL占用的空间大小约为 320GB。
 
-> 5,000,000,000 * 64B ≈ 5GB * 64 = 320GB
+每个 URL 占 64B，那么 50 亿个 URL 占用的空间大小约为 320GB。
+
+> 5, 000, 000, 000 _ 64B ≈ 5GB _ 64 = 320GB
 
 由于内存大小只有 4G，因此，我们不可能一次性把所有 URL 加载到内存中处理。对于这种类型的题目，一般采用**分治策略**，即：把一个文件中的 URL 按照某个特征划分为多个小文件，使得每个小文件大小不超过 4G，这样就可以把这个小文件读到内存中进行处理了。
 
 **思路如下**：
 
-首先遍历文件 a，对遍历到的 URL 求 `hash(URL) % 1000`，根据计算结果把遍历到的 URL 存储到 a<sub>0</sub>, a<sub>1</sub>, a<sub>2</sub>, ..., a<sub>999</sub>，这样每个大小约为 300MB。使用同样的方法遍历文件 b，把文件 b 中的 URL 分别存储到文件 b<sub>0</sub>, b<sub>1</sub>, b<sub>2</sub>, ..., b<sub>999</sub> 中。这样处理过后，所有可能相同的 URL 都在对应的小文件中，即 a<sub>0</sub> 对应 b<sub>0</sub>, ..., a<sub>999</sub> 对应 b<sub>999</sub>，不对应的小文件不可能有相同的 URL。那么接下来，我们只需要求出这 1000 对小文件中相同的 URL 就好了。
+首先遍历文件 a，对遍历到的 URL 求 `hash(URL) % 1000` ，根据计算结果把遍历到的 URL 存储到 a<sub>0</sub>, a<sub>1</sub>, a<sub>2</sub>, ..., a<sub>999</sub>，这样每个大小约为 300MB。使用同样的方法遍历文件 b，把文件 b 中的 URL 分别存储到文件 b<sub>0</sub>, b<sub>1</sub>, b<sub>2</sub>, ..., b<sub>999</sub> 中。这样处理过后，所有可能相同的 URL 都在对应的小文件中，即 a<sub>0</sub> 对应 b<sub>0</sub>, ..., a<sub>999</sub> 对应 b<sub>999</sub>，不对应的小文件不可能有相同的 URL。那么接下来，我们只需要求出这 1000 对小文件中相同的 URL 就好了。
 
-接着遍历 a<sub>i</sub>( `i∈[0,999]`)，把 URL 存储到一个 HashSet  集合中。然后遍历 b<sub>i</sub> 中每个 URL，看在 HashSet 集合中是否存在，若存在，说明这就是共同的 URL，可以把这个 URL 保存到一个单独的文件中。
+接着遍历 a<sub>i</sub>( `i∈[0,999]` )，把 URL 存储到一个 HashSet 集合中。然后遍历 b<sub>i</sub> 中每个 URL，看在 HashSet 集合中是否存在，若存在，说明这就是共同的 URL，可以把这个 URL 保存到一个单独的文件中。
 
 ### 方法总结
+
 1. 分而治之，进行哈希取余；
-2. 对每个子文件进行 HashSet 统计。
+2. 对每个子文件进行 HashSet 统计。
diff --git a/docs/big-data/find-hotest-query-string.md b/docs/big-data/find-hotest-query-string.md
@@ -1,32 +1,37 @@
 ## 如何查询最热门的查询串？
 
 ### 题目描述
+
 搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度不超过 255 字节。
 
 假设目前有 1000w 个记录（这些查询串的重复度比较高，虽然总数是 1000w，但如果除去重复后，则不超过 300w 个）。请统计最热门的 10 个查询串，要求使用的内存不能超过 1G。（一个查询串的重复度越高，说明查询它的用户越多，也就越热门。）
 
 ### 解答思路
+
 每个查询串最长为 255B，1000w 个串需要占用 约 2.55G 内存，因此，我们无法将所有字符串全部读入到内存中处理。
 
 #### 方法一：分治法
+
 分治法依然是一个非常实用的方法。
 
 划分为多个小文件，保证单个小文件中的字符串能被直接加载到内存中处理，然后求出每个文件中出现次数最多的 10 个字符串；最后通过一个小顶堆统计出所有文件中出现最多的 10 个字符串。
 
 方法可行，但不是最好，下面介绍其他方法。
 
 #### 方法二：HashMap 法
-虽然字符串总数比较多，但去重后不超过 300w，因此，可以考虑把所有字符串及出现次数保存在一个 HashMap 中，所占用的空间为 300w*(255+4)≈777M（其中，4表示整数占用的4个字节）。由此可见，1G 的内存空间完全够用。
+
+虽然字符串总数比较多，但去重后不超过 300w，因此，可以考虑把所有字符串及出现次数保存在一个 HashMap 中，所占用的空间为 300w\*(255+4)≈777M（其中，4 表示整数占用的 4 个字节）。由此可见，1G 的内存空间完全够用。
 
 **思路如下**：
 
-首先，遍历字符串，若不在 map 中，直接存入 map，value 记为 1；若在 map 中，则把对应的 value 加 1，这一步时间复杂度 `O(N)`。
+首先，遍历字符串，若不在 map 中，直接存入 map，value 记为 1；若在 map 中，则把对应的 value 加 1，这一步时间复杂度 `O(N)` 。
 
 接着遍历 map，构建一个 10 个元素的小顶堆，若遍历到的字符串的出现次数大于堆顶字符串的出现次数，则进行替换，并将堆调整为小顶堆。
 
-遍历结束后，堆中 10 个字符串就是出现次数最多的字符串。这一步时间复杂度 `O(Nlog10)`。
+遍历结束后，堆中 10 个字符串就是出现次数最多的字符串。这一步时间复杂度 `O(Nlog10)` 。
 
 #### 方法三：前缀树法
+
 方法二使用了 HashMap 来统计次数，当这些字符串有大量相同前缀时，可以考虑使用前缀树来统计字符串出现的次数，树的结点保存字符串出现次数，0 表示没有出现。
 
 **思路如下**：
@@ -36,4 +41,5 @@
 最后依然使用小顶堆来对字符串的出现次数进行排序。
 
 ### 方法总结
+
 前缀树经常被用来统计字符串的出现次数。它的另外一个大的用途是字符串查找，判断是否有重复的字符串等。
diff --git a/docs/big-data/find-mid-value-in-500-millions.md b/docs/big-data/find-mid-value-in-500-millions.md
@@ -1,19 +1,22 @@
 ## 如何从 5 亿个数中找出中位数？
 
 ### 题目描述
+
 从 5 亿个数中找出中位数。数据排序后，位置在最中间的数就是中位数。当样本数为奇数时，中位数为 第 `(N+1)/2` 个数；当样本数为偶数时，中位数为 第 `N/2` 个数与第 `1+N/2` 个数的均值。
 
 ### 解答思路
-如果这道题没有内存大小限制，则可以把所有数读到内存中排序后找出中位数。但是最好的排序算法的时间复杂度都为 `O(NlogN)`。这里使用其他方法。
+
+如果这道题没有内存大小限制，则可以把所有数读到内存中排序后找出中位数。但是最好的排序算法的时间复杂度都为 `O(NlogN)` 。这里使用其他方法。
 
 #### 方法一：双堆法
+
 维护两个堆，一个大顶堆，一个小顶堆。大顶堆中最大的数**小于等于**小顶堆中最小的数；保证这两个堆中的元素个数的差不超过 1。
 
 若数据总数为**偶数**，当这两个堆建好之后，**中位数就是这两个堆顶元素的平均值**。当数据总数为**奇数**时，根据两个堆的大小，**中位数一定在数据多的堆的堆顶**。
 
 ```java
 class MedianFinder {
-    
+
     private PriorityQueue<Integer> maxHeap;
     private PriorityQueue<Integer> minHeap;
 
@@ -22,14 +25,14 @@ class MedianFinder {
         maxHeap = new PriorityQueue<>(Comparator.reverseOrder());
         minHeap = new PriorityQueue<>(Integer::compareTo);
     }
-    
+
     public void addNum(int num) {
         if (maxHeap.isEmpty() || maxHeap.peek() > num) {
             maxHeap.offer(num);
         } else {
             minHeap.offer(num);
         }
-        
+
         int size1 = maxHeap.size();
         int size2 = minHeap.size();
         if (size1 - size2 > 1) {
@@ -38,12 +41,12 @@ class MedianFinder {
             maxHeap.offer(minHeap.poll());
         }
     }
-    
+
     public double findMedian() {
         int size1 = maxHeap.size();
         int size2 = minHeap.size();
-        
-        return size1 == size2 
+
+        return size1 == size2
             ? (maxHeap.peek() + minHeap.peek()) * 1.0 / 2
             : (size1 > size2 ? maxHeap.peek() : minHeap.peek());
     }
@@ -55,6 +58,7 @@ class MedianFinder {
 以上这种方法，需要把所有数据都加载到内存中。当数据量很大时，就不能这样了，因此，这种方法**适用于数据量较小的情况**。5 亿个数，每个数字占用 4B，总共需要 2G 内存。如果可用内存不足 2G，就不能使用这种方法了，下面介绍另一种方法。
 
 #### 方法二：分治法
+
 分治法的思想是把一个大的问题逐渐转换为规模较小的问题来求解。
 
 对于这道题，顺序读取这 5 亿个数字，对于读取到的数字 num，如果它对应的二进制中最高位为 1，则把这个数字写到 f1 中，否则写入 f0 中。通过这一步，可以把这 5 亿个数划分为两部分，而且 f0 中的数都大于 f1 中的数（最高位是符号位）。
@@ -68,4 +72,5 @@ class MedianFinder {
 > **注意**，当数据总数为偶数，如果划分后两个文件中的数据有相同个数，那么中位数就是数据较小的文件中的最大值与数据较大的文件中的最小值的平均值。
 
 ### 方法总结
+
 分治法，真香！