railbotan · Wanderer76 · Dec 24, 2021
diff --git a/homework.py b/homework.py
@@ -0,0 +1,33 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+
+
+def checkToContains(checkableWord, checkedWord):
+    words = checkableWord.lower().replace('-', ' ').split()
+    for word in words:
+        if word in checkedWord.lower():
+            return True
+    return False
+
+
+def count(works, column1, column2):
+    result = 0
+    for job, qualification in zip(works[column1], works[column2]):
+        if not checkToContains(job, qualification) and not checkToContains(qualification, job):
+            result += 1
+    return result
+
+
+works = pd.read_csv('works.csv').dropna()
+result = count(works, 'jobTitle', 'qualification')
+
+top5_menegers = works[works['jobTitle'].str.lower().str.contains('менеджер'[:-2])]['qualification'].str.lower()
+top5_engeners = works[works['jobTitle'].str.lower().str.contains('инженер'[:-2])]['qualification'].str.lower()
+
+plt.bar(top5_menegers.head(5).values, top5_menegers.value_counts().head(5).values, color='blue',
+        label='образование у менеджеров')
+plt.bar(top5_engeners.head(5).values, top5_engeners.value_counts().head(5).values, color='red',
+        label='образование у инженеров')
+
+plt.legend()
+plt.show()
diff --git a/main.py b/main.py
@@ -0,0 +1,45 @@
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+
+works = pd.read_csv('works.csv',encoding='utf-8')
+count_of_rows = works.shape[0]
+print((works['gender'] == 'Мужской').sum())
+print((works['gender'] == 'Женский').sum())
+print(works['skills'].notna().sum())
+print(works.info())
+print(works['skills'].count())
+print(works[works['skills'].notna()]['skills'])
+print(works['skills'].dropna())
+zarp = works['skills'].str.lower().str.contains("python|питон")
+p1 = works['skills'].notna().sum()
+
+print(works[zarp & p1]['salary'])
+print(works.describe())
+
+a = 20000
+b = 'Высшее'
+work_query = works.query('salary == @a and educationType == @b')
+print(work_query[['salary','educationType']])
+percentiles = np.linspace(.1, 1, 10)
+men_salary = works.query("gender == 'Мужской'").quantile(percentiles)
+women_salary = works[works.gender == 'Женский']['salary'].quantile(percentiles)
+plt.plot(men_salary, color='blue')
+plt.plot(women_salary, color='red')
+plt.xlabel('Перцентили')
+plt.ylabel('Зарплата')
+plt.show()
+
+men_salary = works.query("gender == 'Мужской'").groupby('educationType').agg('mean')['salary'].values
+women_salary = works.query("gender == 'Женский'").groupby('educationType').agg('mean')['salary'].values
+
+educationType = set(works['educationType'].dropna().values)
+
+index = np.arange(len(educationType))
+width = 0.3
+plt.bar(index - width / 2, men_salary, width, color='blue', label='Средняя зарплата мужчин')
+plt.bar(index + width / 2, women_salary, width, color='red', label='Средняя зарплата женщин')
+plt.xticks(index, educationType)
+plt.legend()
+plt.show()
+