Spaces:

perezcatriel
/

data_world_jobs

Runtime error

App Files Files Community

perezcatriel commited on Apr 26, 2023

Commit

2c5c5bd

1 Parent(s): 06e063c

Modelo New

Browse files

Files changed (3) hide show

ML/skill_top.py +59 -0
app.py +83 -3
assets/dataset_modelo_1.csv +0 -0

ML/skill_top.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import pandas as pd
+import streamlit as st
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.naive_bayes import MultinomialNB
+# Cargar los datos
+df = pd.read_csv('../assets/dataset_modelo_1.csv')
+# Crear una lista con todas las skills disponibles
+all_skills = set()
+for skills in df.skills:
+    all_skills.update(skills.split(", "))
+# Crear un diccionario que relaciona cada skill con su índice en el vector
+skill_indices = {skill: i for i, skill in enumerate(all_skills)}
+# Crear una matriz de características con la frecuencia de cada skill en cada fila
+vectorizer = CountVectorizer(vocabulary=skill_indices.keys(), lowercase=False)
+X = vectorizer.fit_transform(df.skills)
+# Entrenar el modelo
+clf = MultinomialNB()
+clf.fit(X, df.Aptitude)
+# Crear la interfaz de usuario con Streamlit
+st.title("Predicción de aptitud para un trabajo")
+st.write(
+    "Ingrese el título del trabajo para ver las habilidades más importantes.")
+title = st.multiselect("Título del trabajo", df.job_title.unique())
+# Crear una función que encuentra las habilidades más importantes para un título dado
+def get_top_skills(title, limit):
+    # Filtrar el dataframe por el título dado
+    filtered_df = df[df.job_title == title]
+    # Crear una matriz de características con la frecuencia de cada skill en el dataframe filtrado
+    X_filtered = vectorizer.transform(filtered_df.skills)
+    # Calcular la frecuencia de cada habilidad en el dataframe filtrado
+    skill_frequencies = X_filtered.sum(axis=0).A1
+    # Obtener los nombres de las habilidades
+    skill_names = vectorizer.vocabulary_.keys()
+    # Crear un diccionario que relaciona cada habilidad con su frecuencia
+    skill_freq_dict = dict(zip(skill_names, skill_frequencies))
+    # Ordenar las habilidades por frecuencia descendente y devolver las más importantes (según el límite dado)
+    top_skills = sorted(skill_freq_dict, key=skill_freq_dict.get,
+                        reverse=True)[:limit]
+    return top_skills
+if title:
+    limit = st.number_input("Cantidad de habilidades a mostrar", value=5, min_value=1, max_value=len(all_skills))
+    top_skills = get_top_skills(title[0], limit)
+    st.write(f"Las {limit} habilidades más importantes para el trabajo de '{title[0]}' son:")
+    for skill in top_skills:
+        st.write(f"- {skill}")

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import datetime
 import time
 import altair as alt
 import pandas as pd
@@ -159,9 +160,18 @@ En resumen, la industria de la tecnología y la analítica de datos está en con
     ''', unsafe_allow_html=True)
     st.write("Este es mi dashboard de Tableau:")
     st.markdown('''<iframe src="https://public.tableau.com/views/latam_brain_mvp/General?:language=es-ES&publish=yes&:display_count=n&:origin=viz_share_link" width="100%" height="800"></iframe>''', unsafe_allow_html=True)
     st.markdown('''
         <br>
         <h3>Dashboard contexto actual</h3>
@@ -396,7 +406,77 @@ if selected2 == "New":
     for percent_complete in range(100):
         time.sleep(0.05)
         my_bar.progress(percent_complete + 1, text=progress_text)
-    st.write('Dale Mati!!!!')
 if selected2 == "Contact US":

 import datetime
 import time
+from streamlit import components
 import altair as alt
 import pandas as pd
     ''', unsafe_allow_html=True)
     st.write("Este es mi dashboard de Tableau:")
+#######
     st.markdown('''<iframe src="https://public.tableau.com/views/latam_brain_mvp/General?:language=es-ES&publish=yes&:display_count=n&:origin=viz_share_link" width="100%" height="800"></iframe>''', unsafe_allow_html=True)
+    tableau_url = "https://public.tableau.com/views/latam_brain_mvp/DashboardGeneralDataJobs?:language=es-ES&:display_count=n&:origin=viz_share_link"
+    # Incruste el dashboard de Tableau utilizando components.html
+    st.components.v1.html(
+        f'<iframe src="{tableau_url}" width="100%" height="800"></iframe>',
+        height=800)
+   #########
     st.markdown('''
         <br>
         <h3>Dashboard contexto actual</h3>
     for percent_complete in range(100):
         time.sleep(0.05)
         my_bar.progress(percent_complete + 1, text=progress_text)
+    #####
+    import pandas as pd
+    import streamlit as st
+    from sklearn.feature_extraction.text import CountVectorizer
+    from sklearn.naive_bayes import MultinomialNB
+    # Cargar los datos
+    df = pd.read_csv('./assets/dataset_modelo_1.csv')
+    # Crear una lista con todas las skills disponibles
+    all_skills = set()
+    for skills in df.skills:
+        all_skills.update(skills.split(", "))
+    # Crear un diccionario que relaciona cada skill con su índice en el vector
+    skill_indices = {skill: i for i, skill in enumerate(all_skills)}
+    # Crear una matriz de características con la frecuencia de cada skill en cada fila
+    vectorizer = CountVectorizer(vocabulary=skill_indices.keys(),
+                                 lowercase=False)
+    X = vectorizer.fit_transform(df.skills)
+    # Entrenar el modelo
+    clf = MultinomialNB()
+    clf.fit(X, df.Aptitude)
+    # Crear la interfaz de usuario con Streamlit
+    st.title("Predicción de aptitud para un trabajo")
+    st.write(
+        "Ingrese el título del trabajo para ver las habilidades más importantes.")
+    title = st.multiselect("Título del trabajo", df.job_title.unique())
+    # Crear una función que encuentra las habilidades más importantes para un título dado
+    def get_top_skills(title, limit):
+        # Filtrar el dataframe por el título dado
+        filtered_df = df[df.job_title == title]
+        # Crear una matriz de características con la frecuencia de cada skill en el dataframe filtrado
+        X_filtered = vectorizer.transform(filtered_df.skills)
+        # Calcular la frecuencia de cada habilidad en el dataframe filtrado
+        skill_frequencies = X_filtered.sum(axis=0).A1
+        # Obtener los nombres de las habilidades
+        skill_names = vectorizer.vocabulary_.keys()
+        # Crear un diccionario que relaciona cada habilidad con su frecuencia
+        skill_freq_dict = dict(zip(skill_names, skill_frequencies))
+        # Ordenar las habilidades por frecuencia descendente y devolver las más importantes (según el límite dado)
+        top_skills = sorted(skill_freq_dict, key=skill_freq_dict.get,
+                            reverse=True)[:limit]
+        return top_skills
+    if title:
+        limit = st.number_input("Cantidad de habilidades a mostrar", value=5,
+                                min_value=1, max_value=len(all_skills))
+        top_skills = get_top_skills(title[0], limit)
+        st.write(
+            f"Las {limit} habilidades más importantes para el trabajo de '{title[0]}' son:")
+        for skill in top_skills:
+            st.write(f"- {skill}")
+    #####
+    #####
 if selected2 == "Contact US":

assets/dataset_modelo_1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff