El modo AI de predicción de ataques cardíacos se pierde con herramientas ‘sin código’

Zoom / ¡Ah, el botón fácil!

Oric Lawson | imágenes falsas

Este es el segundo episodio de nuestra exploración del aprendizaje automático «sin código». En nuestro primer artículopresentamos nuestro conjunto de problemas y discutimos los datos que usaremos para probar si una herramienta de ML altamente automatizada diseñada para analistas de negocios puede brindar resultados rentables cercanos a la calidad de Métodos más intensivos en código Implica un poco de ciencia de datos impulsada por humanos.

Si no has leído este artículo, al menos vuelve. hojearlo. Si está listo, revisemos lo que vamos a hacer con nuestros datos de ataque cardíaco en condiciones de aprendizaje automático «normales» (es decir, las más intensivas en código) y luego deséchelo todo y presione el botón «fácil».

Como se discutió anteriormente, trabajamos con un conjunto de datos de salud cardíaca extraídos de un estudio en la Clínica Cleveland y el Instituto Húngaro de Cardiología en Budapest (además de otros lugares cuyos datos hemos descartado por razones de calidad). Todos estos datos están disponibles en almacén Lo creamos en GitHub, pero su forma original es parte de almacén de datos Fue mantenido para proyectos de aprendizaje automático por la Universidad de California – Irvine. Usamos dos versiones del conjunto de datos: una versión más pequeña y completa que consta de 303 registros de pacientes de la Clínica Cleveland y una base de datos más grande (597 pacientes) que incluye datos HGI pero faltan dos tipos de datos del conjunto más pequeño.

Parece que los dos campos que faltan de los datos húngaros pueden ser importantes, pero los datos de la Clínica Cleveland en sí mismos pueden ser demasiado pequeños para algunas aplicaciones de ML, por lo que intentaremos cubrir nuestras bases.

READ  Apple Watch 7 acaba de alcanzar un precio récord antes del Amazon Prime Day

El plan

Con múltiples conjuntos de datos disponibles para entrenamiento y pruebas, es hora de comenzar a trabajar. Si lo estuviéramos haciendo de la forma en que los científicos de datos suelen hacerlo (y de la forma en que lo intentamos el año pasado), haríamos lo siguiente:

  1. Divida los datos en un conjunto de entrenamiento y un conjunto de prueba
  2. Use datos de entrenamiento con un tipo de algoritmo existente para construir el modelo
  3. Verifique el modelo con el equipo de prueba para verificar su precisión

Podemos hacer todo esto codificándolo en el cuaderno Jupyter y modificando el modelo hasta lograr una precisión aceptable (como hicimos el año pasado, en un ciclo perpetuo). Pero en cambio, primero probaremos dos métodos diferentes:

  • Un enfoque «sin código» con Sagemaker Canvas de AWS: Canvas toma los datos como un todo, los divide automáticamente en entrenamiento y prueba, y genera un algoritmo predictivo
  • Otro enfoque de «código bajo/sin código» usando Sagemaker Studio Jumpstart y AutoML: AutoML es gran parte de lo que hay detrás de Canvas; Evalúa los datos y prueba varios tipos diferentes de algoritmos para determinar cuál es el mejor.

Una vez hecho esto, utilizaremos uno de los muchos métodos de aprendizaje automático probados en batalla con los que los científicos de datos ya han experimentado con este conjunto de datos, algunos de los cuales han afirmado tener una precisión de más del 90 por ciento.

El producto final de estos métodos debería ser un algoritmo que podamos usar para ejecutar una consulta predictiva basada en puntos de datos. Pero el resultado real será una mirada a las ventajas y desventajas de cada enfoque en términos de tiempo de finalización, precisión y costo del tiempo de cómputo. (En nuestra última prueba, el propio AutoML prácticamente arruinó todo el saldo de crédito de la cuenta de AWS).

READ  ¿Alguna vez has oído hablar de los Grupos de Google? Hace que compartir enlaces, fotos y planes sea muy fácil

Deja una respuesta

Tu dirección de correo electrónico no será publicada.