Thursday, September 19, 2024

AI - Natural Language Processing - Filtering Stop Words


Stop words
 are words that you want to ignore, so you filter them out of your text when you’re processing it. Very common words like 'in''is', and 'an' are often used as stop words since they don’t add a lot of meaning to a text in and of themselves. 

Code:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "Jesus saith unto him, I am the way, the truth, and the life: no man cometh unto the Father, but by me."

words_in_quote = word_tokenize(text)
print("\n words_in_quote before apply stop words \n")
print(words_in_quote)


stop_words = set(stopwords.words("english"))
print("\n all stop words in English \n")
print(stop_words)

filtered_list = [
    word for word in words_in_quote if word.casefold() not in stop_words
]

print("\n filtered_list = [word for word in words_in_quote if word.casefold() not in stop_words] \n")
print(filtered_list)

# filtered_list = []
# for word in words_in_quote:
#     if word.casefold() not in stop_words:
#         filtered_list.append(word)


# print("\n filtered_list \n")
# print(filtered_list)


stop_words = set(stopwords.words("french"))
print("\n all stop words in French \n")
print(stop_words)

stop_words = set(stopwords.words("spanish"))
print("\n all stop words in Spanish \n")
print(stop_words)




Result: 

(base) C:\>python C:\Projects\Python\NLTK\FilteringStopWords.py


 words_in_quote before apply stop words


['Jesus', 'saith', 'unto', 'him', ',', 'I', 'am', 'the', 'way', ',', 'the', 'truth', ',', 'and', 'the', 'life', ':', 'no', 'man', 'cometh', 'unto', 'the', 'Father', ',', 'but', 'by', 'me', '.']


 all stop words in English


{'these', 'there', 'it', 'can', 'from', 'then', 'he', "doesn't", 'haven', 'up', 'her', 'off', 'other', 'theirs', 'those', 'y', 'during', 'your', 'how', "haven't", 't', 'against', 'his', 'needn', 'i', 'ma', 'ourselves', 'is', 'me', 'had', 'been', 'own', "aren't", "hadn't", 've', 'where', 'or', 'by', 'which', 'of', 'has', 'no', 'not', "you'll", 'should', 'mustn', 'into', 'hadn', 'all', 'any', 'under', 'won', 'when', 'are', 'what', 'this', 'themselves', 'have', 'before', 'whom', 'below', 'down', 'most', "wasn't", 'in', "wouldn't", 'mightn', "shouldn't", 'will', 'did', 'were', "you're", "needn't", 'myself', "didn't", 'o', 'herself', 'at', 'm', 'nor', 'our', 'an', 'aren', "weren't", "couldn't", 'isn', 'only', 'was', 'weren', "she's", 'too', 'as', "you've", 'why', 'my', 'but', 'and', 's', 'if', 'yourselves', 'after', "it's", 'shouldn', 'we', 'him', 'further', 'be', 'does', 'hers', "shan't", 'yours', 'a', 'above', 'who', 'between', "should've", 'them', 'about', 'more', 'do', 'the', 'itself', 'with', 'shan', 'their', 'because', 'such', "won't", 'll', 'doesn', 'having', "you'd", 'for', 'through', 'so', 'she', 'don', 'once', 'out', "that'll", 'same', "don't", 'ain', 'hasn', 'wouldn', 'now', 'you', 'didn', 'both', 'few', 'than', 'they', "mustn't", 'that', 'while', 'here', 'some', 'on', 'to', 'am', 'just', 'doing', 'being', 'over', 'again', 'until', 'd', 're', "hasn't", 'couldn', 'yourself', 'himself', 'very', 'each', 'wasn', "mightn't", 'its', "isn't", 'ours'}


 filtered_list = [word for word in words_in_quote if word.casefold() not in stop_words]


['Jesus', 'saith', 'unto', ',', 'way', ',', 'truth', ',', 'life', ':', 'man', 'cometh', 'unto', 'Father', ',', '.']


 all stop words in French


{'notre', 'aux', 'eux', 'moi', 'aurai', 'aie', 'eussiez', 'mes', 'es', 'il', 'étaient', 'lui', 'j', 'étais', 'étée', 'étions', 'étiez', 'serons', 'serions', 'auront', 'soyons', 'dans', 'y', 'ayez', 'serait', 'avait', 'étante', 'auraient', 'avaient', 't', 'ma', 'eu', 'mais', 'qui', 'me', 'étant', 'même', 'sera', 'avais', 'elle', 'ce', 'soit', 'ou', 'seront', 'à', 'été', 'ayons', 'avons', 'son', 'fûtes', 'eussent', 'avions', 'serez', 'de', 'serais', 'nos', 'fusses', 'sont', 'eûmes', 'fusse', 'l', 'ayant', 'fussent', 'n', 'eusse', 'leur', 'eûtes', 'mon', 'toi', 'eut', 'aviez', 'que', 'c', 'pour', 'ta', 'm', 'votre', 'ces', 'étés', 'ses', 'auras', 'ait', 'avec', 'tu', 'le', 'sur', 'seraient', 'fussiez', 'des', 'aura', 'as', 'eût', 'sois', 'soyez', 's', 'une', 'soient', 'serai', 'ai', 'eue', 'je', 'aient', 'vous', 'étants', 'fussions', 'eues', 'suis', 'aurait', 'par', 'aurez', 'seras', 'étantes', 'sommes', 'aurais', 'les', 'tes', 'eus', 'fus', 'se', 'un', 'fut', 'et', 'aies', 'qu', 'est', 'fût', 'sa', 'seriez', 'ils', 'ton', 'vos', 'ayante', 'eurent', 'ont', 'était', 'eussions', 'du', 'pas', 'auriez', 'on', 'nous', 'te', 'la', 'aurions', 'ayants', 'ne', 'd', 'en', 'eusses', 'avez', 'au', 'fûmes', 'aurons', 'furent', 'ayantes', 'êtes', 'étées'}


 all stop words in Spanish


{'he', 'tuyas', 'tuviéramos', 'habías', 'habíamos', 'estaremos', 'esto', 'qué', 'habríamos', 'estabas', 'habidos', 'ella', 'tuve', 'hubiéramos', 'tenidas', 'habremos', 'estoy', 'porque', 'está', 'vosotras', 'tenemos', 'una', 'míos', 'poco', 'han', 'habidas', 'ti', 'tendríamos', 'habida', 'estuvierais', 'muchos', 'tuviese', 'estaré', 'que', 'nuestro', 'habría', 'hubiera', 'tu', 'le', 'esté', 'unos', 'seáis', 'sentid', 'algunos', 'sois', 'seríamos', 'tendría', 'habréis', 'tuvisteis', 'soy', 'ellos', 'tuviste', 'tanto', 'sentidos', 'sus', 'esos', 'vuestras', 'tendrían', 'nosotras', 'fuimos', 'estuvieron', 'hemos', 'suyas', 'mí', 'mía', 'estuviéramos', 'mucho', 'habrán', 'estarían', 'tengáis', 'estuvieran', 'estuviera', 'en', 'tuvierais', 'tus', 'estuvieses', 'fueron', 'estuvo', 'tenidos', 'estés', 'los', 'mías', 'más', 'fueseis', 'el', 'tenías', 'y', 'hubiésemos', 'estaríamos', 'sentidas', 'vosotros', 'estaríais', 'me', 'del', 'fuésemos', 'también', 'antes', 'tendrá', 'hayas', 'seamos', 'no', 'eran', 'son', 'algo', 'seríais', 'tendrán', 'de', 'fuerais', 'fui', 'hayáis', 'sin', 'tened', 'éramos', 'estos', 'esta', 'habéis', 'fue', 'estaba', 'o', 'ha', 'tenida', 'estuve', 'hubieras', 'hubisteis', 'desde', 'cual', 'las', 'seas', 'nosotros', 'ni', 'fuesen', 'sobre', 'mi', 'sentido', 'estará', 'estados', 'otros', 'ya', 'era', 'serían', 'serán', 'tendrías', 'suya', 'teníais', 'vuestros', 'estar', 'tuvieran', 'hubieseis', 'cuando', 'al', 'te', 'con', 'tuvieras', 'otra', 'habiendo', 'hubieron', 'entre', 'tuyos', 'eso', 'tienes', 'estaréis', 'nuestros', 'es', 'como', 'tuviera', 'teniendo', 'fuisteis', 'estarías', 'seré', 'hayamos', 'tengan', 'estuvimos', 'tendréis', 'somos', 'habrás', 'tengamos', 'hubiesen', 'fueran', 'estuviésemos', 'has', 'estuviste', 'estada', 'tendremos', 'nuestras', 'había', 'estuvisteis', 'hasta', 'teníamos', 'estáis', 'mis', 'nada', 'estabais', 'habido', 'serías', 'muy', 'su', 'sea', 'contra', 'algunas', 'todos', 'habrá', 'estarás', 'sería', 'tengo', 'pero', 'ese', 'hubiste', 'hubiese', 'estando', 'haya', 'otras', 'seremos', 'eras', 'hubierais', 'habían', 'tenéis', 'fueras', 'hay', 'les', 'estad', 'tenga', 'se', 'quienes', 'un', 'tuya', 'suyos', 'suyo', 'tendrás', 'tuvieses', 'estaban', 'tendré', 'será', 'tenían', 'esa', 'hubo', 'e', 'vuestro', 'os', 'estábamos', 'tuviésemos', 'tenido', 'estarán', 'hubieses', 'yo', 'estuviese', 'estaría', 'fuéramos', 'vuestra', 'estéis', 'para', 'sí', 'sentida', 'estén', 'hubimos', 'estuvieseis', 'durante', 'esas', 'fuiste', 'habrías', 'habrían', 'tenía', 'este', 'tendríais', 'estuvieras', 'lo', 'tuyo', 'sean', 'estás', 'nos', 'habré', 'estadas', 'eres', 'tienen', 'fuese', 'otro', 'tiene', 'quien', 'nuestra', 'ellas', 'fueses', 'por', 'tengas', 'tuviesen', 'fuera', 'hube', 'donde', 'tuvieseis', 'estuviesen', 'tuvieron', 'a', 'hubieran', 'habríais', 'sintiendo', 'todo', 'uno', 'estas', 'hayan', 'seréis', 'habíais', 'ante', 'él', 'la', 'tú', 'tuvimos', 'erais', 'siente', 'tuvo', 'serás', 'están', 'mío', 'estado', 'estemos', 'estamos'}




My services: Predict and more detail in each group/cluster, between each cluster/group or do predict in number of stock codes or do predict in any stock data from any stock market, (US, Hong Kong, Singapore, Japan, London, Korea) .


You need to get an AI, Machine Learning or OpenAI system? Call me!


Cut 90% cost by using my development services for AI, Machine Learning, Mobile App and Web App!



Call me: +84854147015

WhatsApp: +601151992689

https://amatasiam.web.app

Email: ThomasTrungVo@Gmail.Com



My solution: GenAI + Mobile App + Web App.
Beside that use Machine Learning for Data Analysis: predict stock price is a one.




No comments:

Post a Comment