Problem

I recently created a task for a student learning Russian, but when I copied the text from a webpage I got the HTML as well as the text.


Here is the “raw” text with HTML..

<p>Джейме — старший сын лорда <a href=”https://gameofthrones.fandom.com/ru/wiki/Тайвин_Ланнистер“>Тайвина
Ланнистера</a>, главы дома <a href=”https://gameofthrones.fandom.com/ru/wiki/Ланнистеры“>Ланнистеров</a>,
(богатый) семьи <a href=”https://gameofthrones.fandom.com/ru/wiki/Семь_Королевств“>Семи
Королевств</a>. В детстве Джейме не любил
читать, чтение (даваться)
ему ___ трудом, и ему приходилось упражняться
(час), с (тот) пор он не очень-то любит это
занятие.
</p>


Task 1


 

Your task is to use two different libraries to clean the raw text of HTML. Library 1 = regex (import re) / Library two = Beautiful Soup (bs4 )Ci.e. you will have two different programs that do the same thing, clean the HTML from a raw text.

The “clean” text should look like this………………….

Джейме — старший сын лорда Тайвина
Ланнистера, главы дома Ланнистеров,
(богатый) семьи Семи
Королевств. В детстве Джейме не любил
читать, чтение (даваться)
ему _ трудом, и ему приходилось упражняться
(час), с (тот) пор он не очень-то любит это
занятие.

Task 2

The final task is to measure speed. Almost always in programming there is more than one way to achieve a goal, and often the one that is quicker is better. USe google to find out how to measure the time it takes the two code solutions