Рубріки: Новини

Microsoft MarkItDown — новий інструмент конвертації файлів для Python-розробників

Дмитро Сімагін

Компанія Microsoft представила новий інструмент MarkItDown для Python-розробників. Він має відкритий код і вже доступний для завантаження та встановлення на GitHub. Як інформує Neowin, MarkItDown — це бібліотека Python для конвертації файлів і офісних документів у формат, сумісний з мовою розмітки Markdown.

Конвертовані за допомогою MarkItDown файли можна використовувати для індексування чи аналізу тексту. Інструмент підтримує такі формати файлів:

  • PDF (.pdf);
  • PowerPoint (.pptx);
  • Word (.docx);
  • Excel (.xlsx);
  • зображення (метадані EXIF ​​і OCR);
  • аудіо (метадані EXIF ​​і транскрипція мовлення);
  • HTML;
  • інші текстові формати (csv, json, xml та ін.).

Розробники також можуть налаштувати бібліотеку MarkItDown для використання великих мовних моделей при описі зображень. Для цього потрібно встановити параметри mlm_client і mlm_model для об’єкта MarkItDown відповідно до конкретного клієнта.

Оскільки бібліотека MarkItDown доступна за ліцензією відкритого коду MIT, розробники можуть її вільно використовувати, змінювати та поширювати. Єдина вимога полягає в тому, щоб вони включали оригінальну ліцензію та повідомлення про авторські права у своєму розповсюдженні.

Markdown — це популярна полегшена мова розмітки з синтаксисом форматування простого тексту, який сумісний з HTML і XHTML. Markdown полегшує алгоритмам штучного інтелекту аналізувати та розуміти структуру тексту завдяки її послідовному та передбачуваному синтаксису. Ця мова широко використовується в багатьох сервісах та інструментах, включно з GitHub, Jupyter Notebook та іншими.

Останні статті

Amazon вводить обмеження на безкоштовне використання Kiro

Amazon Web Services (AWS) обмежує безкоштовне використання Kiro,  інструменту для вайб-кодингу, який має функціонал інтегрованого…

23.07.2025

Вийшов Python 3.14 RC1: реліз-кандидат з прискореним інтерпретатором

Команда Python оголосила про вихід першої версії реліз-кандидата Python 3.14. Це фінальна стадія перед повноцінним…

23.07.2025

16% працівників у США брешуть про використання штучного інтелекту, щоб догодити начальству

Результати опитування, проведеного компанією Howdy, свідчать про те, що кожен шостий американський працівник (16%) бреше…

23.07.2025

Oracle та OpenAI планують створити дата-центру Stargate на 4,5 ГВт

Oracle та OpenAI уклали угоду про створення дата-центру Stargate на 4,5 ГВт, повідомили Dev.ua. В…

22.07.2025

У Києві відбудеться святкування 10 років Ethereum

Ethereum Ukraine організовує офіційне святкування десятиріччя блокчейну Ethereum разом із його офіційним представництвом. Подія пройде…

22.07.2025

Ветерани з досвідом в IT можуть отримати до $20 000 на запуск tech-бізнесу

Міністерство цифрової трансформації України анонсує програму Veteran Venture Program від компанії SKELAR, яка надає шанс…

22.07.2025